智與理的結合:當數據治理遇上人工智能
近日,中國移動研究院發(fā)布文章,解說了數據治理和人工智能兩者之間各自發(fā)展歷程,論證了兩者在結構功能上的相互作用,闡明了兩者共同發(fā)展的前景。
Part 1
數據治理:大數據產業(yè)生態(tài)系統(tǒng)中的新熱點
近些年來,隨著大數據在各個行業(yè)領域應用的不斷深入,數據作為基礎性戰(zhàn)略資源的地位日益凸顯,數據標準化、數據確權、數據質量、數據安全、隱私保護、數據流通管控、數據共享開放這些問題越來越受到國家、行業(yè)、企業(yè)各個層面的高度關注。更多的人開始意識到,大數據一方面給現有信息技術體系帶來了大挑戰(zhàn),需要更多的研發(fā)投入和創(chuàng)新;另一方面,也需要營造更有利于大數據產業(yè)健康有序發(fā)展的良好環(huán)境,這樣一來,數據治理的概念就越來越多受到了關注,成為目前大數據產業(yè)生態(tài)系統(tǒng)中的新熱點。
在上世紀80年代,隨著數據隨機存儲和數據庫技術應用,產業(yè)界首次提出了數據管理的概念,這就是數據治理最早的起源。2009年,國際數據管理協(xié)會(DAMA)發(fā)布了數據管理知識體系DMBOK1.0,提出DAMA數據管理理論框架模型,成為了目前行業(yè)最權威的數據管理理論模型,DAMA 數據管理模型包括10個活動職能,分別是數據治理、數據架構管理、數據開發(fā)、數據操作管理、數據安全管理、參考數據和主數據管理、數據倉庫和商務智能管理、文檔和內容管理、元數據管理和數據質量管理。2015年,DAMA 新發(fā)布的DBMOK2.0知識領域中又將該模型擴展為11個活動職能。在2012年,另一個行業(yè)組織數據管控協(xié)會 (DGI,The Data Governance Institute)提出了DGI數據管控框架模型。2014年,軟件工程研究所(SEI)基于軟件能力成熟度集成模型(CMMI),提出數據能力成熟度模型(DMM)。2015年,一個主要面向金融保險行業(yè)數據管理的公益性組織企業(yè)數據管理協(xié)會(EDM Council),提出數據管理能力評價模型(DCAM),另外還有像Gartner提出的企業(yè)信息能力成熟度模型(the EIM Maturity Model)、IBM企業(yè)數據管理能力成熟度模型以及一些咨詢公司如畢馬威、普華永道等發(fā)布的細分行業(yè)數據管理體系架構等。、
在我國,2015年,工信部電子技術標準化研究院制定《數據治理白皮書》國際標準研究報告。2017年,工信部信息通信研究院發(fā)布《數據資產管理白皮書》。2018年4月,國家大數據標準化工作組發(fā)布了國家標準《數據管理能力成熟度評估模型GB/T 36073-2018》(簡稱《DCMM模型》)。2018年5月,銀保監(jiān)會印發(fā)《銀行業(yè)金融機構數據治理指引的通知》。近年來,國內各行業(yè)大型企業(yè)也紛紛發(fā)起企業(yè)內部數據治理項目,制定數據治理規(guī)范,成立專業(yè)的數據管理實體團隊來開展企業(yè)數據治理工作。
上面提到的這些種種數據管理模型,奠定了此后諸多行業(yè)化、定制化數據管理模型的基礎,各個企業(yè)紛紛在這些已有理論模型基礎上擴展、裁剪、引申、演化,可謂百花齊放。
企業(yè)開展數據管理類的工作,除了使用“數據治理”這個詞,業(yè)界也經常使用“數據管理”、“數據管控”、“數據資產管理”等說法??傊?,這幾個詞語,概念略有差異,內涵基本一致,大家做的事,基本都跳不出DAMA數據管理模型的范圍。
Part 2
人工智能:大型科技企業(yè)爭奪未來的主戰(zhàn)場
提到人工智能,近年來可謂炙手可熱,產業(yè)界資本的積極布局,國家政府層面的大力宣傳,還有一些像自動駕駛、機器人、智能客服、語音識別等方面實際應用的涌現,使得人工智能方面的人才身價倍增,很多大型科技企業(yè)也緊隨趨勢,成立了AI研究院、人工智能研發(fā)中心等實體組織。百度李彥宏宣稱:“百度公司將不再是互聯(lián)網公司,而是一家人工智能公司”。中國移動也高度重視人工智能,于2017年發(fā)布了“九天”人工智能平臺,正努力將人工智能技術應用在 網絡、市場、服務、安全、管理和衍生業(yè)務等多個領域?!本腿缫痪涠巫铀f:現在混在科技圈的,如果不說自己搞人工智能,都不好意思跟人打招呼。
人工智能已經成為了大型科技企業(yè)爭奪未來的主戰(zhàn)場,雖然尚不清楚,借助了更大的數據量(大數據)、更快的計算力(GPU)、更強的算法技術(深度學習等),過去數年間這個一度沉寂的領域,這一波的爆發(fā)能持續(xù)多久的時間,但技術發(fā)展一般都呈現波浪狀,大數據的一波未平,人工智能一波又起,隨著人工智能和社會各行業(yè)各領域不斷融合和創(chuàng)新,相信在這新一輪的科技革命和產業(yè)變革進程中,人工智能技術將扮演更加重要的角色。
人工智能的研究范疇包括自然語言處理,知識表現,智能搜索,機器學習,知識獲取,組合調度問題,感知問題,模式識別,神經網絡等等,它的目標是希望計算機擁有像人一樣的智力能力,可以替代人類實現識別、認知、分類和決策等多種功能。
人工智能更是歷史悠久,1959年,計算機科學之父圖靈發(fā)表了一篇劃時代的論文《計算機器與智能》,文中提出了人工智能領域著名的圖靈測試:如果電腦能在5分鐘內回答由人類測試者提出的一系列問題,且其超過30%的回答讓測試者誤認為是人類所答,則電腦就通過測試并可下結論為機器具有智能。1956年,達特茅斯會議推動了全球第一次人工智能浪潮的出現,當時樂觀的氣氛彌漫著整個學界,在算法方面出現了很多世界級的發(fā)明,其中包括一種叫做增強學習的雛形(即貝爾曼公式),增強學習就是谷歌AlphaGo算法核心思想內容。現在常聽到的深度學習模型,其雛形叫做感知器,也是在那幾年間發(fā)明的。第一次人工智能冬天出現在1974年到1980年,人們發(fā)現邏輯證明器、感知器、增強學習等等只能做很簡單、非常專業(yè)且使用場景很窄的任務,稍微超出范圍就無法應對。在80年代出現了人工智能數學模型方面的重大發(fā)明,其中包括著名的多層神經網絡(1986)和BP反向傳播算法(1986)等,也出現了能與人類下象棋的高度智能機器(1989)。于是,大家又開始覺得人工智能可能還有戲。
然而,1987年到1993年現代PC的出現,讓人工智能的寒冬再次降臨。當時蘋果、IBM開始推廣第一代臺式機,計算機開始走入個人家庭,其費用遠遠低于專家系統(tǒng)所使用的Symbolics和Lisp等機器。相比于現代PC,專家系統(tǒng)被認為古老陳舊而非常難以維護。于是,政府經費開始下降,寒冬又一次來臨。人們開始思考人工智能到底往何處走,到底要實現什么樣的人工智能。之后,出現了新的數學工具、新的理論和摩爾定律。人工智能也在確定自己的方向,其中一個選擇就是要做實用性、功能性的人工智能,這導致了一個新的人工智能路徑。由于對于人工智能任務的明確和簡化,帶來了新的繁榮。標志性事件就是1997年IBM深藍戰(zhàn)勝國際象棋大師。2011年,“深藍”的同門師弟“沃森”在美國老牌智力問答節(jié)目《危險邊緣》中挑戰(zhàn)兩位人類冠軍,又使人工智能更上了一層臺階。2016年3月15日,谷歌研發(fā)的AlphaGo挑戰(zhàn)圍棋九段高手李世石,最后AlphaGo以4:1擊敗李世石,完爆人類,由此將人工智能推向了高潮。人們開始意識到機器智能已經在很多領域超越人類,甚至有人擔心,未來機器人會控制人類,人工智能的發(fā)展已經到了前所未有的高度。
數據治理和人工智能,看似不相關的兩個詞,他們兩者放一起,會發(fā)生什么故事呢。
Part 3
確保數據質量和安全是發(fā)展人工智能的第一需求
如今,企業(yè)對于全面數據治理的需求從未如此強烈。監(jiān)管機構希望企業(yè)能更加清晰地了解數據,對它進行有效的管控;企業(yè)管理層希望理清數據資產,降低數據應用的復雜性,對企業(yè)進行更高效的管理;企業(yè)員工也開始認識到數據的重要性,更多地采用數據驅動的方式來開展工作。數據治理正迅速發(fā)展成一種企業(yè)核心策略,只有做好數據治理,讓數據更加準確完整,并且安全合規(guī),才能釋放出數據的無限潛能,挖掘出更多有價值的數據應用。
而人工智能技術在應用和實踐中,確保數據質量和數據安全是最基礎的底層保障。由于人工智能的落地應用效果會受到數據質量和安全的影響,更多的企業(yè)開始反思并轉而去推動數據質量和安全的提升,提供數據質量和安全評測工具,建立好的數據環(huán)境,再進行人工智能應用的同步研發(fā)。
大數據是人工智能技術研發(fā)、訓練的關鍵,是人工智能長期發(fā)展的重要保障。只有當人工智能系統(tǒng)能夠獲取更為準確、及時、一致的高質量數據,才能提供更有效、有用、精準性高的智能化服務。根據埃森哲在2018年4月的一份調研發(fā)現,中國制造企業(yè)在運用人工智能技術時面臨一系列挑戰(zhàn)。其中,52%的受訪中國企業(yè)將數據質量列為突出挑戰(zhàn),數據安全與網絡安全緊隨其后(47%)。在2017年4月的一次研討會上,圍繞人工智能話題,華為任正非提出:“高質量的數據是人工智能的前提和基礎”。當前,不管是人工智能技術的研發(fā),還是人工智能應用領域的發(fā)展,“數據質量”都是一個不可或缺、位于重中之重的要素。
人工智能發(fā)展的另一個重點保障就是數據安全,人工智能系統(tǒng)的基礎是大數據,要對外提供服務,就會涉及數據的安全保護,在這個過程中,一系列的數據安全防護手段是必不可少的,如數據脫敏管理,對敏感信息的風險評估、使用監(jiān)控,對數據的泄露檢測,數據庫保密檢查等。人工智能需要海量的數據,人工智能技術的進步取決于各種來源數據的可用性,如何確保這些數據的安全性與保證用戶數據的隱私性是數據質量之外又一個重要問題。同時,通過對業(yè)務數據應用語義計算、數據挖掘、機器學習、知識圖譜、認知計算等人工智能技術,也可以促進企業(yè)數據安全保障體系完善。因此,數據安全和人工智能兩種技術起到了相互促進、相互完善的作用。
Part 4
搭借AI東風 傳統(tǒng)數據治理悄然向“智能化”升級
經過多年的理論更新、技術演進和應用實踐,與前些年前相比,如今的數據治理從概念到技術已經發(fā)生了很多變化。特別是隨著這一波人工智能浪潮的重新興起,數據治理技術和人工智能技術在一些方面也開始有了結合使用,應用了人工智能技術的新一代數據治理可以稱之為“智能化數據治理”。
數據治理工作中,可以通過對大數據應用機器學習技術,作數據挖掘和分析,來識別哪些可能是用戶隱私性數據、哪些數據可能有異常,一旦數據特征被確認,打上標簽,未來再做數據管理時,就可以使用元數據管理的方法機制,對外提供服務。比如當碰到涉及的某特殊標記數據,就會有相應的流程啟動,或在相關的數據對外服務提供過程中,一旦數據涉及個人隱私,則一定要小心處理,以避免引起政策方面的風險。通過上述應用,可以增強大數據系統(tǒng)數據安全管理和元數據管理的能力。
另外,也可以在針對大數據開展數據質量核查過程中,配合傳統(tǒng)根據預置的質量核查規(guī)則進行核查的方式,僅針對少量核心核查規(guī)則,從大數據中選取訓練數據樣本,經過預處理,利用機器學習算法進行深度分析,提取公共特征和模型,可以用來定位數據質量原因,做數據質量問題的預測,并進一步形成知識庫。這樣就可以更進一步增強大數據系統(tǒng)數據質量管理的能力。
對于數據模型的管理,機器學習技術可用來分析數據庫中數據實體的引用熱度,通過聚類算法自動識別數據模型間的內在關系,還可以用于數據模型質量的檢測和評估。對于非結構化數據的管理,像文檔內容,圖像,音頻,視頻,更是可以充分利用人工智能中的自然語言處理、圖像識別、語音識別、視頻處理等技術。
Part 5
大數據治理如何全面擁抱AI
大數據治理,顧名思義,即基于大數據的數據治理。大數據,一般指符合4V特征的數據,包括社交數據,機器數據等,大數據對傳統(tǒng)數據治理工作帶來很多的擴展。在政策和流程上,大數據治理應覆蓋大數據的獲取、處理、存儲、安全等環(huán)節(jié);在數據生命周期管理各階段,如數據存儲、保留、歸檔、處置時,要考慮大數據保存時間與存儲空間的平衡;大數據量大,因此應識別對業(yè)務有關鍵影響的數據元素,檢查和保證數據質量;大數據還需要定義與其內容相關的元數據,需與傳統(tǒng)數據定義標準保持一致,術語字典應包含大數據的術語,需要為非結構化數據提供分類、語義支持,Hadoop、NoSQL數據庫的技術元數據也同樣需要納入元數據存儲庫管理;此外,在隱私方面,應考慮社交數據的隱私保護需求,制定相應政策,還要將大數據治理與企業(yè)內外部風險管控需求建立聯(lián)系。
數字化時代,大數據治理應該如何和人工智能技術深度結合,人工智能技術在大數據治理領域能有哪些應用,下面提供一些簡單的思路。
數據安全管理
當前已經有許多行業(yè)信息安全解決方案都開始使用機器學習算法來識別潛在的系統(tǒng)攻擊,通過機器學習可以建立用于檢測異常情況的“正?!毙袨榈幕€,一切不符合基線標準的異常情況都能及時預警和處理。
元數據管理
互聯(lián)網企業(yè)使用機器學習,分析用戶點擊過哪些鏈接,為用戶生成畫像,打上特定的標簽,來做商品、內容的推薦和優(yōu)化用戶搜索結果。這些描述用戶消費形為、興趣偏好特征的元數據信息,已經成為互聯(lián)網企業(yè)得以生存發(fā)展的核心數據資產。
數據質量管理
在金融行業(yè),銀行信用卡發(fā)卡部門很早就開始利用機器學習技術,來識別不合規(guī)的申請人、虛假申請信息以及可能存在欺詐性的交易行為。此外,既然機器學習可以識別信息系統(tǒng)中的異常數據,那它也可以檢測制成品或食品中的異常情況。企業(yè)可以通過將實體物品生產過程數字化,然后使用經過訓練的機器學習系統(tǒng)來識別不符合標準或規(guī)格的產品數據,挑出異常數據,從而部分替代人類檢測員的工作。
非結構化數據管理
近年來,利用機器學習的人臉識別系統(tǒng)能力一直在提高,已經大量應用在識別已知的犯罪分子、員工上班考勤、或者識別公共場所中超出規(guī)范或違反法律的行為或活動。而醫(yī)療行業(yè),則可以利用機器學習工具,通過對大量紙質和圖像病例資料的訓練學習,構建醫(yī)療知識庫,輔助專業(yè)醫(yī)護人員,診斷疾病并提出最有效的治療策略。
各類社交網站每天都在產生著大量非結構化數據,企業(yè)可以利用機器學習技術來實時發(fā)現和識別潛在的問題,手寫識別、語音轉寫、自然語言處理技術也在不同場景中大量應用,可以提高人們識別、理解和處理非結構化數據的能力。
數據共享開放
企業(yè)可以充分利用人工智能技術,以信息化、自動化方式,共享和開放一部分數據或數據加工結果,對外提供服務,提升企業(yè)競爭力。最典型的就是現在各種客戶服務機器人,可以使用自然語言處理技術處理回答客戶提出的常見問題,并隨著時間的推移提高答案的質量。據悉,中國移動客戶服務系統(tǒng)中機器服務的比例已經提升到了20%。
另外一個常見的應用領域就是營銷推薦,在許多行業(yè)中,將適合的產品投放到正確的位置對于商業(yè)成功至關重要。機器學習系統(tǒng)可以使用企業(yè)收集的用戶數據,根據用戶過去的購物習慣預測可能喜歡的物品,再將預測結果數據向企業(yè)電商系統(tǒng)或銷售決策系統(tǒng)開放。Facebook前科學家Jeffrey Hammerbacher曾感嘆道:“我們這一代最聰明的大腦,沒有花多少精力思考如何利用人工智能改善人們的生活,而是思考怎么讓人們點擊更多廣告…”。
數據資產分析
物聯(lián)網(IOT)的大發(fā)展提供了許多潛在的機器學習使用場景,其中就包括預測性維護,企業(yè)可以使用歷史設備數據開展預測分析,推斷機器可能發(fā)生故障的時間,使其能夠在影響業(yè)務運行之前主動進行維修或安裝更換部件。對于物流企業(yè)來說,設置時間表和路線是一件復雜而費時的工作,機器學習系統(tǒng)可以通過對交通數據的分析和監(jiān)控,幫助企業(yè)規(guī)劃貨物運輸路線及計劃,提出最有效和最具成本效益的方法。
另外,在金融市場交易中,每個交易者都希望在市場上找到能讓他們低買高賣的模式,大的金融機構更是花費重金,使用人工智能技術針對金融交易數據做深度的分析挖掘,打造自己的量化交易系統(tǒng),以期望能在變幻莫測的市場風云中更早一步識別潛在的風險和機會。
Part 6
讓懂數據治理的人來做人工智能
2018年5月,中國國際大數據博覽會上,中國科學院院士梅宏發(fā)表演講中表示,大數據治理體系建設是我們國家實施大數據戰(zhàn)略的重要保障,是發(fā)揮大數據作用,做大做強大數據產業(yè)的重要因素,也是關鍵基礎。當下,做人工智能的企業(yè)很多,人工智能的基礎就是大數據,數據首先要能互通、共享,如果數據不通,標準不一致,質量不高,就很難做分析、建模,更談不上預測的準確性。開展數據治理則能為企業(yè)提供一個高質量的數據工作環(huán)境,促進人工智能技術的研究和實踐??傊?,數據治理是人工智能的基礎,想做人工智能,需要先把數據治理這個基礎打好。
對大型科技企業(yè)來說,面對日益激烈的競爭環(huán)境,企業(yè)亟需進行數字化轉型,一方面要做好數據治理,另一方面,數據治理政策也對人工智能發(fā)展發(fā)揮著重要的影響。
作為歐盟“史上最嚴”的數據保護法規(guī),備受關注的《通用數據保護條例》(General Data Protection Regulation,GDPR)于2018年5月25日正式生效,相關組織機構需于該生效日起遵照新規(guī)行事。一方面,GDPR適用的地域范圍不僅限于歐盟境內,也適用于提供業(yè)務給歐盟境內個人的境外組織機構;另一方面,GDPR在全面加強個人信息保護、強調用戶知情權、訪問權和被遺忘權的同時,對相關組織機構提出更為嚴格的合規(guī)要求,并以最高罰沒其全球營業(yè)額的4%或2千萬歐元(以金額較高者為準)為條例的施行保駕護航。
GDPR的制定者認為,在大數據時代,隱私權就是人權。根據這一條例,個人消費者可以享有更多權力,并通過對違規(guī)行為的嚴厲處罰,更好地保護消費者的數據資產和個人隱私。但同時, GDPR將會對國內互聯(lián)網及商業(yè)科技公司會產生長遠的影響。有業(yè)內人士表示:“如果歐盟對GDPR的執(zhí)行力度非常嚴,中國企業(yè)會“中槍”99%的條款?!睂σ韵M者數據應用為主要業(yè)務的國內科技公司來說,更不可能成為例外。GDPR是一部重整全球數據秩序的法令,將成為未來全球網絡空間規(guī)則的基石。GDPR對基于個人信息搜集和隱私驅動的中國互聯(lián)網產業(yè)收入模式將產生重大影響,甚至可能是顛覆性的影響。
此外,我國對個人信息保護方面,《信息安全技術個人信息安全規(guī)范》于2018年5月1日的正式實施,已經對我國科技公司產生了實質性的影響。過去幾年,隨著我國大型科技企業(yè)在人工智能領域突飛猛進的發(fā)展,從支付領域的身份識別(人臉、指紋、虹膜、語音識別)到信貸領域的大數據風控,我國科技企業(yè)通過使用消費者數據,提供了智能化服務便利性的同時,由于法律制度和文化環(huán)境等因素,在保護消費者隱私的合規(guī)性方面做得還不到位。
未來,以歐盟為代表的監(jiān)管者,拿著“GDPR”大棒,隨時對違規(guī)企業(yè)進行處罰。在這種內外多重因素的推動下,開展數據治理,以及對數據治理的政策研究和應對,將成為企業(yè)人工智能技術應用過程中亟待解決的重大問題。
Part 7
管理數據資產,決勝智能時代
隨著數字時代的到來,企業(yè)在開展數據治理和人工智能研究研發(fā)工作中,兩者的結合必不可少,近年來一些互聯(lián)網企業(yè)在享受人工智能技術紅利的同時,存在數據認知不清、數據治理不當、客戶隱私數據使用不合規(guī)等現象,出現了不少負面事件。要防止大數據和人工智能的濫用和失控,應該從人工智能的源頭 – 大數據上開始建立科學的數據治理體系,包括數據的質量規(guī)范、制度政策、管理流程、職責定位和技術管控工具。數據治理體系是對商業(yè)價值和用戶隱私,以及企業(yè)長期利益和短期利益選擇的基礎,建立數據治理體系是一個長期的過程,對于大型科技企業(yè),都應當在數據治理的規(guī)范和約束下應用大數據,挖掘數據資產價值,提供人工智能服務。
結語
數據治理是人工智能的基礎,數據治理的目的是在業(yè)務價值驅動下提供高質量的大數據,而人工智能本身是大數據應用的一種商業(yè)模式,數據治理和人工智能就好比一枚硬幣的正反面一樣密不可分,數據治理強調修煉內功,人工智能側重預測未來。