fyty8888@163.com

數(shù)據(jù)學(xué)習(xí)背后的數(shù)學(xué)原理

作者:
安徽新天源建設(shè)咨詢有限公司
最后修訂:
2020-09-29 09:50:10

摘要:

數(shù)據(jù)學(xué)習(xí)背后的數(shù)學(xué)原理

張靖笙


由于工作需要和虛榮心驅(qū)使,我慢慢接受并且享受人家對我大數(shù)據(jù)專家的稱呼,雖然這么多年一線數(shù)據(jù)工作經(jīng)驗也壯了我這個膽,但在數(shù)學(xué)面前還是情不自禁要打起了哆嗦。我也專門寫過文章論述過數(shù)據(jù)和數(shù)學(xué)的關(guān)系,但這并不能掩蓋我數(shù)學(xué)認(rèn)知上的膚淺。

同樣,數(shù)據(jù)學(xué)習(xí)也是根植于豐厚的數(shù)學(xué)土壤,如果今天我們看到各種人工智能大數(shù)據(jù)應(yīng)用的如火如荼,其實是各種深厚應(yīng)用數(shù)學(xué)的開花結(jié)果,本質(zhì)上,數(shù)據(jù)學(xué)習(xí)和數(shù)學(xué)是一體的,套用我所喜愛的冰山模型來比喻,數(shù)學(xué)是整個冰山,數(shù)據(jù)學(xué)習(xí)僅僅是冰山水面上露出來的那一個角,如果沒有水底過千倍的體量支撐,這一個角也顯露不出來,說句題外話,我不想用金字塔來形容此山,因為數(shù)據(jù)學(xué)習(xí)無論如何都沒資格座在山頂。

提出數(shù)據(jù)學(xué)習(xí)的概念,我套用了機器學(xué)習(xí)的定義,當(dāng)然機器學(xué)習(xí)背后仍然是幾乎令人望而卻步的高深數(shù)學(xué),但在人工智能越演越烈的今天,我們每個人都要學(xué)會和眾多的人工智能“生命”和諧相處,就不可避免地要了解人工智能的“心思”,可以說今天我們每個人都是被數(shù)字智能時代倒逼著學(xué)習(xí)數(shù)據(jù),也要硬著頭皮面對那些當(dāng)初高懸在象牙塔尖的數(shù)學(xué)。


像我這種天生腦子并不靈光的學(xué)生,當(dāng)初學(xué)生時代的數(shù)學(xué)雖然不算太差,但肯定不會太好,于是能給我留下對數(shù)學(xué)的學(xué)生記憶,是從華南理工大學(xué)(當(dāng)時還叫華南理工學(xué)院)一年級開始的對計算機產(chǎn)生濃厚興趣之時。雖然那時的我對計算機尚且無知到把微機主板里面的大電容誤認(rèn)為是硬盤,但也不可阻擋我摸著石頭過河學(xué)習(xí)各種編程知識,這個遙遠(yuǎn)的記憶和數(shù)據(jù)學(xué)習(xí)距離不是一般的遠(yuǎn),卻和數(shù)學(xué)的距離無比地近。


當(dāng)年大學(xué)一年級我玩的是華南理工大學(xué)27號樓微機房的286,編程語言是BasicA(后面加個A表示的是高級),而27號樓微機房在當(dāng)時顯出神圣光芒之處,那里的286和BasicA居然是可以支持圖像模式編程的,而且分辨率在當(dāng)時的電腦來說還不算低,這和我高中時期走馬觀花接觸過的字符界面老蘋果微機簡直是天壤之別,于是那個微機房磁鐵一樣吸引了包括本人在內(nèi)的很多華工男愣頭青,有些人在那里玩那個美國的阿帕奇直升機戰(zhàn)斗游戲,這在當(dāng)時絕對是被膜拜的高科技。


本人卻在華工圖書館找到了一本當(dāng)年著名的沙老師編寫的《Basic高級編程》教材,里面有大量的教導(dǎo)如何用BasicA作圖的內(nèi)容,特別是那種三維幾何圖形的透視旋轉(zhuǎn)操作程序,我依葫蘆畫瓢輸入書本中的程序在屏幕中浮現(xiàn)出了各種簡單圖形,比如立方體之類,按下按鈕旋轉(zhuǎn)不同角度觀察其變化,這讓我感覺非常興奮,于是結(jié)合自己當(dāng)時所讀的船舶工程專業(yè),立下了要搞計算機輔助設(shè)計(CAD)的志向,轉(zhuǎn)行金融信息化是后話。


坦白說,早期寫程序還是很挑戰(zhàn)智商的,不像今天的程序員已經(jīng)有豐富的組件、模板、SDK、API、函數(shù)等資源可供調(diào)用,我們當(dāng)時要處理非常多的邏輯細(xì)節(jié),從數(shù)據(jù)如何被輸入,到在內(nèi)存如何存儲和加工,再到屏幕如何顯示和畫圖,越生動出彩的程序越要對其數(shù)據(jù)結(jié)構(gòu)和算法邏輯做精心的設(shè)計,所以當(dāng)我們這些早年的碼牛們終于爬到了匯編和C語言,大部分人的選擇就是果斷地放棄原來的Basic,可偏偏后者才是計算機高級語言。


由此可以看到,在算法為王的年代,我們的數(shù)據(jù)處理也就是記憶、理解這種淺表學(xué)習(xí)的水平,連決策支持的應(yīng)用層次都還觸及不到,當(dāng)然這不代表沒有應(yīng)用數(shù)學(xué),只是大多數(shù)還就只是用到中小學(xué)的數(shù)學(xué)知識,常用的包括代數(shù)、函數(shù)、數(shù)組、排列組合、矩陣計算等等,當(dāng)然我要搞CAD繪圖也需要用包括三角函數(shù)之類的解析幾何知識。


后來我在計算機方面的學(xué)習(xí)始終離不開數(shù)學(xué)應(yīng)用的深入,雖然我的數(shù)學(xué)應(yīng)用總是點到解決了當(dāng)時的問題就打住了,但還是緩慢地取得一些進步。對此我有一些體會,以前呢我們解數(shù)學(xué)題也就是為了測驗或者考試,好像都是一些純智力的燒腦難題,我這種腦子不靈光的人常常被一些題目難住了,那種看著都認(rèn)識的數(shù)學(xué)符號卻無從下手的感覺的確有些難受,內(nèi)心那種敬而遠(yuǎn)之的感覺是揮之不去的。而當(dāng)我開始搞計算機程序的時候,那個心情是很不一樣的,我們總是千方百計地想辦法把自己編的程序弄得更好使,于是心甘情愿去惡補程序所涉及的數(shù)學(xué)原理也就甘之如飴了,從這點我的感受是,兒童編程在激發(fā)小孩的數(shù)學(xué)思維方面應(yīng)該是有科學(xué)作用的,只是我小孩現(xiàn)在才小學(xué)一年級,我不急于讓她去弄計算機程序,雖然她從五歲起已經(jīng)在玩Scratch,而在蘋果版本的ScratchJr她完全可以自己編寫一些故事化的程序。


大家都知道我有多年的商業(yè)智能數(shù)據(jù)應(yīng)用開發(fā)經(jīng)驗,之前分享過點滴經(jīng)驗。既然是商業(yè)智能就不能不用數(shù)據(jù)來支持管理層的決策需求,所以我的數(shù)據(jù)學(xué)習(xí)也進化到應(yīng)用和分析的學(xué)習(xí)層級,應(yīng)用還是屬于淺表學(xué)習(xí),分析已經(jīng)摸到了深度學(xué)習(xí)的邊邊。對于這兩者,我統(tǒng)一在商業(yè)智能旗下分析其背后的數(shù)學(xué)原理。


這個商業(yè)智能首先要解決的第一個問題,是如何轉(zhuǎn)化數(shù)據(jù)為信息的問題。剛才提到的記憶、理解這樣淺表數(shù)據(jù)學(xué)習(xí)應(yīng)用不贅述了,商業(yè)智能里面有一個很常用的OLAP數(shù)據(jù)多維分析應(yīng)用。


先給大家補補OLAP這個技術(shù)的淵源。上世紀(jì)60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進了聯(lián)機事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以二維表格的形式存儲)。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。


多維分析是一種數(shù)據(jù)分析過程,在此過程中,將數(shù)據(jù)分成兩類:維度(dimensions)和度量(metrics/measurements)。維度和度量的概念都出自于圖論(graph theory),維度指能夠描述某個空間中所有點的最少坐標(biāo)(coordinate)數(shù),即空間基數(shù);度量指的是無向圖中頂點(vertices)間的距離,這個維度撐起來的坐標(biāo)空間,這個空間中每個頂點均可有對應(yīng)的取值,這種數(shù)據(jù)模型業(yè)界簡稱為OLAP cube(立方體)。


在多維分析領(lǐng)域,維度一般包括字段值為字符類或者字段基數(shù)值較少且作為約束條件的離散數(shù)值類型;而度量一般包括基數(shù)值較大且可以參與運算的數(shù)值類字段,一般也稱為指標(biāo)。


OLAP cube數(shù)學(xué)描述如下:如果用X、Y、Z代表OLAP cube的三軸,通過定義函數(shù)關(guān)系 F:( X,Y,Z)->W,W則表示每一個(X,Y,Z)元組所映射的數(shù)據(jù)集合,每個元組我們稱為OLAP cube的一個單元(cell),我們也可以簡單把OLAP cube理解為計算機程序里面常用的數(shù)據(jù)結(jié)構(gòu),多維數(shù)組,這個X、Y、Z就是數(shù)組的下標(biāo)值,而W就是數(shù)組中存儲的值,于是F:( X,Y,Z)->W就是從這個數(shù)組中讀出下標(biāo)為X、Y、Z的數(shù)組單元中存儲的值W。


因此OLAP cube可以簡單描述為“多維數(shù)據(jù)集”。cube,我們可以想象為數(shù)據(jù)指標(biāo)根據(jù)多維度封裝成的一個立方體結(jié)構(gòu)(以三維空間為例,如果維度數(shù)超過3,我們則稱為“Hypercube”),OLAP cube的數(shù)學(xué)原理我就點到這算了,我們更關(guān)心的是其用途。

我們在平時工作中,會遇到各種問題,在分析問題的時候,同樣的現(xiàn)象,我們會從多個角度去分析考慮,并且有時候我們還會從幾個角度綜合起來進行分析。這就是OLAP分析最基本的概念:從多個觀察角度的靈活組合來觀察數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律。

OLAP將數(shù)據(jù)分為兩種特征,一種為表現(xiàn)特征,比如一個銷售分析模型中的銷售額、毛利等;還有一種為角度特征,比如銷售分析中的時間周期、產(chǎn)品類型、銷售模式、銷售區(qū)域等。前者是被觀察的對象,OLAP術(shù)語稱之為“度量數(shù)據(jù)”,后者為觀察視角,OLAP術(shù)語稱之為“維數(shù)據(jù)”。


有了OLAP cube這個數(shù)據(jù)煉丹神器,很多原來白開水一樣的數(shù)據(jù)結(jié)合不同的觀察角度,就可以化腐朽為神奇讓管理者看到很多問題成因的端倪,比如把一個產(chǎn)品的銷售業(yè)績從時間地區(qū)等維度做個比較分析,我們可以從數(shù)據(jù)中學(xué)習(xí)到這個產(chǎn)品在什么時間什么地方比較好賣,那管理層就可以針對旺季熱點決定投入更多的業(yè)務(wù)資源。


再往上走,數(shù)據(jù)應(yīng)用就走到評價和創(chuàng)造這樣的深度學(xué)習(xí)程度,拋開還有爭議的創(chuàng)造,評價背后所需要的數(shù)學(xué)支撐體系是非常之深厚的,最近我們粵港澳應(yīng)用數(shù)學(xué)中心為廣州市越秀金融局搞的數(shù)字普惠金融指數(shù)研究課題,可以體現(xiàn)應(yīng)用數(shù)學(xué)在指導(dǎo)民間金融行業(yè)監(jiān)管工作中廣闊的應(yīng)用前景。


在金融評價體系中,由于金融服務(wù)的大范圍覆蓋面,業(yè)務(wù)的多樣性,高度的數(shù)字化水平等等,我們會發(fā)現(xiàn)很難用簡單的統(tǒng)計指標(biāo)準(zhǔn)確測量當(dāng)前的普惠金融產(chǎn)業(yè)發(fā)展水平,許多直接測量的表層數(shù)據(jù)都難以揭示產(chǎn)業(yè)發(fā)展內(nèi)在規(guī)律和必然趨勢,要獲得這些洞察能力,我們必須通過多個復(fù)合指標(biāo)的定量分析方法,例如這個課題研究團隊所推薦的因子分析法、熵值法、神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法、無監(jiān)督的自編碼深度學(xué)習(xí)模型等等。


可能很多人會問,一個問題需要用這么多高深的數(shù)學(xué)方法嗎?解決問題具體要用到什么數(shù)學(xué)方法其實是由問題的性質(zhì)所決定的。數(shù)據(jù)深度學(xué)習(xí)所需要解決的問題,都是需要把握根本矛盾和本質(zhì)規(guī)律才能有效指導(dǎo)我們工作實踐的問題。


剛才我提到,數(shù)據(jù)淺表學(xué)習(xí)解決的是從數(shù)據(jù)中獲得我們決策所需要信息的問題,比如剛才說的,我們做銷售總監(jiān)的人需要知道貨賣得怎么樣 ,進一步也就是需要知道什么時候賣得怎么樣。這些問題都是知其然(事實)的層面就可以直接求是(判斷和決策)的了,一般人也不具備沃爾瑪研究那些類似啤酒和尿布高頻出現(xiàn)的組合關(guān)系背后原因等問題的水平和能力,所以大部分都是人云亦云,隨波逐流。


而為什么真理常常掌握在少數(shù)人手上?因為這些人擁有一般人缺乏的獨立思考、探究質(zhì)疑、愛琢磨事理規(guī)律的思維習(xí)慣。恩格斯說:數(shù)學(xué)是研究數(shù)量關(guān)系與空間形式的一門科學(xué),對于我們所要解決的現(xiàn)實世界的問題中的,問題背后都有無限聯(lián)系的宇宙背景,對事物的關(guān)鍵因素沒有抽象和簡化就無法被我們所認(rèn)知和研究,所以所有的數(shù)學(xué)方法都不可避免存在其適用性和局限性,我們要解決具體問題,根據(jù)問題性質(zhì)要從知其然進入到知其所以然的境界,必然是需要多種數(shù)學(xué)方法和工具的綜合運用。


于是,支撐數(shù)據(jù)深度學(xué)習(xí)的必然是更多應(yīng)用數(shù)學(xué)前沿的基礎(chǔ)理論研究成果,今天我國的產(chǎn)業(yè)發(fā)展要從低端制造簡單加工轉(zhuǎn)型升級到智能制造品質(zhì)創(chuàng)造,必然會遇到很多前所未見的挑戰(zhàn)和困難,在當(dāng)今世界大勢,我們也很難再如當(dāng)初向世界科技第一強國copy2China(復(fù)制到中國),人家已經(jīng)開始卡我們科技發(fā)展的脖子了,我們要解決這些卡脖子問題,唯有從應(yīng)用數(shù)學(xué)基礎(chǔ)研究搞起,開車上路尚且要備胎,何況走上中華民族偉大復(fù)興的長征路。


如果今天有人恭維我聰明,我自己知道這種聰明也是在這幾十年的時光中,一步一步在數(shù)學(xué)的指引下從數(shù)據(jù)中學(xué)習(xí)回來的,當(dāng)然我認(rèn)為還遠(yuǎn)遠(yuǎn)不夠。