fyty8888@163.com

機器人視覺關鍵技術研究與應用

作者:
安徽新天源建設咨詢有限公司
最后修訂:
2020-07-03 15:28:26

摘要:

目錄

【簡介】

 

當前,人工智能和機器人技術已經(jīng)成為國家創(chuàng)新驅動發(fā)展的重大戰(zhàn)略技術之一。機器人視覺技術作為人工智能和機器人技術的重要組成部分,它可以通過視覺傳感器獲取環(huán)境的圖像,并進行分析和解釋,使機器人能夠辨識物體,并確定其位置。機器人視覺在電子、機械、智能機器、醫(yī)療、軍事等許多領域都有非常廣泛的應用前景。但是,由于技術方面的原因,目前高性能機器人視覺系統(tǒng)的多個技術瓶頸尚未得到突破,因此限制了其應用的發(fā)展。本次沙龍介紹機器人視覺系統(tǒng)的部分關鍵技術的研究發(fā)展現(xiàn)狀,討論其進一步發(fā)展的方向和問題。

[返回]

 

【主持人致辭】

 

顧學真:各位專家,早上好。今天是我們自動化所老科協(xié)分會舉行的第三次沙龍活動。今天沙龍的題目是機器人視覺的關鍵技術與應用。沙龍主旨報告由原魁研究員來做,他從事機器人的研究的。另一位是北京大學的查紅彬教授,他是從事計算機視覺研究的。下面咱們進入正題,請原魁老師先做關于機器人視覺關鍵技術研究和應用方面的發(fā)言。歡迎原老師。

[返回]

 

【主旨報告】

 

原魁:機器人視覺關鍵技術與應用

各位老師,大家上午好。非常高興有這個機會跟大家交流一下。我今天跟大家想交流的是機器人視覺技術方面的事情。我們所做工作有很多,今天想簡單的說一下機器人視覺相關的內(nèi)容。

首先,機器人視覺很重要,機器人視覺系統(tǒng)是智能機器人進行環(huán)境感知的主要途徑,但也一直是智能機器人發(fā)展的主要技術瓶頸,技術上遠遠達不到需求,限制了機器人視覺的發(fā)展。

工業(yè)機器人有用到視覺的。2D視覺伺服技術已經(jīng)比較成熟,得到了很好的應用,但不是很普遍。3D的也有,但是并不是很成功。

1  2D視覺伺服技術已經(jīng)比較成熟,在工業(yè)機器人上得到了很好的應用。

2  3D視覺伺服技術還任重道遠,實際應用也非常有限。

下邊簡單介紹一下機器人視覺的關鍵技術。智能機器人的控制一定是先做環(huán)境感知,根據(jù)環(huán)境和任務做控制決策,最后才執(zhí)行相應的動作。這里面對機器人視覺的要求是,首先你得看得懂環(huán)境,包括環(huán)境的感知和理解,然后可能要執(zhí)行任務,就要能夠找得到目標。簡單環(huán)境下,像咱們的天空對接是最最簡單的任務。實際上很多地方很復雜,你要找到你想要的目標是很難的。我們的學習也基本上集中在這個地方。

一定要滿足實時性要求,不像我們平時處理的任務,你學一個小時也行,學一天也行。機器人不行,機器人對實時性要求很高,我們?nèi)说囊曈X系統(tǒng)是眼睛加大腦。眼睛解決看得到的問題,大腦解決看得懂的問題。所以理解的問題實際上是機器人視覺要解決的問題。

視覺系統(tǒng)一般是硬件軟件兩個部分組成,硬件解決看得到的問題,軟件解決看得懂的問題。

現(xiàn)在的視覺系統(tǒng)國內(nèi)分幾種,一種通用型,通用計算機加不同類型的機器人視覺系統(tǒng)。再有就是現(xiàn)在越來越多的開始出現(xiàn)嵌入式機器人視覺系統(tǒng),有的是嵌入式,有的干脆做成一體,這種類型也比較多。硬件實際上除了計算機相關的之外,還包括鏡頭類的東西。比如說魚眼鏡頭,雖然會發(fā)生變形,但是視野非常大,在很多地方有特別的需要。

還有一種叫全方位視覺系統(tǒng),可以看到360度?;旧鲜沁@樣一個結構,用的比較多的是我們進行足球比賽里邊,也有不同類型的,不去講了。

普通相機得到的是2D圖像,為了獲得3D信息,可以用深度信息傳感器。當然了,目前不同類型的深度信息傳感器的分辨率低一點,也有很多種類。我們各種類型的激光傳感器,實際上它處理方式跟視覺是比較接近的,所以這種我們一般來說,它的硬件都是視覺系統(tǒng)。

圖3  深度信息傳感器

光有硬件是不行的,硬件解決看得見,軟件解決看得懂,看得懂比看得見的難度要大得多。軟件的任務是這樣的,它要對采到的視覺信息進行處理,通過處理之后,要找到給定的目標,可能還要識別這個目標到底是什么,是不是要找的那個。這里面包括兩個方面的任務,一個是要做圖像處理,一個是做模式識別。

圖像處理里邊包括預處理,有特征提取,特征提取里邊有直接的圖像特征,直接的和底層的,也有看不見的特征。有的特征計算機能夠提取出來,但是人是看不見的?,F(xiàn)在很多人工智能就是這樣,但是它就是根據(jù)那些特征識別到它找的物體。有了特征之后就可以做目標檢測。

工業(yè)機器人視覺用的不是特別多,但像這種抓點心的視覺系統(tǒng),它的特點就是速度非???,能夠把所有的點心所在的位置,都能實時識別處理。機器人控制器可以控制手臂,把雜亂無章在傳送帶上的點心撿起來,最后讓它整整齊齊地放在一塊兒。

圖4  抓點心的視覺系統(tǒng)

視覺系統(tǒng)在無人駕駛車和機器服務人方面有著廣闊的應用前景。

種服務機器人很多,比較有代表性的是日本的新一代仿真機器人,看看它現(xiàn)在都能干什么。這個機器人上邊是有眼睛的,還有各種各樣的傳感器。它現(xiàn)在已經(jīng)可以跑得很快,每小時跑九公里。它可以聽得懂三個人同時發(fā)的命令,能簡單對話。這個手已經(jīng)很靈巧了,能擰杯子。它可以主動繞開對面走過來的人,有的時候靠視覺,有的時候靠身上其他東西。能踢球,做手語。我們希望這樣的機器人能早點進入我們的生活,但是有兩個問題沒解決,一個是電源,充滿電只能工作半個小時,再一個,智能還差的很多。

圖5   仿真機器人

這樣的機器人當然也是需要有視覺的,而且對視覺要求蠻高。簡簡單單避障是很容易的,但是要理解環(huán)境,找到目標,是比較難的,所以先要識別。

現(xiàn)在需要解決的關鍵技術問題就是有良好通用性的高性能的嵌入式視覺系統(tǒng)研制開發(fā)。這也是我們在努力解決的問題。

視覺信息的高處理速度和高系統(tǒng)功耗是難以平衡,所以電源一般用的時間比較短。同時使用FPGA和DSP,能夠發(fā)揮二者的優(yōu)點。采用專用芯片,用硬件直接實現(xiàn)多種復雜操作。

下面簡單介紹一下我們所相關工作。我們所做視覺的很多很多,我們做了幾塊處理卡。有一個FPGA加DSP,我們把常用的圖像處理算法都用DSP實現(xiàn),遠遠高于普通系統(tǒng),高幾十倍幾百倍很正常的。我們用到了很多地方,這只是一個例子。這里面算法做了很多,像這種預處理基本上都是每秒做到上百幀都沒有問題。SIFT的特征點提取用我們的要快很多倍。

其中一個有代表性的工作,我們大型的武器裝備的數(shù)碼迷彩的噴涂,已經(jīng)在部隊幾個研究所驗證了好幾遍。主要工作一個就是自動建模,可以自動掃描,自動建模,生成模型。最重要的技術就是可以自動編程,可以自動生成機器人的控制程序。像這個噴涂過去是戰(zhàn)士噴的,這樣一臺車一般是五個戰(zhàn)士噴七天。國慶60大慶的時候很多車噴的所有的都是同樣的圖案,起不到偽裝作用,這個有現(xiàn)代迷彩的偽裝趨勢,自動建立模型,自動編程,這兒有一個識別,它在測距,會自動把誤差送到機器人控制器,做自動的補償,才能保證噴的寬度都是一致的,否則保證不了一致。

面向機器人視覺系統(tǒng)的MR二維碼,它的用途蠻廣的,它基本作用就是,有了它,它就可以定位,看到它之后就知道你的視覺系統(tǒng)和它的位置,而且它是專門面向機器人視覺的,所以離這么遠也可以提取出來。我們把它用到了視覺導航的AGV上,視覺導航AGV除了我們做,國內(nèi)外基本上很少,因為這個還是很難的。我們一般的AGV只能在室內(nèi)環(huán)境,我們這個是可以在室外環(huán)境跑??吹蕉S碼就可以決定你視覺系統(tǒng)和它坐標系之間的關系。還可以用到其他地方,比如說我們用到了移動機械臂上,機械臂很貴,如果把普通的AGV加機械臂之后,就發(fā)現(xiàn)機械臂和機器人的坐標系對不上。我們用二維碼的技術,現(xiàn)在是兩種,國外的機器人和我們的AGV連起來,做智能的移動機械臂,這是一個例子。這兩臺車是在隨意的移動,它的任務只是要把那邊的東西抓起來疊放在這兒,它看一眼就知道兩個之間的距離,可以對得很準。地上貼的也是二維碼,因為二維碼有信息,所以給了它位置信息。像這也是,停下來之后,兩個車之間相互的關系根本是一點都不準的,沒有一個準確的關系,但是用我們現(xiàn)在這樣的系統(tǒng)可以準確地對上。這個應用應該說在很多地方可以應用,比如說簡單的倉庫,你在超市的貨架上取東西,都可以用這種技術。

圖6  面向機器人視覺系統(tǒng)的MR-二維碼,左圖是MR-二維碼,右圖(1)和(2)是MR-二維碼在不同光照下的識別效果

到現(xiàn)在為止大概國內(nèi)是信托公司做到了,信托公司有這樣的產(chǎn)品。國外只有庫卡做了,但是他們都是用成熟的技術在做集成,成本比我們高很多。車完全是自己做的,視覺系統(tǒng)完全是自己做的,機械臂可以用不同廠家的,將來這種智能型的移動機械臂的應用場景還是比較好的。各種各樣的原因,沒有把它用上,這是一點遺憾,希望我下邊的人能夠接著做下去。

我們AGV技術也是,我們用了視覺導航,一個是不用鋪磁帶,定位的話,可以用二維碼,我們是一些地方在用,在天津的亞馬遜,還有在青島一家做衣服的公司。我們做的還有激光導航的叉車,這個技術比較成熟了。

 視覺引導AGV

我們研究所,做科研是我們的強項,做成功推廣不大行。因為做科研的人做不了銷售,這是兩類人。我們曾經(jīng)試著想做成果推廣,發(fā)現(xiàn)不行,我們還是比較弱,還是要找一些公司。今天下午有一個韓國的公司專門找我,想把我們的二維碼用到垃圾袋上,每一家的垃圾都自動有一個碼,可以遠遠看到就識別。我們的視覺技術可以用到托盤的自動對準。

簡單總結一下,視覺系統(tǒng)的應用總體上較為廣泛,但是現(xiàn)在實際能用上的確實是不太夠?,F(xiàn)在人工智能很熱,大家現(xiàn)在再靜下來仔細看看,只有兩個應用,一個是視覺,一個是語音處理。機器人視覺非常非常重要,對我們搞機器人的來說特別有這種感覺。機器人視覺系統(tǒng)發(fā)展本身確實比大家想象的要慢很多。像我們這樣的,做了硬件,沒有人做軟件,推廣起來不容易。做軟件的人只會做軟件,做的再好也沒用。比如說現(xiàn)在的深度學習,未來可能有用,現(xiàn)在用不上。所以機器人視覺系統(tǒng)還是未來的難題,謝謝大家。

[返回]

 

顧學真:謝謝原魁老師。他概括地介紹了機器人視覺的發(fā)展,目前存在的技術上的關鍵點,以及應用。咱們聽了以后很受啟發(fā)。下面查紅彬老師主要介紹機器人視覺中感知和建模方面的問題。下面有請查老師。

【邀請報告】

 

查紅彬:基于三維數(shù)據(jù)流融合的場景重建與傳感器定位技術

謝謝顧老師。今天非常榮幸,非常高興,見到這么多老前輩。本來原魁老師跟我說跟大家做個交流,沒想到見到了這么多老前輩,以前很多在不同場合見過,特別我想提到的是董士海老師,在我們學院無論是從公從私來說,都給我們很多很多幫助。今天能見到董老師,非常感謝對我的指導。

今天我要講的題目是SLAM(Simultaneous Localization and Mapping)技術,它是基于所謂的三維數(shù)據(jù)流。應該說這個SLAM技術在機器人領域里面,作為機器人視覺部分很有傳統(tǒng)的研究領域,它是個老話題,這些年討論得比較多。今天匯報有兩部分,我們在現(xiàn)在的環(huán)境下,發(fā)展到今天,再來看SLAM問題是什么問題,對這個問題給各位老師做一個交流。

其實SLAM說穿了,第一就是定位,我們一臺機器人在什么位置,這個位置要給它確定好,要在每時每刻把位置確定好。通常我們講定位,講傳感器或者機器人的時候有不同的參數(shù),一般來說有兩個不同的參數(shù),一個是位置,它在三維空間中XYZ是什么樣的值。另外是什么方位,對著哪個方向,也需要三個參數(shù),所以我們基本上要定六個參數(shù),它在空間中的什么位置,是什么樣的姿態(tài)。這塊原魁老師已經(jīng)說過了。Mapping是測繪,我們講機器人的時候是說建一個小構圖,比如說我進到房間里面,我要知道房間是什么樣的結構,如果沒有結構三維描述的話,我要建一個房間構圖。我們一般來說機器人在4G環(huán)境中工作的時候,一方面要知道傳感器的定位,另外要知道環(huán)境怎么樣,三維結構。在機器人應用當中也是兩個不同的子任務來做的,比如說導航這部分,用GPS進行大規(guī)模的導航,還要MV做一些小范圍的導航。另外設置一些標志,像二維碼這些東西,來幫助機器人導航。所以是把它看成是一個單獨的問題來做。當然了,像GPS也好,MV,有他們精度和分辨率的問題在里面,通常在應用中不是很方便。

其實這兩個問題是相互依存的,我要做定位的時候,通常我們是需要知道地圖的。如果沒有地圖,我沒法看清楚我環(huán)境當中是在什么位置。另外我要建一個地圖,傳感器的姿態(tài)我要知道,我要不知道傳感器的姿態(tài),放不到一起去。后來搞計算機視覺研究的人就覺得應該把這兩個問題放到一起考慮,不應該獨立開,所以就形成了SLAM。

我們在這種假設條件下,怎么來把這兩個任務同時完成,讓機器人,或者讓其他的一些移動終端,或者移動傳感器能夠更好地完成我們所要求它所做的工作。這是我們所講的SLAM的基本概念。

機器人應該說現(xiàn)在越來越多,一個很重要的特點,機器人傳感器系統(tǒng)是在移動中工作的。以前拿一個攝像頭擺在那兒,這個傳感器本身是固定的。我們現(xiàn)在講的傳感器,基本上都是可移動的。像自動駕駛,自動駕駛的車,傳感器都是裝在車上,車每時每刻都在移動,所以傳感器的移動性很強,提出的各種要求也很高。要做好傳感器和觀測目標都在運動變化情況下的定位,是最難的。我們現(xiàn)在講智慧城市,里面需要把不同的位置的信息,以不同的形式放在一起幫助我們做很多事情。這些都需要同時做定位和建模。

我們現(xiàn)在講機器人很重要,移動傳感器很重要,單就定位來說,對我們?nèi)藖碚f,我們定位或建模都非常重要。世界上沒有哪個人工系統(tǒng)能像人的視覺系統(tǒng)一樣定位做的好。我們每時每刻都在動,我們睜開眼睛都看到一個場景,但是你的頭怎么擺,不會看到場景在晃動。我們拿攝像頭擺來擺去,肯定看到場景是抖動的,但是我們?nèi)烁杏X不到。所以人是非常非常好的,具有很好定位能力的傳感器。當然人有很多巧妙的東西在里邊,比如說耳朵里面有定位的傳感器,另外大腦里面,對于每一個行動都有一個控制指令,這個指令也會傳達給感知系統(tǒng)。

現(xiàn)在在機器人領域,或者說在人工智能領域,現(xiàn)在對定位這個東西越來越重要了。今年馬上要在澳大利亞開一個很重要的機器人方面的會,關于定位的論文就占了將近三分之一,應該是非常大的比重。在計算機視覺更多的還是深度學習,但是在定位領域會越來越多。

我們從4D的角度出發(fā),我們現(xiàn)在用的大量的視覺攝像機,如果有三維的傳感器的話,這個工作會做的非常簡單。所以三維傳感器是非常關鍵的,五年前我們講SLAM的時候,講的不是很多,因為當時傳感器水平比較低,現(xiàn)在傳感器水平有比較大的提升。微軟之前有一個Kinect傳感器,它很重要的就是每時每刻能夠檢測到三維的信息。我這個傳感器到不同的空間的距離它能測出來。攝像機只能有規(guī)律的變化,而它能夠把每一個點的三維位置檢測出來。這個傳感器也有很多局限性,精度很低,分辨率很低。但是有個好處,速度快,便宜,大概一臺一兩千塊錢就能買一臺?;旧衔覀兡沁叺膶W生每人有一臺。這樣的話三維傳感器就有很多應用了,像手勢識別,包括三維空間的感知,用的很多。它自然也會給SLAM帶來很多影響。同時有很多傳感器,移動,便宜,大家都能有,帶來很大的進步。

8 微軟的Kinect三維傳感器

但是反過來說,有這么多傳感器,但是從應用角度看,它們是不是足夠好呢?如果把這些三維傳感器拿來,把這些三維的應用拿到一起,是不是就可以滿足要求呢?不是這么簡單。盡管我們有一些很好的傳感器,但是要做到4D的應用,差距很多。主要有幾個方面,一個是數(shù)據(jù)本身的信息,還有處理的復雜性。

圖9 問題與對策

第一個就是數(shù)據(jù),盡管我們會得到三維數(shù)據(jù),但是數(shù)據(jù)本身非常粗糙。我們現(xiàn)在要面對的環(huán)境是一個大環(huán)境,是一個動態(tài)的環(huán)境。例如自動駕駛時,你自己在動,同時周圍的車輛行人也在移動變化,我們要對付的是這樣的復雜場景。但是我們的傳感器精度并不夠。另外有一個很大的問題,就是采樣不均。二維圖像數(shù)據(jù)能排列得非常整齊,但是我們的三維數(shù)據(jù)排的并不是很整齊,數(shù)據(jù)量遠遠大于二維圖像,特征取列獨特和困難?,F(xiàn)在各種不同的傳感器,有立體視覺的,不同的傳感器之間的差別也比較大。對數(shù)據(jù)本身,要考慮其不確定性。所以要用概率統(tǒng)計的方式做處理。

第二個,我們應用時間性很強的,數(shù)據(jù)在不斷地往里流入。所以在流進來的數(shù)據(jù)你可以做實時交互。但是有一個很重要的,你不能做包處理。你處理的時候,你要每時每刻都要考慮到數(shù)據(jù)它本身是什么樣的性質,然后得到結論。一個很重要的要求是我們現(xiàn)場要處理掉。但是同時,既然數(shù)據(jù)源源不斷進來,數(shù)據(jù)之間有很多關聯(lián)性,前面的數(shù)據(jù)和后面的數(shù)據(jù)有很大的相關性,如何利用數(shù)據(jù)流時間上的相關性,這是非常重要的,這也是必須利用的。因為講視覺技術都是圖像識別,有什么樣的物體,什么樣的分類,這都是靜態(tài)的。但是數(shù)據(jù)流進來之后就是動態(tài)的,這是計算機視覺里面比較重要的方面。

第三個問題,定位和Mapping互相關聯(lián)的關系。其實我們講定位的時候,可以放很多別的傳感器幫助我們定位。虛擬現(xiàn)實的頭盔上面裝了很多小圓球,就是通過環(huán)境的攝像機來定位,所以環(huán)境能夠來幫助你定位。這時候是環(huán)境當中能夠幫助你攝像頭存在的時候才能這么做,一旦你到了新空間,到外面去就不行了。所以要盡量擺脫這種東西來幫我們定位。

我們講的定位有六個參數(shù),Mapping的參數(shù)更多,一般來說解決這個問題就是非常復雜的分析性優(yōu)化的問題,這是我們目前為什么大家都在注意SLAM問題,會給計算等等帶來很多挑戰(zhàn)。

第四個問題,數(shù)據(jù)的實時處理。對所采集的數(shù)據(jù),你必須實時處理完成。這個實時性的要求也非常強。我們要使操作過程對輸入的數(shù)據(jù)流有很好的適應過程,把在線的學習,機器學習這些問題能夠很好地用到這里面來,才能幫助你使這個過程能滿足實時性的要求。有很多機器學習的方法,比如說在線學習就是一個例子。例如在家里,我手機的攝像頭一直都開著的話,各種各樣的數(shù)據(jù)不斷地往你手機里面跑,這些數(shù)據(jù)都可以用來學習。我可以把家里面的構圖做好,我在什么位置可以給我定位,能夠每時每刻了解你的行為和動作。從這個角度來看,我們講的定位,這跟我們?nèi)嘶钪粯?,終生不斷地學習過程。只要設備是開著的,數(shù)據(jù)不斷地進來,幫你做定位,幫你繪制構圖,同時也是一個學習過程。所以實時處理是很重要的要求,同時也給我們帶來了很好的研究的機會。

下面我再給大家具體說一下這些問題怎么解決。這里面解決了一些,從概念上非常容易想到的辦法,但是很多需要下一些功夫。數(shù)據(jù)的不確定性,我們可以用概率統(tǒng)計的方式,對數(shù)據(jù)進行建模。數(shù)據(jù)流怎么辦?能不能很好地利用數(shù)據(jù)之間的時間的一貫性,另外用傳感器的姿態(tài)做定位,像更好的一些優(yōu)化的東西,能不能幫助我們解決優(yōu)化的問題。像實時處理,我們其他一些更好的節(jié)省計算量的方法可能要開發(fā)出來。

這里有一些對策,我給各位介紹一下相關的研究。我前面講的第一個問題,就是數(shù)據(jù)的不確定性的處理。我們做定位也好,做建模也好,要有一個通用的空間的描述,這個描述有了以后能夠把這些做好??臻g的描述就是方位構圖,有各種各樣的描述方式。以前講的描述方式是“零、一”關系,里面有物體就是一,沒物體就是零。但是現(xiàn)在描述空間可能不是“零、一”的關系,對空間只能有一個概率的描述。應該把這個場景的面的存在的概率是多少先計算出來,用一些推理。如何用更復雜的非參數(shù)的推理來做,有一系列問題在里面。能不能把三維空間看成格子狀的結構,這里面的每一個點它到底在不在這個面上,它有一定的概率,把這個概率數(shù)據(jù)收集進來以后,數(shù)據(jù)對概率產(chǎn)生了改變,我可以更有把握地說有這個表面。通過我進來的每一個采樣點對這個空間的概率分布做修正。這是這篇文章所做的工作。我們實驗室有些學生對這方面做了更好的改進,現(xiàn)在投到了ECCV這個國際會議上,把空間的表示用概率的描述表示了。

第二個方面的工作,我們講的要做定位,要做建模,就是優(yōu)化問題。有很多不同的方法,最核心的還是要把你所謂的重要的因素,構圖當中一些重要的因素怎么考慮進來。比如說這是室內(nèi)環(huán)境的布圖,里邊有各種各樣的結構特征,把這些特征很好地提取出來,建立圖模型,這個圖模型出來以后,對它用概率統(tǒng)計方式做優(yōu)化。

第三個,我們考慮動態(tài)變化的環(huán)境。我前面講做定位等等都是傳感器在動,環(huán)境不動,現(xiàn)在是環(huán)境也在動,動的因素更多了。怎么樣能夠把環(huán)境當中動的因素也考慮進來。要把變形跟實時處理結合起來,我兩邊之間數(shù)據(jù)是有變化的,它時間比較短,我能不能把這兩個點之間看成是變形,把這兩個點連起來之后就能描述這個運動了。

我們通過三維的數(shù)據(jù)融合得更好,找到比較好的空間、數(shù)據(jù)的表達方式和分析方式。解決幾個問題,數(shù)據(jù)是不斷地增加的,數(shù)據(jù)的增加過程有它的難點,但更多的給我們帶來的是好處。慢慢地數(shù)據(jù)越來越多,數(shù)據(jù)帶來可靠性,能夠幫助我們使最后的結果越來越好。特別講時間和空間的相關性,應該是非常重要的主要因素。對不確定性因素,應該用比較好的統(tǒng)計方式處理。另外數(shù)據(jù)不能只在一個層面去處理,只是看點不夠,只看一條線也不夠,只看一個面也不夠,要把不同層次的東西都考慮進來。這三方面只要在哪一塊有突破的話,能給機器人視覺領域帶來比較大的突破。我就講這些,謝謝大家。

[返回]

 

【討論與交流】

 

顧學真:謝謝查老師。他講了傳感器獲取信息、三維的數(shù)據(jù)融合方面的問題,這是人工智能里很重要的一部分。人工智能在社會上炒得很熱,但是確實還存在很多問題。對人來說,要看這個東西,從我腦子里的印象里這個場景,到要找的東西是在哪兒,對我們正常人是最容易的事。但是現(xiàn)在看來完全要靠機器實現(xiàn)這一過程,還是有一定的難度的。我們什么時候能攻克這些東西,人工智能就往前進了一步,機器的智能方面也往前進了一步。下面大家自由發(fā)言交流,大家可以談自己的看法和建議,也可以請原魁老師和査老師對報告里的問題做進一步的說明。原魁老師和查老師也可以提一些問題拿出來讓大家議論議論,你們的觀點是什么,是不是大家對這樣的想法有同感,或者有不同的想法,你們也可以提一些問題出來。

原魁:我們沙龍就是請大家來討論,看看有什么共同感興趣的話題,如果大家對我們做的工作感興趣的話,我可以利用這個機會再稍微詳細一點,因為剛才講的很粗。

董士海:我覺得這是一個當前非常熱點的問題。我對此確實不熟悉。我說一個事情,最近Google的(自動駕駛)車撞死人了,Uber撞死人了,這是法律問題。但是從科技的角度來說,怎么能夠在一定的條件下,盡可能實時地盡快地的測出有人意外的躥到馬路上去了,原因是什么?在無人車視覺系統(tǒng)中,現(xiàn)在有沒有解決類似突發(fā)事件的辦法?

第二個問題,現(xiàn)在的機器視覺,深度檢測對光線有一定的條件。我如果晚上開車,是不是條件又受到了一定的限制?在深度信息和光線的明暗信息有什么樣的限制,能不能達到更高的要求?

另外還有一個,采用多模態(tài)的檢測。我自己覺得,語音的識別和語音的生成,這個已經(jīng)做得比較好,就是說,不光語音的翻譯也好,語音的檢測也好,做得相當?shù)暮?。但是視覺這方面難度相當大。能不能把聲音和圖像這兩者結合起來,不必在大量的數(shù)據(jù)處理以后才能檢測這個問題。

原魁:我們做機器人的人,非常注意這個信息。Google 的車,現(xiàn)在還沒有公布事故原因,基本上判定車沒有責任,但是它沒有及時檢測到。無人車上面裝了很多很多個傳感器,實際上它檢測的話應該能夠檢測到的,很可能是把某一些傳感器關掉了,特別是側面檢測的傳感器很可能是關掉了。現(xiàn)在無人車最重要的傳感器是64線的激光雷達,好幾個側面激光雷達,應該覆蓋到所有的地方,它那個很可能側面的某一個關上了,沒有檢測到。所以它那個信息沒有處理。

無人車上的判測裝置有兩大類,一類是這樣的(用激光雷達),另外一類是希望通過視覺系統(tǒng)來實現(xiàn)的。視覺肯定有問題,天氣不好的時候就不行,激光雷達大部分都行,但是激光雷達也有不適應的環(huán)境。

第三個問題,語音這個,語音是一維的信息,視覺至少是兩維的,車在路上是六維的,這樣一來處理的信息量遠遠大于語音。語音處理現(xiàn)在也是復雜背景的時候就不行了,所以語音技術用到無人車上大概不太好用。要說在十米之外檢測到他本人大概可以,檢測預測到他的行為方向和動作,這件事情還是很難的。他突然間撞過來,再剎車來不及了。這樣的問題,不大容易解決,還是法律的問題要探討,看這樣的問題到底責任在誰。

查紅彬:剛才講的自動駕駛的事情,這個屬于小概率事件。小概率事件通常來說是很難碰到的。但起碼給我們搞人工智能的人一個提醒,是不是應該反省一下現(xiàn)在的方法是不是特別依賴于機器學習了。我們講機器學習的時候,主要是依賴訓練數(shù)據(jù),經(jīng)過大量的數(shù)據(jù)訓練它,最后它能夠應付這些情況。這個車可能跑了幾十萬公里,幾百萬公里的數(shù)據(jù)在里面,對這個車的性能做了很多修改和訓練,但是可能就沒有現(xiàn)在碰到的場景,誰突然出來撞你車前面去。他沒有數(shù)據(jù),就沒有把這種問題考慮進去?,F(xiàn)在我們單純說依靠訓練數(shù)據(jù)來做,現(xiàn)在人工智能最熱的部分是不是也有它的問題在里面?現(xiàn)在還有所謂的遷移學習,不同的情況下會怎么樣,這樣的話會給我們搞人工智能的人這方面的解釋和啟發(fā)。

第二個,把小概率事件完全消除掉,對任何產(chǎn)品都不太可能,關鍵是你這個產(chǎn)品成熟之后,進入市場之后多年,才可能把小概率事件暴露出來。自動駕駛還沒有到這個程度,還在試的階段。

第二個講到圖像和語音和視覺怎么融合?,F(xiàn)在很多人在講,每年項目評審出來的也很多,要把什么什么融合起來。但是融合的效果并沒有提高很多。問題在哪兒?很多大家并不是真心實意地想融合起來,而只是為了申請項目。視覺也好,聽覺也好,還有很多問題沒有解決,如果融合之后,有成果很難,發(fā)文章也很難,干什么事情也很難,人家也不愿意去做。其實人做動作時,大腦里面是有指令的,這個指令馬上給了你的控制系統(tǒng)。你有指令下來以后,你當然要用其他的感應信息,這樣的話就能幫助你做這件事情。自動駕駛也是這樣做的,車子怎么動,全是有指令的,左轉多少,右轉多少,盡管有很多不確定因素,但是這個指令是可以感知到的。很多東西如果能夠結合起來,確實能夠解決很多問題,但大家還是沒有感覺到我結合起來真的能夠把它做好,或者真的拿出東西出來,這也是目前面臨的問題。

張尤臘:我覺得視覺方面的一些研究工作,應該屬于應用研究。應用的背景非常強烈,很明確,我就是針對這個來做的。如果這樣的話,我覺得現(xiàn)在最大的問題還是傳感器的問題,如果這個問題解決好了,其他問題好解決得多。要做分析識別,現(xiàn)在微型機很大一部分都能解決。

剛才討論了很多,我對這個自動駕駛車的問題,在中國花這么大力量,我總不覺得是一個應該投的方向。自動車最大是問題在中國是行人橫穿馬路。你怎么去實行無人駕駛?根本做不到。我覺得醫(yī)療方面是中國是最需要解決的問題,13億人,如果能夠在醫(yī)療方面做的好一點的話,可以解決中國很大的壓力。

比如說去醫(yī)院看病,心臟覺得有點不對,就去掛號看醫(yī)生。他要實時監(jiān)測我心臟的情況,但是設備常常需要預約到十天半個月之后,到那時癥狀可能已經(jīng)消失而監(jiān)測不到了。是不是可以通過手機監(jiān)測信息,通過手機傳到醫(yī)院,這樣就能在很大程度上解決問題。還可以在網(wǎng)上醫(yī)療做一些前期的工作?,F(xiàn)在手機上可以下載一些應用軟件,就可以檢測你的血壓、心率,血糖的飽和度,某種心理上的狀態(tài),它都可以檢測。這個當然不太準,但是還是有用的。所以我就特別希望是這樣的,像自動化所,希望能夠有更多的力量,在健康,保健醫(yī)療,在這個領域里頭多做一點工作。我上次看你們的網(wǎng),好像有一個部門做這個事,希望加強。在這個問題上,如果想抓中國實際的狀態(tài),這個應用我認為是至關重要的。

張恭清:問題還是回到傳感器。如果要做到這一步的話,必須我們在家里就能夠得到很多個人健康的信息。甚至于你早上在廁所里,它就能夠把這些數(shù)據(jù)及時傳到醫(yī)院里去,這時候就是用云的,或者虛擬的醫(yī)院,里面有很多機器人在這兒給大家做診斷。

桂文莊:手術機器人肯定需要視覺技術。

原魁:實際上手術機器人的視覺只是幫人看,操作還是人?,F(xiàn)在還有放療機器人,它能夠把測的圖像,把癌癥的部位檢測到之后,傳給機器控制器,然后自動發(fā)射X線,去殺死癌細胞。把醫(yī)診和視覺技術結合比較好的。國內(nèi)有這個領域,叫智慧醫(yī)療,但是這個問題太復雜,有這么多人,每個人情況都不太一樣,你早上和晚上保證血糖不一樣,各種情況都不一樣。包括現(xiàn)在講基因檢測之類的,你感冒檢測出來了,你吃藥不吃藥都要一個星期的。我以前做過智能型的康復輔助,這類東西和基因技術關系比較密切。

查紅彬:這個事情國內(nèi)做的人很多,中國做這個事情比外國更有利。外國有很多東西被法律捆住了,臨床上很難動。中國相對來說松一點,中國可能在醫(yī)療應用方面可能比國外更容易。確實有很多人做,大家做來做去,最后問題癥結是什么呢?這個東西應用性很強,不能只是紙上談兵,必須到醫(yī)院利用起來?,F(xiàn)在最大的問題是利益關系,醫(yī)院不愿意放棄既有利益。我要自動化了,數(shù)據(jù)都讓你拿走了,很多人沒飯吃了,醫(yī)院不干。很多東西到最后阻力在醫(yī)院,醫(yī)院不想干這個事情。

張尤臘:你說的非常對,上次我去深圳參觀一個公司,就是做網(wǎng)上醫(yī)療,大概有500多人。那里頭的人不是專門搞IT的,一大半是醫(yī)學方面的博士生畢業(yè)的在那兒。他們有一部分做咨詢,給人感覺很好。比如說我看病之前先詢問一個,專門有人像接線員一樣,在網(wǎng)上值班,可以咨詢他。很多類似的東西,他已經(jīng)在網(wǎng)上做了一部分了。我問他,你這個系統(tǒng)在哪兒應用?發(fā)現(xiàn)都在三線城市,二線城市都上不去。為什么呢?我的利益怎么跟你捆綁在一塊兒,這個問題馬上就出來了。事實上可以做一部分的。

查紅彬:就像北大講醫(yī)療大數(shù)據(jù),北大做的話很有優(yōu)勢,附屬醫(yī)院那么多。最后一看,統(tǒng)一不起來,還是沒法做。

張恭清:您剛才講的SLAM技術里面,核心的關鍵的部件是傳感器,3D的數(shù)據(jù)采集。像2D的咱們都比較了解,比如說電視圖像,它出來的格式都已經(jīng)成為一種固定的,所以大家很快可以把后面的工作跟上去做。3D這方面是不是也已經(jīng)有了,數(shù)據(jù)的格式,出來的格式。是不是有一些標準?

查紅彬:三維傳感器很多,數(shù)據(jù)本身有很多不同的格式,但是本身數(shù)據(jù)的性質沒有像二維圖像那么規(guī)整。三維圖像不規(guī)整,所以很難用統(tǒng)一的方式描述它。為什么會有這樣的原因呢?一般來說,并不是靠一般的光學來感知就能解決這個問題,必須靠別的手段。比如說激光打到物體表面,激光點可以找到物體信息,但是這個點并不規(guī)整,你得到的信息就不一樣。二維圖像處理方法比較好的,一般變換,小波變換,它的基礎是排列整齊,把一般的變換變成快速變換。三維數(shù)據(jù)做不到。也許將來有一天可能解決,但目前做不到。

董士海:是不是空間數(shù)據(jù),地形,這些數(shù)據(jù)已經(jīng)有規(guī)范了。比如說Google的地圖不僅可以看平面,還可以看立體,比如我用無人機,就可以把數(shù)據(jù)拍下來,生成三維的場景,我覺得像類似的某一個情景下,可以制定一些標準,包括從地圖,地形,可以給它標準化。但是對某一個物體來說,五花八門,很難得到確切的數(shù)據(jù)結構來描述它。

原魁:那個是廠家提供數(shù)據(jù)格式,你說的是通用的,三維地形圖是一致的,它提供出來商用的東西的時候,是可以規(guī)范化的。但是傳感器廠商各自有各自的,原理一樣的會比較接近。

胡包鋼:原老師您更偏硬件,這次我想提的問題是關于芯片的。您怎么看國內(nèi)在芯片?特別是跟我們所相關,芯片到底中國處于什么狀態(tài)?這也是國內(nèi)的弱項。查老師您舉到CDPR,可能十年前更高端了,但是現(xiàn)在華人可以超過一半。研究有一種是應用驅動的,這里邊實際上是認知科學的問題,雖然中國數(shù)量上來了,未來在基礎理論上你怎么評價?我理解還是很重要的,理論很重要,應用驅動沒問題,但是在理論上有弱項。您怎么看中國在理論方面也能走在前面?問題在什么地方?包括嵌入式系統(tǒng),原老師做的很好,我們中國到底處于什么位置?您文章也很多,理論上有什么東西,請您講一講。

原魁:這個問題本身,芯片種類太多,咱們芯片得聚焦。如果是用到視覺上的話,實際上現(xiàn)在成熟的視覺芯片還沒有。視覺做不好的原因是因為它的場景千變?nèi)f化,如果做統(tǒng)一的處理,你像我們的手機,現(xiàn)在拍二維碼,咱們都是二維碼識別了。我當年研究二維碼,提我的方案的時候,國內(nèi)絕大多數(shù)人都不知道二維碼是什么。我把國外的幾種二維碼特點研究了一下。它是因為背景相對簡單,你拍的時候一定是能找到這個碼本身,找到范圍,再去做相應的處理。這種單一應用是可以用芯片的,它算法簡單。咱們所想做的事情太多,最初我們學術委員會提建議,把一個算法變成能實現(xiàn)的算法。但很難,沒有多少人能做這個事情。我們的博士生前三年是最基本培訓的,后面一年多是做實際應用的,因為他要了解圖像處理的基本特點,要了解編程特點,這些都學會了才能做一些工作。所里要同時做兩個方向,算法和將其實用化,兩個復雜度差得很多,用的芯片肯定不能是一類,架構也不一樣,資源也不一樣。但是作為芯片,有特殊應用背景的芯片,如果有特殊明確的應用,算法能夠基本固定的,做成芯片是可以的。叫做深度學習的算法有很多種方法,實現(xiàn)起來功能各不一樣。我們現(xiàn)在叫人工智能芯片的,多如牛毛,每個都不一樣。經(jīng)過一年左右的沉淀,國內(nèi)對人工智能這一塊沒有原來那么熱了,就像當初炒作3D打印一樣的,人工智能也是一樣,現(xiàn)在回頭看,我們做大數(shù)據(jù)應用的是一類,但是到了機器人視覺技術,就只剩下特定場景下的信息處理問題。這兩個做成芯片都有難度,除非把應用場景定下來。一些特殊的傳感器是一定要有專用芯片的,哪怕范圍受限,我這個處理這幾種,那個處理那幾種。所以用一種芯片處理一個事情,永遠不是解決的方法。

胡包鋼:現(xiàn)在用的芯片還是國外的?

原魁:比如激光雷達,我就知道國內(nèi)不只一家在做,但是它不是用芯片,它是用一個系統(tǒng)。這個問題太大,芯片一直是咱們國家的短板和痛點,現(xiàn)在還沒解決。

查紅彬:現(xiàn)在在一些頂尖會議上,我們的論文并不少,甚至超過了歐美很多國家,但質量是一個大問題。說到質量問題,這個不僅僅是限制在計算機視覺領域里面。從一些最佳論文來看,他們都有一些特點,一是不僅有很好的新的想法,而且能夠說服你,讓你覺得有它的原理在里面。第二個,很有意思的是,這些文章一大部分是來自于相同的實驗室或相同的導師。

我們從這兩個東西來看,看國內(nèi)的問題癥結在哪兒。第一點就在于,我們通常所講的“有用”,這個“用”怎么去解釋?現(xiàn)在講一定要應用起來,要出產(chǎn)品。其實這個并不只是用。發(fā)文章,有人說文章有用,有人說文章沒用。其實這個用,有的時候失敗也是有用,失敗多了也是有用。我說見了很多好文章是一種積累過程。為什么是同一個導師同一個實驗室那兒出來的做,不是一個學生積累的,是長期積累的,前面的學生什么也沒做出來,失敗了,但是給后面的學生積累了東西。這在國內(nèi)是很難的。我們說有用的時候,不能只是說你要用起來,做成產(chǎn)品。無論你是做產(chǎn)品,你做文章,真的有用沒用,研究的結果會怎么樣,你的積累的結果會怎么樣,這都和有用沒用有關系的。現(xiàn)在國內(nèi)還是需要有積累。但是這個積累,在目前國內(nèi)的氛圍當中很難做下去。為什么說實驗室失敗沒法再往下做,就是環(huán)境不允許你這么做,你這么做的話,將來你就沒飯吃了。所以還是從心態(tài)上面,從科研環(huán)境上和國外差距太大。

桂文莊:查老師講的我認為是一個基本問題,你得把周圍信息收集出來,能夠形成一個圖像出來,一個地圖。這件事情,實際上我覺得視覺是最重要的基礎工作。從原老師的傳感數(shù)據(jù)形成圖像,識別它,再去做決策。后頭那一塊,嚴格地說應該不屬于狹義的機器人視覺了。視覺就是看見周圍的東西,把它整合成清晰的圖像,理解它是什么,這就應該是視覺。要判斷這個人怎么走動,要識別這是哪個人,要做一些預測出來,還要做決策,這后面大部分都是現(xiàn)在的人工智能最關鍵的東西,也是最難的東西。所以我在想,咱們收回來,說到狹義這個事情,我想問問查老師,你剛才講的非常好,我覺得和人的識別相比,這個人識別,比如說我兩個眼睛看東西,看到是立體的,因為是有兩個眼睛。你現(xiàn)在那個傳感器要把深度測出來,和眼睛的機制是不一樣的。人要形成圖像,在人腦子里頭,它有深度的感覺,但是不是精確的深度,我看查紅彬離我兩米多三米,這是憑經(jīng)驗。但是機器處理一定是非常精確的數(shù)字,這就有很大的區(qū)別了。人腦子里識別的東西和機器需要處理的東西,它是不一樣的。這個不一樣,對我們將來搞機器人視覺的發(fā)展有什么樣的影響?因為咱們講智能,講人工智能,在很大程度上是希望能夠模擬人怎么樣去認識,人怎么樣去處理。當然最后機器因為它的一些特性,它可能比人處理的更好,這有可能。但是這個機制不一樣,這在你們現(xiàn)在的研究中,有沒有什么樣的意義?比如說人看到的這樣一個場景,它里頭到底是個什么東西?

查紅彬:在人工智能里大家都與說要跟很多領域結合起來,比如說類腦計算,很多人工智能領域大家都這么說。我感覺人工智能這個領域里面,視覺部分應該相對來說跟腦之間的關系不是那么特別的緊。為什么呢?視覺是從圖像數(shù)據(jù)開始出發(fā),是從底向上的。但是腦更多地牽扯到,就像您剛才講的,是高層處理的東西比較多。視覺更多的是數(shù)據(jù)處理,并沒有說我的處理機制要像人那種。其實統(tǒng)計學習理論和大腦里邊的原理,大家有的說是相似的,但是是不是,大家也不管,只要把人臉識別出來就行,至于人腦是不是這么做的,不去管它?,F(xiàn)在的人臉識別和大腦識別完全是兩碼事。我給你一個數(shù)據(jù),你機器人識別出幾千個幾萬個數(shù)據(jù)。但是人怎么能識別?家里的親人,稍微近一點的人能識別,更多的人就做不到。大家還是沒有管太多之間的關聯(lián)。但是大腦之間的機理是應該有很大幫助的。我們?nèi)S世界里面好多問題不好解決,您講的兩個問題非常重要,第一個,人立體視覺很管用,為什么機器就難了?人是兩個眼睛,很容易,但是你這個對應點不好找,大家都在想辦法把立體視覺的對應點找出來。人進入房間很快就能找到大致的空間感知,但是我們要解決這個問題,從高層往下的處理要利用起來。我對距離并不是那么嚴格的,我喝水的話,這個杯子離我多遠,你說不出來。為什么你要看,因為你想喝水,你看杯子,手怎么動,這一系列都是從高層下來的。沒有這個的話,你看眼睛和杯子的距離是沒有用的。從這個意義上來講,大腦有很多處理這樣一些處理過程當中可能會提供有幫助的東西,但是在視覺系統(tǒng)里面還不是過于強調(diào)這個。

桂文莊:從視覺將來的發(fā)展來看是不是更多的考慮大腦來研究問題?

查紅彬:應該是這樣的。

桂文莊:我覺得人的大腦是了不起的,比如說我開車,反應非???,下意識就反應出來了,處理的速度非常非???,消耗的能量非常少。這在機器來說是沒法做到的。像這些問題,一定和它的處理機制有關系?,F(xiàn)在中國搞腦計劃,一方面搞腦疾病,另外一個方面,自動化所就是腦計算機模擬大腦,這方面的工作有沒有什么樣子的想法和進展?

原魁:這個話題比較敏感。我們對大腦的理解大概只有5%,剩下都是不知道的。類腦就是仿腦,你只知道腦的5%,包括美國的計劃,人家不搞類腦計劃,而是搞腦科學本身的。腦子本身怎么辦,現(xiàn)在說不清。我們做機器人的人要考慮實際的執(zhí)行的,實際上執(zhí)行的決策本身有一套潛在規(guī)則。我們?nèi)讼乱庾R做一些動作,實際上人腦子里也是有潛在規(guī)則的。我們做的有一類傳感器,專門檢測跟物體的相對距離的,不要特別精確,我接近的時候,不需要那么精確。只有在完成操作的那個時間我才需要精確。我接近的過程中基本都是粗的,不需要精確。傳感器也是有多種,有的是不同的原理。有的打了很多個點,打成矩陣,防止你漏掉一些東西。像64線的,剛才說的要50多萬,四線的激光傳感器要20多萬。我們用個攝像頭,把激光源調(diào)試一下,成本就很低。這個工作是有人做的。你不這么做拿不到經(jīng)費。國際上也是曾經(jīng)熱過,我知道歐洲的腦計劃面臨著困難,瑞士為主的那個是被強行停掉了,因為它做的時候,有點過分了,被歐洲的一些主流的搞科學的很多人一塊來把他給彈劾掉了。所以歐洲的腦計劃處于半停滯。美國人的腦計劃基本上是疾病類的,不做計算類的。我們現(xiàn)在人工智能主要是百度在做,他比人家落后很多,百度自己沒有核心技術,它現(xiàn)在立足點很不穩(wěn)。

董士海:怎么把我們現(xiàn)在的技術再提高一步?我覺得要把人工智能的機器學習,大數(shù)據(jù)的統(tǒng)計,要把這個因素加進去。比如說,現(xiàn)在國外識別癌癥的圖像,大量的數(shù)據(jù)讓它學習,最后比有經(jīng)驗的專家判斷的準確率要提高。我們這兒的數(shù)據(jù)不愿意共享,所以這個發(fā)展不上去。而人工智能確實需要人在不斷地學習過程當中積累的經(jīng)驗。比如像阿爾法狗下棋,不斷給他各種數(shù)據(jù),最后得到一個最好的結果。我們的研究要提高一步。我國外有一個學生,他是在搞一個一個行業(yè)的人工智能的技術應用,非常熱門。就是某一個領域如果用了這個東西,它就可以上去了。我覺得我們國內(nèi),國家規(guī)劃,政策,要考慮你怎么調(diào)動各方面的積極性,讓人工智能上去。我看到一篇文章說,國外的數(shù)據(jù)標記行業(yè)非常發(fā)達,一大批的沒有經(jīng)過高等學校學習的人,都在搞數(shù)據(jù)標記。為什么呢?我拍一百萬張照片,哭笑都要標記一下,嘴巴張大了,這是笑,眼睛下來了叫哭。一百萬張照片下來以后,他說這個就是笑,這個就是哭,他就可以學了。但是得有一批人做標記的工作。這個是癌癥,模模糊糊的是癌癥,邊緣清楚的是腫瘤,得有一套數(shù)據(jù)。國外有一大批人在做數(shù)據(jù)標記,我們國內(nèi)現(xiàn)在是大量的農(nóng)民工以后要轉行搞數(shù)據(jù)標記。這個工作量非常大?,F(xiàn)在搞字模,幾萬個字幕錄入特征值,找了大量的人做制模的工作,沒有制模的工作就沒有排版。

胡包鋼:特別響應兩位老師講的,怎么上個臺階。包括腦子這個事情,我去年也做了,也想跟查老師交流。我們不是都切片了,自動化都切片是不對的,應該看怎么從計算層面研究類腦。拉格朗日方程我們都知道,一個約束加上去。大腦用不用拉格朗日?有些做類腦的,實際上都是炒概念,我評價就是不是真正的在做。像你剛才講的PPT里有一篇文章講平面的約束,等式的約束。大腦是不是拉格朗日,你怎么證明是不是拉格朗日?我們?nèi)ツ昃妥隽擞美窭嗜?,我們初步的研究認為它是全局的約束。雖然我們也說類腦、計算大腦和生物腦不見得非得一樣,但是在計算層面上,在原理上做,很多文章,好多事情可以做。也不是說全切片去了,那我們自動化所干嘛去了?我現(xiàn)在提出一個說法,都得數(shù)學去描述,黑箱是怎么個機理,還得靠數(shù)學模型要去揭示它。

類腦科學要和生物腦并行著走,要更高地往上走。深度學習現(xiàn)在已經(jīng)炒到人家說叫煉金術了,人家就是學術交鋒。國內(nèi)人工智能就是炒概念,開會你講我也不能說你錯,沒有學生交鋒。在國外人家就說你是煉金術,沒有理論。中國人要考慮這個問題。光應用也沒有問題,你有沒有理論?能不能指導你往上走?知識和數(shù)據(jù)頂層和向下要結合的,理論是什么,怎么研究大腦原理性的東西,我覺得這蠻對的。中國必須得跳出來,從理論上也要總結點東西。沒有理論指導的話,你走不遠,你只能做應用,你永遠跟在人后頭,最重要的就是基礎理論。國家講的是對的,應用芯片都要去做,但是基礎理論最重要。現(xiàn)在沒有人安心去做,像我做也是退休去做,我不管你評估了。大腦說白了就是一個通訊,你做大腦,你用信息論了沒有?你沒用信息論,就別跟我談腦科學。

查紅彬:人的大腦處理信息超過一定信息以后,你必須用信息論來描述腦的這個過程。

胡包鋼:如果沒有信息論,別跟我談腦科學,有了還不夠。一定要重視基礎理論。你說哪幾個做腦科學的用信息論了?你說你做類腦,有什么信息論?大腦就是通訊。

查紅彬:搞計算機的人講大腦的時候很少把信息論用上,但是搞醫(yī)學的還拿信息論來說事情,但是從書中可以看到信息論定義是錯的。

原魁:你這個問題太大,基礎理論包括了多少東西,到某一個課題某一個方向的時候,到底什么是基礎。

胡包鋼:中國人是可以創(chuàng)造原有的知識,怎么樣往上走。不是光說大,你得有勇氣在學術理論上往前走。

洪繼光:最近華為手機里,說是有人工智能的處理,它的手機里都處理什么東西?

原魁:現(xiàn)在AI已經(jīng)被炒爛了,過去叫做智能控制,智能傳感的,都被他們歸在AI里面了。過去搞智能控制的人不知不覺也變成人工智能的人了。華為用了什么沒有對外公布,最主要是兩種,一種是照相,手機現(xiàn)在很重要的作用是照相,比如自動對焦這種地方可能會用到算法,這個算法是很固定的。另外你上網(wǎng),打電話肯定不會用人工智能的,上網(wǎng)的時候,它會有些推送,它根據(jù)你的上網(wǎng)習慣,根據(jù)你瀏覽的內(nèi)容,它會有意識地去記錄,按照你的習慣,向你推送你感興趣的內(nèi)容。這類工作的的確確是人工智能或者AI很典型的應用,這是把所謂的大數(shù)據(jù)用上了。它會把很多熱點,會有一個提示,最近發(fā)現(xiàn)你什么習慣,有意識地給你推了什么東西。我估計華為所謂的AI是這兩方面。但是它是變成了硬件的,在芯片里邊有一部分,可能把有一些東西做到了,因為所有東西都要從里面過,通過它的規(guī)則,根據(jù)這個來做的。AI的定義太泛,稍微做一點和智能有關的就叫AI。

洪繼光:計算所也搞了個AI芯片,細節(jié)你清楚嗎?

原魁:細節(jié)我不清楚,他是把深度學習做到芯片里。所謂的深度學習有很多,實際上深度學習一點不新鮮了,過去只是說計算量太大,它就是層級多了,過去我們只能用三層,到現(xiàn)在為止,人工神經(jīng)網(wǎng)絡用到控制上的根本沒有。應該也是把一部分算法放到他們的芯片里,到底放了多少,在多大程度上解決了哪類問題最有效,這個是不知道的。

查紅彬:比如說像剛才董老師提到我要做人臉識別,這么來做就是不同的大量的網(wǎng)絡要做,他們也希望做通用的,網(wǎng)絡很大,做出來之后,能夠在不同的應用中用起來。人的大腦一個非常重要的性質是大腦里邊的每一個計算單元,能夠改變自己的一些局部的結構。將來能不能想辦法把它做成結構非常類似的東西,現(xiàn)在人為的能夠改變處理結構,像人腦大面積地去改還是很難。像人腦大面積地去改,就是單純的強運算的計算機,也不需要操作系統(tǒng)等等。他們應該是自己想做這種類型的,還沒有做下去。

桂文莊:今天沙龍開得很好。問題是當前的熱點問題,也比較前沿。我們一方面討論了計算機視覺現(xiàn)在的狀況,現(xiàn)在的基本問題和應用,同時也討論了這個研究方向應該怎么發(fā)展。我個人覺得,其實機器人視覺是和應用聯(lián)系得非常非常緊密的東西,它和純粹搞數(shù)學、天文、物理不一樣,它是一門應用科學。但是它里頭也有著非常多基礎性的問題。搞這種東西總得兩個輪子前進,一個方面要應用驅動,隨著應用需求,你會提出很多很多的問題要研究,因此它推動了這門學科的發(fā)展;另外一方面,也要從基礎理論的體系上,從科學技術本身的發(fā)展規(guī)律上去發(fā)展。這兩個輪子不可偏費,不可只顧一頭。理論上的重要突破會對實踐發(fā)生重要的作用。所以我覺得研究機器人視覺一定要兩條腿走路,既要重視應用,也要把基礎的東西繼續(xù)發(fā)展扎實。剛才查老師講的,實際上就是一個場景地圖處理的問題,其實里頭的問題還非常非常多,還有很多很多事情,怎么樣更準確更快的把這個東西實現(xiàn)出來,這里頭有非常多的問題,還沒有很好的發(fā)展。原老師講的應用更是五花八門,未來的應用現(xiàn)在想不到的太多了。

國家提出人工智能的發(fā)展是一個大的戰(zhàn)略。雖然現(xiàn)在社會上有點炒作的問題,什么東西都弄成智能的了,包括配鑰匙也是智能配鑰匙了。但是人工智能確實是我們下一步長遠發(fā)展的核心的技術。就像“互聯(lián)網(wǎng)+”一樣,人工智能的“+”一定會推動各個產(chǎn)業(yè)的發(fā)展。所以我覺得這個議題是非常有意義的。

咱們自動化所分會去年開的“類腦計算”學術沙龍也非常好,雖然類腦的事情大家還有不同意見,但是那也是一個非常前沿的,非常值得重視的事情。腦科學的東西,未知的東西更多。但是科學就是要發(fā)現(xiàn)前沿,發(fā)現(xiàn)未知的東西。像這樣的方向,科學院應該很好地去做,應該去做那些前沿的、具有科學價值的東西,不然老是跟著人家跑,老是人家有什么新的概念咱們就跟著去干。深度學習也不是咱們提出來的。到了哪一天中國的科學家能夠提出自己的思想,自己的理論體系,自己的新的顛覆性的創(chuàng)新,這個時候我們才真正的強起來。人工智能,無論從理論還是從應用上,都是一個非常大的領域,要好好發(fā)展。

顧學真:今天的沙龍很好,原老師和查老師做了很好的報告,大家也充分地進行了交流和討論。大家對視覺下一步怎么來做提出了很多想法,胡包鋼還講到我們自動化所要怎樣進一步做人工智能。我現(xiàn)在不知道咱們所現(xiàn)在對信息論比較感興趣的,或者想去做的人數(shù)多不多,或者有沒有這個課題。咱們自動化所建所的時候,信息論也是作為很重要的一門課程。咱們研究所要進一步要發(fā)展,基礎理論研究方面要提高。一個是信息論,還有一個,系統(tǒng)理論。這兩個抓起來,這自動化所是立于不敗之地的很重要的東西。只有把這兩個方面搞扎實了,后面應用的東西才有底氣,有中國特色的。

感謝兩位老師為了這個事做了精心準備,也感謝鄧力同志對會議的形式也做了充分的準備,還有院老科協(xié)的領導來參與,來支持我們。另外,還要感謝董老師和張老師來參加我們的沙龍,他們提出了很好的建議。我們這個活動得到了院老科協(xié)的指導,所的領導的支持,我想我們今后的活動肯定能辦得更好,謝謝大家,沙龍活動到此結束。