機(jī)器人視覺關(guān)鍵技術(shù)研究與應(yīng)用

作者：: 安徽新天源建設(shè)咨詢有限公司
最后修訂：: 2020-07-03 15:28:26

摘要：

簡(jiǎn)介
主持人致辭
主旨報(bào)告

原魁：機(jī)器人視覺關(guān)鍵技術(shù)研究與應(yīng)用

邀請(qǐng)報(bào)告

査紅彬：基于三維數(shù)據(jù)流融合的場(chǎng)景重建與傳感器定位技術(shù)

討論與交流
主要專家簡(jiǎn)介：
展開

【簡(jiǎn)介】

當(dāng)前，人工智能和機(jī)器人技術(shù)已經(jīng)成為國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展的重大戰(zhàn)略技術(shù)之一。機(jī)器人視覺技術(shù)作為人工智能和機(jī)器人技術(shù)的重要組成部分，它可以通過視覺傳感器獲取環(huán)境的圖像，并進(jìn)行分析和解釋，使機(jī)器人能夠辨識(shí)物體，并確定其位置。機(jī)器人視覺在電子、機(jī)械、智能機(jī)器、醫(yī)療、軍事等許多領(lǐng)域都有非常廣泛的應(yīng)用前景。但是，由于技術(shù)方面的原因，目前高性能機(jī)器人視覺系統(tǒng)的多個(gè)技術(shù)瓶頸尚未得到突破，因此限制了其應(yīng)用的發(fā)展。本次沙龍介紹機(jī)器人視覺系統(tǒng)的部分關(guān)鍵技術(shù)的研究發(fā)展現(xiàn)狀，討論其進(jìn)一步發(fā)展的方向和問題。

[返回]

【主持人致辭】

顧學(xué)真：各位專家，早上好。今天是我們自動(dòng)化所老科協(xié)分會(huì)舉行的第三次沙龍活動(dòng)。今天沙龍的題目是機(jī)器人視覺的關(guān)鍵技術(shù)與應(yīng)用。沙龍主旨報(bào)告由原魁研究員來做，他從事機(jī)器人的研究的。另一位是北京大學(xué)的查紅彬教授，他是從事計(jì)算機(jī)視覺研究的。下面咱們進(jìn)入正題，請(qǐng)?jiān)蠋熛茸鲫P(guān)于機(jī)器人視覺關(guān)鍵技術(shù)研究和應(yīng)用方面的發(fā)言。歡迎原老師。

[返回]

【主旨報(bào)告】

原魁：機(jī)器人視覺關(guān)鍵技術(shù)與應(yīng)用

各位老師，大家上午好。非常高興有這個(gè)機(jī)會(huì)跟大家交流一下。我今天跟大家想交流的是機(jī)器人視覺技術(shù)方面的事情。我們所做工作有很多，今天想簡(jiǎn)單的說一下機(jī)器人視覺相關(guān)的內(nèi)容。

首先，機(jī)器人視覺很重要，機(jī)器人視覺系統(tǒng)是智能機(jī)器人進(jìn)行環(huán)境感知的主要途徑，但也一直是智能機(jī)器人發(fā)展的主要技術(shù)瓶頸，技術(shù)上遠(yuǎn)遠(yuǎn)達(dá)不到需求，限制了機(jī)器人視覺的發(fā)展。

工業(yè)機(jī)器人有用到視覺的。2D視覺伺服技術(shù)已經(jīng)比較成熟，得到了很好的應(yīng)用，但不是很普遍。3D的也有，但是并不是很成功。

圖1 2D視覺伺服技術(shù)已經(jīng)比較成熟，在工業(yè)機(jī)器人上得到了很好的應(yīng)用。

圖2 3D視覺伺服技術(shù)還任重道遠(yuǎn)，實(shí)際應(yīng)用也非常有限。

下邊簡(jiǎn)單介紹一下機(jī)器人視覺的關(guān)鍵技術(shù)。智能機(jī)器人的控制一定是先做環(huán)境感知，根據(jù)環(huán)境和任務(wù)做控制決策，最后才執(zhí)行相應(yīng)的動(dòng)作。這里面對(duì)機(jī)器人視覺的要求是，首先你得看得懂環(huán)境，包括環(huán)境的感知和理解，然后可能要執(zhí)行任務(wù)，就要能夠找得到目標(biāo)。簡(jiǎn)單環(huán)境下，像咱們的天空對(duì)接是最最簡(jiǎn)單的任務(wù)。實(shí)際上很多地方很復(fù)雜，你要找到你想要的目標(biāo)是很難的。我們的學(xué)習(xí)也基本上集中在這個(gè)地方。

一定要滿足實(shí)時(shí)性要求，不像我們平時(shí)處理的任務(wù)，你學(xué)一個(gè)小時(shí)也行，學(xué)一天也行。機(jī)器人不行，機(jī)器人對(duì)實(shí)時(shí)性要求很高，我們?nèi)说囊曈X系統(tǒng)是眼睛加大腦。眼睛解決看得到的問題，大腦解決看得懂的問題。所以理解的問題實(shí)際上是機(jī)器人視覺要解決的問題。

視覺系統(tǒng)一般是硬件軟件兩個(gè)部分組成，硬件解決看得到的問題，軟件解決看得懂的問題。

現(xiàn)在的視覺系統(tǒng)國(guó)內(nèi)分幾種，一種通用型，通用計(jì)算機(jī)加不同類型的機(jī)器人視覺系統(tǒng)。再有就是現(xiàn)在越來越多的開始出現(xiàn)嵌入式機(jī)器人視覺系統(tǒng)，有的是嵌入式，有的干脆做成一體，這種類型也比較多。硬件實(shí)際上除了計(jì)算機(jī)相關(guān)的之外，還包括鏡頭類的東西。比如說魚眼鏡頭，雖然會(huì)發(fā)生變形，但是視野非常大，在很多地方有特別的需要。

還有一種叫全方位視覺系統(tǒng)，可以看到360度?；旧鲜沁@樣一個(gè)結(jié)構(gòu)，用的比較多的是我們進(jìn)行足球比賽里邊，也有不同類型的，不去講了。

普通相機(jī)得到的是2D圖像，為了獲得3D信息，可以用深度信息傳感器。當(dāng)然了，目前不同類型的深度信息傳感器的分辨率低一點(diǎn)，也有很多種類。我們各種類型的激光傳感器，實(shí)際上它處理方式跟視覺是比較接近的，所以這種我們一般來說，它的硬件都是視覺系統(tǒng)。

圖3 深度信息傳感器

光有硬件是不行的，硬件解決看得見，軟件解決看得懂，看得懂比看得見的難度要大得多。軟件的任務(wù)是這樣的，它要對(duì)采到的視覺信息進(jìn)行處理，通過處理之后，要找到給定的目標(biāo)，可能還要識(shí)別這個(gè)目標(biāo)到底是什么，是不是要找的那個(gè)。這里面包括兩個(gè)方面的任務(wù)，一個(gè)是要做圖像處理，一個(gè)是做模式識(shí)別。

圖像處理里邊包括預(yù)處理，有特征提取，特征提取里邊有直接的圖像特征，直接的和底層的，也有看不見的特征。有的特征計(jì)算機(jī)能夠提取出來，但是人是看不見的?，F(xiàn)在很多人工智能就是這樣，但是它就是根據(jù)那些特征識(shí)別到它找的物體。有了特征之后就可以做目標(biāo)檢測(cè)。

工業(yè)機(jī)器人視覺用的不是特別多，但像這種抓點(diǎn)心的視覺系統(tǒng)，它的特點(diǎn)就是速度非常快，能夠把所有的點(diǎn)心所在的位置，都能實(shí)時(shí)識(shí)別處理。機(jī)器人控制器可以控制手臂，把雜亂無章在傳送帶上的點(diǎn)心撿起來，最后讓它整整齊齊地放在一塊兒。

圖4 抓點(diǎn)心的視覺系統(tǒng)

視覺系統(tǒng)在無人駕駛車和機(jī)器服務(wù)人方面有著廣闊的應(yīng)用前景。

種服務(wù)機(jī)器人很多，比較有代表性的是日本的新一代仿真機(jī)器人，看看它現(xiàn)在都能干什么。這個(gè)機(jī)器人上邊是有眼睛的，還有各種各樣的傳感器。它現(xiàn)在已經(jīng)可以跑得很快，每小時(shí)跑九公里。它可以聽得懂三個(gè)人同時(shí)發(fā)的命令，能簡(jiǎn)單對(duì)話。這個(gè)手已經(jīng)很靈巧了，能擰杯子。它可以主動(dòng)繞開對(duì)面走過來的人，有的時(shí)候靠視覺，有的時(shí)候靠身上其他東西。能踢球，做手語。我們希望這樣的機(jī)器人能早點(diǎn)進(jìn)入我們的生活，但是有兩個(gè)問題沒解決，一個(gè)是電源，充滿電只能工作半個(gè)小時(shí)，再一個(gè)，智能還差的很多。

圖5 仿真機(jī)器人

這樣的機(jī)器人當(dāng)然也是需要有視覺的，而且對(duì)視覺要求蠻高。簡(jiǎn)簡(jiǎn)單單避障是很容易的，但是要理解環(huán)境，找到目標(biāo)，是比較難的，所以先要識(shí)別。

現(xiàn)在需要解決的關(guān)鍵技術(shù)問題就是有良好通用性的高性能的嵌入式視覺系統(tǒng)研制開發(fā)。這也是我們?cè)谂鉀Q的問題。

視覺信息的高處理速度和高系統(tǒng)功耗是難以平衡，所以電源一般用的時(shí)間比較短。同時(shí)使用FPGA和DSP，能夠發(fā)揮二者的優(yōu)點(diǎn)。采用專用芯片，用硬件直接實(shí)現(xiàn)多種復(fù)雜操作。

下面簡(jiǎn)單介紹一下我們所相關(guān)工作。我們所做視覺的很多很多，我們做了幾塊處理卡。有一個(gè)FPGA加DSP，我們把常用的圖像處理算法都用DSP實(shí)現(xiàn)，遠(yuǎn)遠(yuǎn)高于普通系統(tǒng)，高幾十倍幾百倍很正常的。我們用到了很多地方，這只是一個(gè)例子。這里面算法做了很多，像這種預(yù)處理基本上都是每秒做到上百幀都沒有問題。SIFT的特征點(diǎn)提取用我們的要快很多倍。

其中一個(gè)有代表性的工作，我們大型的武器裝備的數(shù)碼迷彩的噴涂，已經(jīng)在部隊(duì)幾個(gè)研究所驗(yàn)證了好幾遍。主要工作一個(gè)就是自動(dòng)建模，可以自動(dòng)掃描，自動(dòng)建模，生成模型。最重要的技術(shù)就是可以自動(dòng)編程，可以自動(dòng)生成機(jī)器人的控制程序。像這個(gè)噴涂過去是戰(zhàn)士噴的，這樣一臺(tái)車一般是五個(gè)戰(zhàn)士噴七天。國(guó)慶60大慶的時(shí)候很多車噴的所有的都是同樣的圖案，起不到偽裝作用，這個(gè)有現(xiàn)代迷彩的偽裝趨勢(shì)，自動(dòng)建立模型，自動(dòng)編程，這兒有一個(gè)識(shí)別，它在測(cè)距，會(huì)自動(dòng)把誤差送到機(jī)器人控制器，做自動(dòng)的補(bǔ)償，才能保證噴的寬度都是一致的，否則保證不了一致。

面向機(jī)器人視覺系統(tǒng)的MR二維碼，它的用途蠻廣的，它基本作用就是，有了它，它就可以定位，看到它之后就知道你的視覺系統(tǒng)和它的位置，而且它是專門面向機(jī)器人視覺的，所以離這么遠(yuǎn)也可以提取出來。我們把它用到了視覺導(dǎo)航的AGV上，視覺導(dǎo)航AGV除了我們做，國(guó)內(nèi)外基本上很少，因?yàn)檫@個(gè)還是很難的。我們一般的AGV只能在室內(nèi)環(huán)境，我們這個(gè)是可以在室外環(huán)境跑?？吹蕉S碼就可以決定你視覺系統(tǒng)和它坐標(biāo)系之間的關(guān)系。還可以用到其他地方，比如說我們用到了移動(dòng)機(jī)械臂上，機(jī)械臂很貴，如果把普通的AGV加機(jī)械臂之后，就發(fā)現(xiàn)機(jī)械臂和機(jī)器人的坐標(biāo)系對(duì)不上。我們用二維碼的技術(shù)，現(xiàn)在是兩種，國(guó)外的機(jī)器人和我們的AGV連起來，做智能的移動(dòng)機(jī)械臂，這是一個(gè)例子。這兩臺(tái)車是在隨意的移動(dòng)，它的任務(wù)只是要把那邊的東西抓起來疊放在這兒，它看一眼就知道兩個(gè)之間的距離，可以對(duì)得很準(zhǔn)。地上貼的也是二維碼，因?yàn)槎S碼有信息，所以給了它位置信息。像這也是，停下來之后，兩個(gè)車之間相互的關(guān)系根本是一點(diǎn)都不準(zhǔn)的，沒有一個(gè)準(zhǔn)確的關(guān)系，但是用我們現(xiàn)在這樣的系統(tǒng)可以準(zhǔn)確地對(duì)上。這個(gè)應(yīng)用應(yīng)該說在很多地方可以應(yīng)用，比如說簡(jiǎn)單的倉庫，你在超市的貨架上取東西，都可以用這種技術(shù)。

圖6 面向機(jī)器人視覺系統(tǒng)的MR-二維碼，左圖是MR-二維碼，右圖（1）和（2）是MR-二維碼在不同光照下的識(shí)別效果

到現(xiàn)在為止大概國(guó)內(nèi)是信托公司做到了，信托公司有這樣的產(chǎn)品。國(guó)外只有庫卡做了，但是他們都是用成熟的技術(shù)在做集成，成本比我們高很多。車完全是自己做的，視覺系統(tǒng)完全是自己做的，機(jī)械臂可以用不同廠家的，將來這種智能型的移動(dòng)機(jī)械臂的應(yīng)用場(chǎng)景還是比較好的。各種各樣的原因，沒有把它用上，這是一點(diǎn)遺憾，希望我下邊的人能夠接著做下去。

我們AGV技術(shù)也是，我們用了視覺導(dǎo)航，一個(gè)是不用鋪磁帶，定位的話，可以用二維碼，我們是一些地方在用，在天津的亞馬遜，還有在青島一家做衣服的公司。我們做的還有激光導(dǎo)航的叉車，這個(gè)技術(shù)比較成熟了。

圖7 視覺引導(dǎo)AGV

我們研究所，做科研是我們的強(qiáng)項(xiàng)，做成功推廣不大行。因?yàn)樽隹蒲械娜俗霾涣虽N售，這是兩類人。我們?cè)?jīng)試著想做成果推廣，發(fā)現(xiàn)不行，我們還是比較弱，還是要找一些公司。今天下午有一個(gè)韓國(guó)的公司專門找我，想把我們的二維碼用到垃圾袋上，每一家的垃圾都自動(dòng)有一個(gè)碼，可以遠(yuǎn)遠(yuǎn)看到就識(shí)別。我們的視覺技術(shù)可以用到托盤的自動(dòng)對(duì)準(zhǔn)。

簡(jiǎn)單總結(jié)一下，視覺系統(tǒng)的應(yīng)用總體上較為廣泛，但是現(xiàn)在實(shí)際能用上的確實(shí)是不太夠。現(xiàn)在人工智能很熱，大家現(xiàn)在再靜下來仔細(xì)看看，只有兩個(gè)應(yīng)用，一個(gè)是視覺，一個(gè)是語音處理。機(jī)器人視覺非常非常重要，對(duì)我們搞機(jī)器人的來說特別有這種感覺。機(jī)器人視覺系統(tǒng)發(fā)展本身確實(shí)比大家想象的要慢很多。像我們這樣的，做了硬件，沒有人做軟件，推廣起來不容易。做軟件的人只會(huì)做軟件，做的再好也沒用。比如說現(xiàn)在的深度學(xué)習(xí)，未來可能有用，現(xiàn)在用不上。所以機(jī)器人視覺系統(tǒng)還是未來的難題，謝謝大家。

[返回]

顧學(xué)真：謝謝原魁老師。他概括地介紹了機(jī)器人視覺的發(fā)展，目前存在的技術(shù)上的關(guān)鍵點(diǎn)，以及應(yīng)用。咱們聽了以后很受啟發(fā)。下面查紅彬老師主要介紹機(jī)器人視覺中感知和建模方面的問題。下面有請(qǐng)查老師。

【邀請(qǐng)報(bào)告】

查紅彬：基于三維數(shù)據(jù)流融合的場(chǎng)景重建與傳感器定位技術(shù)

謝謝顧老師。今天非常榮幸，非常高興，見到這么多老前輩。本來原魁老師跟我說跟大家做個(gè)交流，沒想到見到了這么多老前輩，以前很多在不同場(chǎng)合見過，特別我想提到的是董士海老師，在我們學(xué)院無論是從公從私來說，都給我們很多很多幫助。今天能見到董老師，非常感謝對(duì)我的指導(dǎo)。

今天我要講的題目是SLAM（Simultaneous Localization and Mapping）技術(shù)，它是基于所謂的三維數(shù)據(jù)流。應(yīng)該說這個(gè)SLAM技術(shù)在機(jī)器人領(lǐng)域里面，作為機(jī)器人視覺部分很有傳統(tǒng)的研究領(lǐng)域，它是個(gè)老話題，這些年討論得比較多。今天匯報(bào)有兩部分，我們?cè)诂F(xiàn)在的環(huán)境下，發(fā)展到今天，再來看SLAM問題是什么問題，對(duì)這個(gè)問題給各位老師做一個(gè)交流。

其實(shí)SLAM說穿了，第一就是定位，我們一臺(tái)機(jī)器人在什么位置，這個(gè)位置要給它確定好，要在每時(shí)每刻把位置確定好。通常我們講定位，講傳感器或者機(jī)器人的時(shí)候有不同的參數(shù)，一般來說有兩個(gè)不同的參數(shù)，一個(gè)是位置，它在三維空間中XYZ是什么樣的值。另外是什么方位，對(duì)著哪個(gè)方向，也需要三個(gè)參數(shù)，所以我們基本上要定六個(gè)參數(shù)，它在空間中的什么位置，是什么樣的姿態(tài)。這塊原魁老師已經(jīng)說過了。Mapping是測(cè)繪，我們講機(jī)器人的時(shí)候是說建一個(gè)小構(gòu)圖，比如說我進(jìn)到房間里面，我要知道房間是什么樣的結(jié)構(gòu)，如果沒有結(jié)構(gòu)三維描述的話，我要建一個(gè)房間構(gòu)圖。我們一般來說機(jī)器人在4G環(huán)境中工作的時(shí)候，一方面要知道傳感器的定位，另外要知道環(huán)境怎么樣，三維結(jié)構(gòu)。在機(jī)器人應(yīng)用當(dāng)中也是兩個(gè)不同的子任務(wù)來做的，比如說導(dǎo)航這部分，用GPS進(jìn)行大規(guī)模的導(dǎo)航，還要MV做一些小范圍的導(dǎo)航。另外設(shè)置一些標(biāo)志，像二維碼這些東西，來幫助機(jī)器人導(dǎo)航。所以是把它看成是一個(gè)單獨(dú)的問題來做。當(dāng)然了，像GPS也好，MV，有他們精度和分辨率的問題在里面，通常在應(yīng)用中不是很方便。

其實(shí)這兩個(gè)問題是相互依存的，我要做定位的時(shí)候，通常我們是需要知道地圖的。如果沒有地圖，我沒法看清楚我環(huán)境當(dāng)中是在什么位置。另外我要建一個(gè)地圖，傳感器的姿態(tài)我要知道，我要不知道傳感器的姿態(tài)，放不到一起去。后來搞計(jì)算機(jī)視覺研究的人就覺得應(yīng)該把這兩個(gè)問題放到一起考慮，不應(yīng)該獨(dú)立開，所以就形成了SLAM。

我們?cè)谶@種假設(shè)條件下，怎么來把這兩個(gè)任務(wù)同時(shí)完成，讓機(jī)器人，或者讓其他的一些移動(dòng)終端，或者移動(dòng)傳感器能夠更好地完成我們所要求它所做的工作。這是我們所講的SLAM的基本概念。

機(jī)器人應(yīng)該說現(xiàn)在越來越多，一個(gè)很重要的特點(diǎn)，機(jī)器人傳感器系統(tǒng)是在移動(dòng)中工作的。以前拿一個(gè)攝像頭擺在那兒，這個(gè)傳感器本身是固定的。我們現(xiàn)在講的傳感器，基本上都是可移動(dòng)的。像自動(dòng)駕駛，自動(dòng)駕駛的車，傳感器都是裝在車上，車每時(shí)每刻都在移動(dòng)，所以傳感器的移動(dòng)性很強(qiáng)，提出的各種要求也很高。要做好傳感器和觀測(cè)目標(biāo)都在運(yùn)動(dòng)變化情況下的定位，是最難的。我們現(xiàn)在講智慧城市，里面需要把不同的位置的信息，以不同的形式放在一起幫助我們做很多事情。這些都需要同時(shí)做定位和建模。

我們現(xiàn)在講機(jī)器人很重要，移動(dòng)傳感器很重要，單就定位來說，對(duì)我們?nèi)藖碚f，我們定位或建模都非常重要。世界上沒有哪個(gè)人工系統(tǒng)能像人的視覺系統(tǒng)一樣定位做的好。我們每時(shí)每刻都在動(dòng)，我們睜開眼睛都看到一個(gè)場(chǎng)景，但是你的頭怎么擺，不會(huì)看到場(chǎng)景在晃動(dòng)。我們拿攝像頭擺來擺去，肯定看到場(chǎng)景是抖動(dòng)的，但是我們?nèi)烁杏X不到。所以人是非常非常好的，具有很好定位能力的傳感器。當(dāng)然人有很多巧妙的東西在里邊，比如說耳朵里面有定位的傳感器，另外大腦里面，對(duì)于每一個(gè)行動(dòng)都有一個(gè)控制指令，這個(gè)指令也會(huì)傳達(dá)給感知系統(tǒng)。

現(xiàn)在在機(jī)器人領(lǐng)域，或者說在人工智能領(lǐng)域，現(xiàn)在對(duì)定位這個(gè)東西越來越重要了。今年馬上要在澳大利亞開一個(gè)很重要的機(jī)器人方面的會(huì)，關(guān)于定位的論文就占了將近三分之一，應(yīng)該是非常大的比重。在計(jì)算機(jī)視覺更多的還是深度學(xué)習(xí)，但是在定位領(lǐng)域會(huì)越來越多。

我們從4D的角度出發(fā)，我們現(xiàn)在用的大量的視覺攝像機(jī)，如果有三維的傳感器的話，這個(gè)工作會(huì)做的非常簡(jiǎn)單。所以三維傳感器是非常關(guān)鍵的，五年前我們講SLAM的時(shí)候，講的不是很多，因?yàn)楫?dāng)時(shí)傳感器水平比較低，現(xiàn)在傳感器水平有比較大的提升。微軟之前有一個(gè)Kinect傳感器，它很重要的就是每時(shí)每刻能夠檢測(cè)到三維的信息。我這個(gè)傳感器到不同的空間的距離它能測(cè)出來。攝像機(jī)只能有規(guī)律的變化，而它能夠把每一個(gè)點(diǎn)的三維位置檢測(cè)出來。這個(gè)傳感器也有很多局限性，精度很低，分辨率很低。但是有個(gè)好處，速度快，便宜，大概一臺(tái)一兩千塊錢就能買一臺(tái)?；旧衔覀兡沁叺膶W(xué)生每人有一臺(tái)。這樣的話三維傳感器就有很多應(yīng)用了，像手勢(shì)識(shí)別，包括三維空間的感知，用的很多。它自然也會(huì)給SLAM帶來很多影響。同時(shí)有很多傳感器，移動(dòng)，便宜，大家都能有，帶來很大的進(jìn)步。

圖8 微軟的Kinect三維傳感器

但是反過來說，有這么多傳感器，但是從應(yīng)用角度看，它們是不是足夠好呢？如果把這些三維傳感器拿來，把這些三維的應(yīng)用拿到一起，是不是就可以滿足要求呢？不是這么簡(jiǎn)單。盡管我們有一些很好的傳感器，但是要做到4D的應(yīng)用，差距很多。主要有幾個(gè)方面，一個(gè)是數(shù)據(jù)本身的信息，還有處理的復(fù)雜性。

圖9 問題與對(duì)策

第一個(gè)就是數(shù)據(jù)，盡管我們會(huì)得到三維數(shù)據(jù)，但是數(shù)據(jù)本身非常粗糙。我們現(xiàn)在要面對(duì)的環(huán)境是一個(gè)大環(huán)境，是一個(gè)動(dòng)態(tài)的環(huán)境。例如自動(dòng)駕駛時(shí)，你自己在動(dòng)，同時(shí)周圍的車輛行人也在移動(dòng)變化，我們要對(duì)付的是這樣的復(fù)雜場(chǎng)景。但是我們的傳感器精度并不夠。另外有一個(gè)很大的問題，就是采樣不均。二維圖像數(shù)據(jù)能排列得非常整齊，但是我們的三維數(shù)據(jù)排的并不是很整齊，數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于二維圖像，特征取列獨(dú)特和困難?，F(xiàn)在各種不同的傳感器，有立體視覺的，不同的傳感器之間的差別也比較大。對(duì)數(shù)據(jù)本身，要考慮其不確定性。所以要用概率統(tǒng)計(jì)的方式做處理。

第二個(gè)，我們應(yīng)用時(shí)間性很強(qiáng)的，數(shù)據(jù)在不斷地往里流入。所以在流進(jìn)來的數(shù)據(jù)你可以做實(shí)時(shí)交互。但是有一個(gè)很重要的，你不能做包處理。你處理的時(shí)候，你要每時(shí)每刻都要考慮到數(shù)據(jù)它本身是什么樣的性質(zhì)，然后得到結(jié)論。一個(gè)很重要的要求是我們現(xiàn)場(chǎng)要處理掉。但是同時(shí)，既然數(shù)據(jù)源源不斷進(jìn)來，數(shù)據(jù)之間有很多關(guān)聯(lián)性，前面的數(shù)據(jù)和后面的數(shù)據(jù)有很大的相關(guān)性，如何利用數(shù)據(jù)流時(shí)間上的相關(guān)性，這是非常重要的，這也是必須利用的。因?yàn)橹v視覺技術(shù)都是圖像識(shí)別，有什么樣的物體，什么樣的分類，這都是靜態(tài)的。但是數(shù)據(jù)流進(jìn)來之后就是動(dòng)態(tài)的，這是計(jì)算機(jī)視覺里面比較重要的方面。

第三個(gè)問題，定位和Mapping互相關(guān)聯(lián)的關(guān)系。其實(shí)我們講定位的時(shí)候，可以放很多別的傳感器幫助我們定位。虛擬現(xiàn)實(shí)的頭盔上面裝了很多小圓球，就是通過環(huán)境的攝像機(jī)來定位，所以環(huán)境能夠來幫助你定位。這時(shí)候是環(huán)境當(dāng)中能夠幫助你攝像頭存在的時(shí)候才能這么做，一旦你到了新空間，到外面去就不行了。所以要盡量擺脫這種東西來幫我們定位。

我們講的定位有六個(gè)參數(shù)，Mapping的參數(shù)更多，一般來說解決這個(gè)問題就是非常復(fù)雜的分析性優(yōu)化的問題，這是我們目前為什么大家都在注意SLAM問題，會(huì)給計(jì)算等等帶來很多挑戰(zhàn)。

第四個(gè)問題，數(shù)據(jù)的實(shí)時(shí)處理。對(duì)所采集的數(shù)據(jù)，你必須實(shí)時(shí)處理完成。這個(gè)實(shí)時(shí)性的要求也非常強(qiáng)。我們要使操作過程對(duì)輸入的數(shù)據(jù)流有很好的適應(yīng)過程，把在線的學(xué)習(xí)，機(jī)器學(xué)習(xí)這些問題能夠很好地用到這里面來，才能幫助你使這個(gè)過程能滿足實(shí)時(shí)性的要求。有很多機(jī)器學(xué)習(xí)的方法，比如說在線學(xué)習(xí)就是一個(gè)例子。例如在家里，我手機(jī)的攝像頭一直都開著的話，各種各樣的數(shù)據(jù)不斷地往你手機(jī)里面跑，這些數(shù)據(jù)都可以用來學(xué)習(xí)。我可以把家里面的構(gòu)圖做好，我在什么位置可以給我定位，能夠每時(shí)每刻了解你的行為和動(dòng)作。從這個(gè)角度來看，我們講的定位，這跟我們?nèi)嘶钪粯樱K生不斷地學(xué)習(xí)過程。只要設(shè)備是開著的，數(shù)據(jù)不斷地進(jìn)來，幫你做定位，幫你繪制構(gòu)圖，同時(shí)也是一個(gè)學(xué)習(xí)過程。所以實(shí)時(shí)處理是很重要的要求，同時(shí)也給我們帶來了很好的研究的機(jī)會(huì)。

下面我再給大家具體說一下這些問題怎么解決。這里面解決了一些，從概念上非常容易想到的辦法，但是很多需要下一些功夫。數(shù)據(jù)的不確定性，我們可以用概率統(tǒng)計(jì)的方式，對(duì)數(shù)據(jù)進(jìn)行建模。數(shù)據(jù)流怎么辦？能不能很好地利用數(shù)據(jù)之間的時(shí)間的一貫性，另外用傳感器的姿態(tài)做定位，像更好的一些優(yōu)化的東西，能不能幫助我們解決優(yōu)化的問題。像實(shí)時(shí)處理，我們其他一些更好的節(jié)省計(jì)算量的方法可能要開發(fā)出來。

這里有一些對(duì)策，我給各位介紹一下相關(guān)的研究。我前面講的第一個(gè)問題，就是數(shù)據(jù)的不確定性的處理。我們做定位也好，做建模也好，要有一個(gè)通用的空間的描述，這個(gè)描述有了以后能夠把這些做好。空間的描述就是方位構(gòu)圖，有各種各樣的描述方式。以前講的描述方式是“零、一”關(guān)系，里面有物體就是一，沒物體就是零。但是現(xiàn)在描述空間可能不是“零、一”的關(guān)系，對(duì)空間只能有一個(gè)概率的描述。應(yīng)該把這個(gè)場(chǎng)景的面的存在的概率是多少先計(jì)算出來，用一些推理。如何用更復(fù)雜的非參數(shù)的推理來做，有一系列問題在里面。能不能把三維空間看成格子狀的結(jié)構(gòu)，這里面的每一個(gè)點(diǎn)它到底在不在這個(gè)面上，它有一定的概率，把這個(gè)概率數(shù)據(jù)收集進(jìn)來以后，數(shù)據(jù)對(duì)概率產(chǎn)生了改變，我可以更有把握地說有這個(gè)表面。通過我進(jìn)來的每一個(gè)采樣點(diǎn)對(duì)這個(gè)空間的概率分布做修正。這是這篇文章所做的工作。我們實(shí)驗(yàn)室有些學(xué)生對(duì)這方面做了更好的改進(jìn)，現(xiàn)在投到了ECCV這個(gè)國(guó)際會(huì)議上，把空間的表示用概率的描述表示了。

第二個(gè)方面的工作，我們講的要做定位，要做建模，就是優(yōu)化問題。有很多不同的方法，最核心的還是要把你所謂的重要的因素，構(gòu)圖當(dāng)中一些重要的因素怎么考慮進(jìn)來。比如說這是室內(nèi)環(huán)境的布圖，里邊有各種各樣的結(jié)構(gòu)特征，把這些特征很好地提取出來，建立圖模型，這個(gè)圖模型出來以后，對(duì)它用概率統(tǒng)計(jì)方式做優(yōu)化。

第三個(gè)，我們考慮動(dòng)態(tài)變化的環(huán)境。我前面講做定位等等都是傳感器在動(dòng)，環(huán)境不動(dòng)，現(xiàn)在是環(huán)境也在動(dòng)，動(dòng)的因素更多了。怎么樣能夠把環(huán)境當(dāng)中動(dòng)的因素也考慮進(jìn)來。要把變形跟實(shí)時(shí)處理結(jié)合起來，我兩邊之間數(shù)據(jù)是有變化的，它時(shí)間比較短，我能不能把這兩個(gè)點(diǎn)之間看成是變形，把這兩個(gè)點(diǎn)連起來之后就能描述這個(gè)運(yùn)動(dòng)了。

我們通過三維的數(shù)據(jù)融合得更好，找到比較好的空間、數(shù)據(jù)的表達(dá)方式和分析方式。解決幾個(gè)問題，數(shù)據(jù)是不斷地增加的，數(shù)據(jù)的增加過程有它的難點(diǎn)，但更多的給我們帶來的是好處。慢慢地?cái)?shù)據(jù)越來越多，數(shù)據(jù)帶來可靠性，能夠幫助我們使最后的結(jié)果越來越好。特別講時(shí)間和空間的相關(guān)性，應(yīng)該是非常重要的主要因素。對(duì)不確定性因素，應(yīng)該用比較好的統(tǒng)計(jì)方式處理。另外數(shù)據(jù)不能只在一個(gè)層面去處理，只是看點(diǎn)不夠，只看一條線也不夠，只看一個(gè)面也不夠，要把不同層次的東西都考慮進(jìn)來。這三方面只要在哪一塊有突破的話，能給機(jī)器人視覺領(lǐng)域帶來比較大的突破。我就講這些，謝謝大家。

[返回]

【討論與交流】

顧學(xué)真：謝謝查老師。他講了傳感器獲取信息、三維的數(shù)據(jù)融合方面的問題，這是人工智能里很重要的一部分。人工智能在社會(huì)上炒得很熱，但是確實(shí)還存在很多問題。對(duì)人來說，要看這個(gè)東西，從我腦子里的印象里這個(gè)場(chǎng)景，到要找的東西是在哪兒，對(duì)我們正常人是最容易的事。但是現(xiàn)在看來完全要靠機(jī)器實(shí)現(xiàn)這一過程，還是有一定的難度的。我們什么時(shí)候能攻克這些東西，人工智能就往前進(jìn)了一步，機(jī)器的智能方面也往前進(jìn)了一步。下面大家自由發(fā)言交流，大家可以談自己的看法和建議，也可以請(qǐng)?jiān)蠋熀蜄死蠋煂?duì)報(bào)告里的問題做進(jìn)一步的說明。原魁老師和查老師也可以提一些問題拿出來讓大家議論議論，你們的觀點(diǎn)是什么，是不是大家對(duì)這樣的想法有同感，或者有不同的想法，你們也可以提一些問題出來。

原魁：我們沙龍就是請(qǐng)大家來討論，看看有什么共同感興趣的話題，如果大家對(duì)我們做的工作感興趣的話，我可以利用這個(gè)機(jī)會(huì)再稍微詳細(xì)一點(diǎn)，因?yàn)閯偛胖v的很粗。

董士海：我覺得這是一個(gè)當(dāng)前非常熱點(diǎn)的問題。我對(duì)此確實(shí)不熟悉。我說一個(gè)事情，最近Google的（自動(dòng)駕駛）車撞死人了，Uber撞死人了，這是法律問題。但是從科技的角度來說，怎么能夠在一定的條件下，盡可能實(shí)時(shí)地盡快地的測(cè)出有人意外的躥到馬路上去了，原因是什么？在無人車視覺系統(tǒng)中，現(xiàn)在有沒有解決類似突發(fā)事件的辦法？

第二個(gè)問題，現(xiàn)在的機(jī)器視覺，深度檢測(cè)對(duì)光線有一定的條件。我如果晚上開車，是不是條件又受到了一定的限制？在深度信息和光線的明暗信息有什么樣的限制，能不能達(dá)到更高的要求？

另外還有一個(gè)，采用多模態(tài)的檢測(cè)。我自己覺得，語音的識(shí)別和語音的生成，這個(gè)已經(jīng)做得比較好，就是說，不光語音的翻譯也好，語音的檢測(cè)也好，做得相當(dāng)?shù)暮?。但是視覺這方面難度相當(dāng)大。能不能把聲音和圖像這兩者結(jié)合起來，不必在大量的數(shù)據(jù)處理以后才能檢測(cè)這個(gè)問題。

原魁：我們做機(jī)器人的人，非常注意這個(gè)信息。Google 的車，現(xiàn)在還沒有公布事故原因，基本上判定車沒有責(zé)任，但是它沒有及時(shí)檢測(cè)到。無人車上面裝了很多很多個(gè)傳感器，實(shí)際上它檢測(cè)的話應(yīng)該能夠檢測(cè)到的，很可能是把某一些傳感器關(guān)掉了，特別是側(cè)面檢測(cè)的傳感器很可能是關(guān)掉了。現(xiàn)在無人車最重要的傳感器是64線的激光雷達(dá)，好幾個(gè)側(cè)面激光雷達(dá)，應(yīng)該覆蓋到所有的地方，它那個(gè)很可能側(cè)面的某一個(gè)關(guān)上了，沒有檢測(cè)到。所以它那個(gè)信息沒有處理。

無人車上的判測(cè)裝置有兩大類，一類是這樣的（用激光雷達(dá)），另外一類是希望通過視覺系統(tǒng)來實(shí)現(xiàn)的。視覺肯定有問題，天氣不好的時(shí)候就不行，激光雷達(dá)大部分都行，但是激光雷達(dá)也有不適應(yīng)的環(huán)境。

第三個(gè)問題，語音這個(gè)，語音是一維的信息，視覺至少是兩維的，車在路上是六維的，這樣一來處理的信息量遠(yuǎn)遠(yuǎn)大于語音。語音處理現(xiàn)在也是復(fù)雜背景的時(shí)候就不行了，所以語音技術(shù)用到無人車上大概不太好用。要說在十米之外檢測(cè)到他本人大概可以，檢測(cè)預(yù)測(cè)到他的行為方向和動(dòng)作，這件事情還是很難的。他突然間撞過來，再剎車來不及了。這樣的問題，不大容易解決，還是法律的問題要探討，看這樣的問題到底責(zé)任在誰。

查紅彬：剛才講的自動(dòng)駕駛的事情，這個(gè)屬于小概率事件。小概率事件通常來說是很難碰到的。但起碼給我們搞人工智能的人一個(gè)提醒，是不是應(yīng)該反省一下現(xiàn)在的方法是不是特別依賴于機(jī)器學(xué)習(xí)了。我們講機(jī)器學(xué)習(xí)的時(shí)候，主要是依賴訓(xùn)練數(shù)據(jù)，經(jīng)過大量的數(shù)據(jù)訓(xùn)練它，最后它能夠應(yīng)付這些情況。這個(gè)車可能跑了幾十萬公里，幾百萬公里的數(shù)據(jù)在里面，對(duì)這個(gè)車的性能做了很多修改和訓(xùn)練，但是可能就沒有現(xiàn)在碰到的場(chǎng)景，誰突然出來撞你車前面去。他沒有數(shù)據(jù)，就沒有把這種問題考慮進(jìn)去?，F(xiàn)在我們單純說依靠訓(xùn)練數(shù)據(jù)來做，現(xiàn)在人工智能最熱的部分是不是也有它的問題在里面？現(xiàn)在還有所謂的遷移學(xué)習(xí)，不同的情況下會(huì)怎么樣，這樣的話會(huì)給我們搞人工智能的人這方面的解釋和啟發(fā)。

第二個(gè)，把小概率事件完全消除掉，對(duì)任何產(chǎn)品都不太可能，關(guān)鍵是你這個(gè)產(chǎn)品成熟之后，進(jìn)入市場(chǎng)之后多年，才可能把小概率事件暴露出來。自動(dòng)駕駛還沒有到這個(gè)程度，還在試的階段。

第二個(gè)講到圖像和語音和視覺怎么融合?，F(xiàn)在很多人在講，每年項(xiàng)目評(píng)審出來的也很多，要把什么什么融合起來。但是融合的效果并沒有提高很多。問題在哪兒？很多大家并不是真心實(shí)意地想融合起來，而只是為了申請(qǐng)項(xiàng)目。視覺也好，聽覺也好，還有很多問題沒有解決，如果融合之后，有成果很難，發(fā)文章也很難，干什么事情也很難，人家也不愿意去做。其實(shí)人做動(dòng)作時(shí)，大腦里面是有指令的，這個(gè)指令馬上給了你的控制系統(tǒng)。你有指令下來以后，你當(dāng)然要用其他的感應(yīng)信息，這樣的話就能幫助你做這件事情。自動(dòng)駕駛也是這樣做的，車子怎么動(dòng)，全是有指令的，左轉(zhuǎn)多少，右轉(zhuǎn)多少，盡管有很多不確定因素，但是這個(gè)指令是可以感知到的。很多東西如果能夠結(jié)合起來，確實(shí)能夠解決很多問題，但大家還是沒有感覺到我結(jié)合起來真的能夠把它做好，或者真的拿出東西出來，這也是目前面臨的問題。

張尤臘：我覺得視覺方面的一些研究工作，應(yīng)該屬于應(yīng)用研究。應(yīng)用的背景非常強(qiáng)烈，很明確，我就是針對(duì)這個(gè)來做的。如果這樣的話，我覺得現(xiàn)在最大的問題還是傳感器的問題，如果這個(gè)問題解決好了，其他問題好解決得多。要做分析識(shí)別，現(xiàn)在微型機(jī)很大一部分都能解決。

剛才討論了很多，我對(duì)這個(gè)自動(dòng)駕駛車的問題，在中國(guó)花這么大力量，我總不覺得是一個(gè)應(yīng)該投的方向。自動(dòng)車最大是問題在中國(guó)是行人橫穿馬路。你怎么去實(shí)行無人駕駛？根本做不到。我覺得醫(yī)療方面是中國(guó)是最需要解決的問題，13億人，如果能夠在醫(yī)療方面做的好一點(diǎn)的話，可以解決中國(guó)很大的壓力。

比如說去醫(yī)院看病，心臟覺得有點(diǎn)不對(duì)，就去掛號(hào)看醫(yī)生。他要實(shí)時(shí)監(jiān)測(cè)我心臟的情況，但是設(shè)備常常需要預(yù)約到十天半個(gè)月之后，到那時(shí)癥狀可能已經(jīng)消失而監(jiān)測(cè)不到了。是不是可以通過手機(jī)監(jiān)測(cè)信息，通過手機(jī)傳到醫(yī)院，這樣就能在很大程度上解決問題。還可以在網(wǎng)上醫(yī)療做一些前期的工作。現(xiàn)在手機(jī)上可以下載一些應(yīng)用軟件，就可以檢測(cè)你的血壓、心率，血糖的飽和度，某種心理上的狀態(tài)，它都可以檢測(cè)。這個(gè)當(dāng)然不太準(zhǔn)，但是還是有用的。所以我就特別希望是這樣的，像自動(dòng)化所，希望能夠有更多的力量，在健康，保健醫(yī)療，在這個(gè)領(lǐng)域里頭多做一點(diǎn)工作。我上次看你們的網(wǎng)，好像有一個(gè)部門做這個(gè)事，希望加強(qiáng)。在這個(gè)問題上，如果想抓中國(guó)實(shí)際的狀態(tài)，這個(gè)應(yīng)用我認(rèn)為是至關(guān)重要的。

張恭清：問題還是回到傳感器。如果要做到這一步的話，必須我們?cè)诩依锞湍軌虻玫胶芏鄠€(gè)人健康的信息。甚至于你早上在廁所里，它就能夠把這些數(shù)據(jù)及時(shí)傳到醫(yī)院里去，這時(shí)候就是用云的，或者虛擬的醫(yī)院，里面有很多機(jī)器人在這兒給大家做診斷。

桂文莊：手術(shù)機(jī)器人肯定需要視覺技術(shù)。

原魁：實(shí)際上手術(shù)機(jī)器人的視覺只是幫人看，操作還是人。現(xiàn)在還有放療機(jī)器人，它能夠把測(cè)的圖像，把癌癥的部位檢測(cè)到之后，傳給機(jī)器控制器，然后自動(dòng)發(fā)射X線，去殺死癌細(xì)胞。把醫(yī)診和視覺技術(shù)結(jié)合比較好的。國(guó)內(nèi)有這個(gè)領(lǐng)域，叫智慧醫(yī)療，但是這個(gè)問題太復(fù)雜，有這么多人，每個(gè)人情況都不太一樣，你早上和晚上保證血糖不一樣，各種情況都不一樣。包括現(xiàn)在講基因檢測(cè)之類的，你感冒檢測(cè)出來了，你吃藥不吃藥都要一個(gè)星期的。我以前做過智能型的康復(fù)輔助，這類東西和基因技術(shù)關(guān)系比較密切。

查紅彬：這個(gè)事情國(guó)內(nèi)做的人很多，中國(guó)做這個(gè)事情比外國(guó)更有利。外國(guó)有很多東西被法律捆住了，臨床上很難動(dòng)。中國(guó)相對(duì)來說松一點(diǎn)，中國(guó)可能在醫(yī)療應(yīng)用方面可能比國(guó)外更容易。確實(shí)有很多人做，大家做來做去，最后問題癥結(jié)是什么呢？這個(gè)東西應(yīng)用性很強(qiáng)，不能只是紙上談兵，必須到醫(yī)院利用起來?，F(xiàn)在最大的問題是利益關(guān)系，醫(yī)院不愿意放棄既有利益。我要自動(dòng)化了，數(shù)據(jù)都讓你拿走了，很多人沒飯吃了，醫(yī)院不干。很多東西到最后阻力在醫(yī)院，醫(yī)院不想干這個(gè)事情。

張尤臘：你說的非常對(duì)，上次我去深圳參觀一個(gè)公司，就是做網(wǎng)上醫(yī)療，大概有500多人。那里頭的人不是專門搞IT的，一大半是醫(yī)學(xué)方面的博士生畢業(yè)的在那兒。他們有一部分做咨詢，給人感覺很好。比如說我看病之前先詢問一個(gè)，專門有人像接線員一樣，在網(wǎng)上值班，可以咨詢他。很多類似的東西，他已經(jīng)在網(wǎng)上做了一部分了。我問他，你這個(gè)系統(tǒng)在哪兒應(yīng)用？發(fā)現(xiàn)都在三線城市，二線城市都上不去。為什么呢？我的利益怎么跟你捆綁在一塊兒，這個(gè)問題馬上就出來了。事實(shí)上可以做一部分的。

查紅彬：就像北大講醫(yī)療大數(shù)據(jù)，北大做的話很有優(yōu)勢(shì)，附屬醫(yī)院那么多。最后一看，統(tǒng)一不起來，還是沒法做。

張恭清：您剛才講的SLAM技術(shù)里面，核心的關(guān)鍵的部件是傳感器，3D的數(shù)據(jù)采集。像2D的咱們都比較了解，比如說電視圖像，它出來的格式都已經(jīng)成為一種固定的，所以大家很快可以把后面的工作跟上去做。3D這方面是不是也已經(jīng)有了，數(shù)據(jù)的格式，出來的格式。是不是有一些標(biāo)準(zhǔn)？

查紅彬：三維傳感器很多，數(shù)據(jù)本身有很多不同的格式，但是本身數(shù)據(jù)的性質(zhì)沒有像二維圖像那么規(guī)整。三維圖像不規(guī)整，所以很難用統(tǒng)一的方式描述它。為什么會(huì)有這樣的原因呢？一般來說，并不是靠一般的光學(xué)來感知就能解決這個(gè)問題，必須靠別的手段。比如說激光打到物體表面，激光點(diǎn)可以找到物體信息，但是這個(gè)點(diǎn)并不規(guī)整，你得到的信息就不一樣。二維圖像處理方法比較好的，一般變換，小波變換，它的基礎(chǔ)是排列整齊，把一般的變換變成快速變換。三維數(shù)據(jù)做不到。也許將來有一天可能解決，但目前做不到。

董士海：是不是空間數(shù)據(jù)，地形，這些數(shù)據(jù)已經(jīng)有規(guī)范了。比如說Google的地圖不僅可以看平面，還可以看立體，比如我用無人機(jī)，就可以把數(shù)據(jù)拍下來，生成三維的場(chǎng)景，我覺得像類似的某一個(gè)情景下，可以制定一些標(biāo)準(zhǔn)，包括從地圖，地形，可以給它標(biāo)準(zhǔn)化。但是對(duì)某一個(gè)物體來說，五花八門，很難得到確切的數(shù)據(jù)結(jié)構(gòu)來描述它。

原魁：那個(gè)是廠家提供數(shù)據(jù)格式，你說的是通用的，三維地形圖是一致的，它提供出來商用的東西的時(shí)候，是可以規(guī)范化的。但是傳感器廠商各自有各自的，原理一樣的會(huì)比較接近。

胡包鋼：原老師您更偏硬件，這次我想提的問題是關(guān)于芯片的。您怎么看國(guó)內(nèi)在芯片？特別是跟我們所相關(guān)，芯片到底中國(guó)處于什么狀態(tài)？這也是國(guó)內(nèi)的弱項(xiàng)。查老師您舉到CDPR，可能十年前更高端了，但是現(xiàn)在華人可以超過一半。研究有一種是應(yīng)用驅(qū)動(dòng)的，這里邊實(shí)際上是認(rèn)知科學(xué)的問題，雖然中國(guó)數(shù)量上來了，未來在基礎(chǔ)理論上你怎么評(píng)價(jià)？我理解還是很重要的，理論很重要，應(yīng)用驅(qū)動(dòng)沒問題，但是在理論上有弱項(xiàng)。您怎么看中國(guó)在理論方面也能走在前面？問題在什么地方？包括嵌入式系統(tǒng)，原老師做的很好，我們中國(guó)到底處于什么位置？您文章也很多，理論上有什么東西，請(qǐng)您講一講。

原魁：這個(gè)問題本身，芯片種類太多，咱們芯片得聚焦。如果是用到視覺上的話，實(shí)際上現(xiàn)在成熟的視覺芯片還沒有。視覺做不好的原因是因?yàn)樗膱?chǎng)景千變?nèi)f化，如果做統(tǒng)一的處理，你像我們的手機(jī)，現(xiàn)在拍二維碼，咱們都是二維碼識(shí)別了。我當(dāng)年研究二維碼，提我的方案的時(shí)候，國(guó)內(nèi)絕大多數(shù)人都不知道二維碼是什么。我把國(guó)外的幾種二維碼特點(diǎn)研究了一下。它是因?yàn)楸尘跋鄬?duì)簡(jiǎn)單，你拍的時(shí)候一定是能找到這個(gè)碼本身，找到范圍，再去做相應(yīng)的處理。這種單一應(yīng)用是可以用芯片的，它算法簡(jiǎn)單。咱們所想做的事情太多，最初我們學(xué)術(shù)委員會(huì)提建議，把一個(gè)算法變成能實(shí)現(xiàn)的算法。但很難，沒有多少人能做這個(gè)事情。我們的博士生前三年是最基本培訓(xùn)的，后面一年多是做實(shí)際應(yīng)用的，因?yàn)樗私鈭D像處理的基本特點(diǎn)，要了解編程特點(diǎn)，這些都學(xué)會(huì)了才能做一些工作。所里要同時(shí)做兩個(gè)方向，算法和將其實(shí)用化，兩個(gè)復(fù)雜度差得很多，用的芯片肯定不能是一類，架構(gòu)也不一樣，資源也不一樣。但是作為芯片，有特殊應(yīng)用背景的芯片，如果有特殊明確的應(yīng)用，算法能夠基本固定的，做成芯片是可以的。叫做深度學(xué)習(xí)的算法有很多種方法，實(shí)現(xiàn)起來功能各不一樣。我們現(xiàn)在叫人工智能芯片的，多如牛毛，每個(gè)都不一樣。經(jīng)過一年左右的沉淀，國(guó)內(nèi)對(duì)人工智能這一塊沒有原來那么熱了，就像當(dāng)初炒作3D打印一樣的，人工智能也是一樣，現(xiàn)在回頭看，我們做大數(shù)據(jù)應(yīng)用的是一類，但是到了機(jī)器人視覺技術(shù)，就只剩下特定場(chǎng)景下的信息處理問題。這兩個(gè)做成芯片都有難度，除非把應(yīng)用場(chǎng)景定下來。一些特殊的傳感器是一定要有專用芯片的，哪怕范圍受限，我這個(gè)處理這幾種，那個(gè)處理那幾種。所以用一種芯片處理一個(gè)事情，永遠(yuǎn)不是解決的方法。

胡包鋼：現(xiàn)在用的芯片還是國(guó)外的？

原魁：比如激光雷達(dá)，我就知道國(guó)內(nèi)不只一家在做，但是它不是用芯片，它是用一個(gè)系統(tǒng)。這個(gè)問題太大，芯片一直是咱們國(guó)家的短板和痛點(diǎn)，現(xiàn)在還沒解決。

查紅彬：現(xiàn)在在一些頂尖會(huì)議上，我們的論文并不少，甚至超過了歐美很多國(guó)家，但質(zhì)量是一個(gè)大問題。說到質(zhì)量問題，這個(gè)不僅僅是限制在計(jì)算機(jī)視覺領(lǐng)域里面。從一些最佳論文來看，他們都有一些特點(diǎn)，一是不僅有很好的新的想法，而且能夠說服你，讓你覺得有它的原理在里面。第二個(gè)，很有意思的是，這些文章一大部分是來自于相同的實(shí)驗(yàn)室或相同的導(dǎo)師。

我們從這兩個(gè)東西來看，看國(guó)內(nèi)的問題癥結(jié)在哪兒。第一點(diǎn)就在于，我們通常所講的“有用”，這個(gè)“用”怎么去解釋？現(xiàn)在講一定要應(yīng)用起來，要出產(chǎn)品。其實(shí)這個(gè)并不只是用。發(fā)文章，有人說文章有用，有人說文章沒用。其實(shí)這個(gè)用，有的時(shí)候失敗也是有用，失敗多了也是有用。我說見了很多好文章是一種積累過程。為什么是同一個(gè)導(dǎo)師同一個(gè)實(shí)驗(yàn)室那兒出來的做，不是一個(gè)學(xué)生積累的，是長(zhǎng)期積累的，前面的學(xué)生什么也沒做出來，失敗了，但是給后面的學(xué)生積累了東西。這在國(guó)內(nèi)是很難的。我們說有用的時(shí)候，不能只是說你要用起來，做成產(chǎn)品。無論你是做產(chǎn)品，你做文章，真的有用沒用，研究的結(jié)果會(huì)怎么樣，你的積累的結(jié)果會(huì)怎么樣，這都和有用沒用有關(guān)系的。現(xiàn)在國(guó)內(nèi)還是需要有積累。但是這個(gè)積累，在目前國(guó)內(nèi)的氛圍當(dāng)中很難做下去。為什么說實(shí)驗(yàn)室失敗沒法再往下做，就是環(huán)境不允許你這么做，你這么做的話，將來你就沒飯吃了。所以還是從心態(tài)上面，從科研環(huán)境上和國(guó)外差距太大。

桂文莊：查老師講的我認(rèn)為是一個(gè)基本問題，你得把周圍信息收集出來，能夠形成一個(gè)圖像出來，一個(gè)地圖。這件事情，實(shí)際上我覺得視覺是最重要的基礎(chǔ)工作。從原老師的傳感數(shù)據(jù)形成圖像，識(shí)別它，再去做決策。后頭那一塊，嚴(yán)格地說應(yīng)該不屬于狹義的機(jī)器人視覺了。視覺就是看見周圍的東西，把它整合成清晰的圖像，理解它是什么，這就應(yīng)該是視覺。要判斷這個(gè)人怎么走動(dòng)，要識(shí)別這是哪個(gè)人，要做一些預(yù)測(cè)出來，還要做決策，這后面大部分都是現(xiàn)在的人工智能最關(guān)鍵的東西，也是最難的東西。所以我在想，咱們收回來，說到狹義這個(gè)事情，我想問問查老師，你剛才講的非常好，我覺得和人的識(shí)別相比，這個(gè)人識(shí)別，比如說我兩個(gè)眼睛看東西，看到是立體的，因?yàn)槭怯袃蓚€(gè)眼睛。你現(xiàn)在那個(gè)傳感器要把深度測(cè)出來，和眼睛的機(jī)制是不一樣的。人要形成圖像，在人腦子里頭，它有深度的感覺，但是不是精確的深度，我看查紅彬離我兩米多三米，這是憑經(jīng)驗(yàn)。但是機(jī)器處理一定是非常精確的數(shù)字，這就有很大的區(qū)別了。人腦子里識(shí)別的東西和機(jī)器需要處理的東西，它是不一樣的。這個(gè)不一樣，對(duì)我們將來搞機(jī)器人視覺的發(fā)展有什么樣的影響？因?yàn)樵蹅冎v智能，講人工智能，在很大程度上是希望能夠模擬人怎么樣去認(rèn)識(shí)，人怎么樣去處理。當(dāng)然最后機(jī)器因?yàn)樗囊恍┨匦?，它可能比人處理的更好，這有可能。但是這個(gè)機(jī)制不一樣，這在你們現(xiàn)在的研究中，有沒有什么樣的意義？比如說人看到的這樣一個(gè)場(chǎng)景，它里頭到底是個(gè)什么東西？

查紅彬：在人工智能里大家都與說要跟很多領(lǐng)域結(jié)合起來，比如說類腦計(jì)算，很多人工智能領(lǐng)域大家都這么說。我感覺人工智能這個(gè)領(lǐng)域里面，視覺部分應(yīng)該相對(duì)來說跟腦之間的關(guān)系不是那么特別的緊。為什么呢？視覺是從圖像數(shù)據(jù)開始出發(fā)，是從底向上的。但是腦更多地牽扯到，就像您剛才講的，是高層處理的東西比較多。視覺更多的是數(shù)據(jù)處理，并沒有說我的處理機(jī)制要像人那種。其實(shí)統(tǒng)計(jì)學(xué)習(xí)理論和大腦里邊的原理，大家有的說是相似的，但是是不是，大家也不管，只要把人臉識(shí)別出來就行，至于人腦是不是這么做的，不去管它?，F(xiàn)在的人臉識(shí)別和大腦識(shí)別完全是兩碼事。我給你一個(gè)數(shù)據(jù)，你機(jī)器人識(shí)別出幾千個(gè)幾萬個(gè)數(shù)據(jù)。但是人怎么能識(shí)別？家里的親人，稍微近一點(diǎn)的人能識(shí)別，更多的人就做不到。大家還是沒有管太多之間的關(guān)聯(lián)。但是大腦之間的機(jī)理是應(yīng)該有很大幫助的。我們?nèi)S世界里面好多問題不好解決，您講的兩個(gè)問題非常重要，第一個(gè)，人立體視覺很管用，為什么機(jī)器就難了？人是兩個(gè)眼睛，很容易，但是你這個(gè)對(duì)應(yīng)點(diǎn)不好找，大家都在想辦法把立體視覺的對(duì)應(yīng)點(diǎn)找出來。人進(jìn)入房間很快就能找到大致的空間感知，但是我們要解決這個(gè)問題，從高層往下的處理要利用起來。我對(duì)距離并不是那么嚴(yán)格的，我喝水的話，這個(gè)杯子離我多遠(yuǎn)，你說不出來。為什么你要看，因?yàn)槟阆牒人?，你看杯子，手怎么?dòng)，這一系列都是從高層下來的。沒有這個(gè)的話，你看眼睛和杯子的距離是沒有用的。從這個(gè)意義上來講，大腦有很多處理這樣一些處理過程當(dāng)中可能會(huì)提供有幫助的東西，但是在視覺系統(tǒng)里面還不是過于強(qiáng)調(diào)這個(gè)。

桂文莊：從視覺將來的發(fā)展來看是不是更多的考慮大腦來研究問題？

查紅彬：應(yīng)該是這樣的。

桂文莊：我覺得人的大腦是了不起的，比如說我開車，反應(yīng)非?？欤乱庾R(shí)就反應(yīng)出來了，處理的速度非常非常快，消耗的能量非常少。這在機(jī)器來說是沒法做到的。像這些問題，一定和它的處理機(jī)制有關(guān)系?，F(xiàn)在中國(guó)搞腦計(jì)劃，一方面搞腦疾病，另外一個(gè)方面，自動(dòng)化所就是腦計(jì)算機(jī)模擬大腦，這方面的工作有沒有什么樣子的想法和進(jìn)展？

原魁：這個(gè)話題比較敏感。我們對(duì)大腦的理解大概只有5%，剩下都是不知道的。類腦就是仿腦，你只知道腦的5%，包括美國(guó)的計(jì)劃，人家不搞類腦計(jì)劃，而是搞腦科學(xué)本身的。腦子本身怎么辦，現(xiàn)在說不清。我們做機(jī)器人的人要考慮實(shí)際的執(zhí)行的，實(shí)際上執(zhí)行的決策本身有一套潛在規(guī)則。我們?nèi)讼乱庾R(shí)做一些動(dòng)作，實(shí)際上人腦子里也是有潛在規(guī)則的。我們做的有一類傳感器，專門檢測(cè)跟物體的相對(duì)距離的，不要特別精確，我接近的時(shí)候，不需要那么精確。只有在完成操作的那個(gè)時(shí)間我才需要精確。我接近的過程中基本都是粗的，不需要精確。傳感器也是有多種，有的是不同的原理。有的打了很多個(gè)點(diǎn)，打成矩陣，防止你漏掉一些東西。像64線的，剛才說的要50多萬，四線的激光傳感器要20多萬。我們用個(gè)攝像頭，把激光源調(diào)試一下，成本就很低。這個(gè)工作是有人做的。你不這么做拿不到經(jīng)費(fèi)。國(guó)際上也是曾經(jīng)熱過，我知道歐洲的腦計(jì)劃面臨著困難，瑞士為主的那個(gè)是被強(qiáng)行停掉了，因?yàn)樗龅臅r(shí)候，有點(diǎn)過分了，被歐洲的一些主流的搞科學(xué)的很多人一塊來把他給彈劾掉了。所以歐洲的腦計(jì)劃處于半停滯。美國(guó)人的腦計(jì)劃基本上是疾病類的，不做計(jì)算類的。我們現(xiàn)在人工智能主要是百度在做，他比人家落后很多，百度自己沒有核心技術(shù)，它現(xiàn)在立足點(diǎn)很不穩(wěn)。

董士海：怎么把我們現(xiàn)在的技術(shù)再提高一步？我覺得要把人工智能的機(jī)器學(xué)習(xí)，大數(shù)據(jù)的統(tǒng)計(jì)，要把這個(gè)因素加進(jìn)去。比如說，現(xiàn)在國(guó)外識(shí)別癌癥的圖像，大量的數(shù)據(jù)讓它學(xué)習(xí)，最后比有經(jīng)驗(yàn)的專家判斷的準(zhǔn)確率要提高。我們這兒的數(shù)據(jù)不愿意共享，所以這個(gè)發(fā)展不上去。而人工智能確實(shí)需要人在不斷地學(xué)習(xí)過程當(dāng)中積累的經(jīng)驗(yàn)。比如像阿爾法狗下棋，不斷給他各種數(shù)據(jù)，最后得到一個(gè)最好的結(jié)果。我們的研究要提高一步。我國(guó)外有一個(gè)學(xué)生，他是在搞一個(gè)一個(gè)行業(yè)的人工智能的技術(shù)應(yīng)用，非常熱門。就是某一個(gè)領(lǐng)域如果用了這個(gè)東西，它就可以上去了。我覺得我們國(guó)內(nèi)，國(guó)家規(guī)劃，政策，要考慮你怎么調(diào)動(dòng)各方面的積極性，讓人工智能上去。我看到一篇文章說，國(guó)外的數(shù)據(jù)標(biāo)記行業(yè)非常發(fā)達(dá)，一大批的沒有經(jīng)過高等學(xué)校學(xué)習(xí)的人，都在搞數(shù)據(jù)標(biāo)記。為什么呢？我拍一百萬張照片，哭笑都要標(biāo)記一下，嘴巴張大了，這是笑，眼睛下來了叫哭。一百萬張照片下來以后，他說這個(gè)就是笑，這個(gè)就是哭，他就可以學(xué)了。但是得有一批人做標(biāo)記的工作。這個(gè)是癌癥，模模糊糊的是癌癥，邊緣清楚的是腫瘤，得有一套數(shù)據(jù)。國(guó)外有一大批人在做數(shù)據(jù)標(biāo)記，我們國(guó)內(nèi)現(xiàn)在是大量的農(nóng)民工以后要轉(zhuǎn)行搞數(shù)據(jù)標(biāo)記。這個(gè)工作量非常大?，F(xiàn)在搞字模，幾萬個(gè)字幕錄入特征值，找了大量的人做制模的工作，沒有制模的工作就沒有排版。

胡包鋼：特別響應(yīng)兩位老師講的，怎么上個(gè)臺(tái)階。包括腦子這個(gè)事情，我去年也做了，也想跟查老師交流。我們不是都切片了，自動(dòng)化都切片是不對(duì)的，應(yīng)該看怎么從計(jì)算層面研究類腦。拉格朗日方程我們都知道，一個(gè)約束加上去。大腦用不用拉格朗日？有些做類腦的，實(shí)際上都是炒概念，我評(píng)價(jià)就是不是真正的在做。像你剛才講的PPT里有一篇文章講平面的約束，等式的約束。大腦是不是拉格朗日，你怎么證明是不是拉格朗日？我們?nèi)ツ昃妥隽擞美窭嗜?，我們初步的研究認(rèn)為它是全局的約束。雖然我們也說類腦、計(jì)算大腦和生物腦不見得非得一樣，但是在計(jì)算層面上，在原理上做，很多文章，好多事情可以做。也不是說全切片去了，那我們自動(dòng)化所干嘛去了？我現(xiàn)在提出一個(gè)說法，都得數(shù)學(xué)去描述，黑箱是怎么個(gè)機(jī)理，還得靠數(shù)學(xué)模型要去揭示它。

類腦科學(xué)要和生物腦并行著走，要更高地往上走。深度學(xué)習(xí)現(xiàn)在已經(jīng)炒到人家說叫煉金術(shù)了，人家就是學(xué)術(shù)交鋒。國(guó)內(nèi)人工智能就是炒概念，開會(huì)你講我也不能說你錯(cuò)，沒有學(xué)生交鋒。在國(guó)外人家就說你是煉金術(shù)，沒有理論。中國(guó)人要考慮這個(gè)問題。光應(yīng)用也沒有問題，你有沒有理論？能不能指導(dǎo)你往上走？知識(shí)和數(shù)據(jù)頂層和向下要結(jié)合的，理論是什么，怎么研究大腦原理性的東西，我覺得這蠻對(duì)的。中國(guó)必須得跳出來，從理論上也要總結(jié)點(diǎn)東西。沒有理論指導(dǎo)的話，你走不遠(yuǎn)，你只能做應(yīng)用，你永遠(yuǎn)跟在人后頭，最重要的就是基礎(chǔ)理論。國(guó)家講的是對(duì)的，應(yīng)用芯片都要去做，但是基礎(chǔ)理論最重要。現(xiàn)在沒有人安心去做，像我做也是退休去做，我不管你評(píng)估了。大腦說白了就是一個(gè)通訊，你做大腦，你用信息論了沒有？你沒用信息論，就別跟我談腦科學(xué)。

查紅彬：人的大腦處理信息超過一定信息以后，你必須用信息論來描述腦的這個(gè)過程。

胡包鋼：如果沒有信息論，別跟我談腦科學(xué)，有了還不夠。一定要重視基礎(chǔ)理論。你說哪幾個(gè)做腦科學(xué)的用信息論了？你說你做類腦，有什么信息論？大腦就是通訊。

查紅彬：搞計(jì)算機(jī)的人講大腦的時(shí)候很少把信息論用上，但是搞醫(yī)學(xué)的還拿信息論來說事情，但是從書中可以看到信息論定義是錯(cuò)的。

原魁：你這個(gè)問題太大，基礎(chǔ)理論包括了多少東西，到某一個(gè)課題某一個(gè)方向的時(shí)候，到底什么是基礎(chǔ)。

胡包鋼：中國(guó)人是可以創(chuàng)造原有的知識(shí)，怎么樣往上走。不是光說大，你得有勇氣在學(xué)術(shù)理論上往前走。

洪繼光：最近華為手機(jī)里，說是有人工智能的處理，它的手機(jī)里都處理什么東西？

原魁：現(xiàn)在AI已經(jīng)被炒爛了，過去叫做智能控制，智能傳感的，都被他們歸在AI里面了。過去搞智能控制的人不知不覺也變成人工智能的人了。華為用了什么沒有對(duì)外公布，最主要是兩種，一種是照相，手機(jī)現(xiàn)在很重要的作用是照相，比如自動(dòng)對(duì)焦這種地方可能會(huì)用到算法，這個(gè)算法是很固定的。另外你上網(wǎng)，打電話肯定不會(huì)用人工智能的，上網(wǎng)的時(shí)候，它會(huì)有些推送，它根據(jù)你的上網(wǎng)習(xí)慣，根據(jù)你瀏覽的內(nèi)容，它會(huì)有意識(shí)地去記錄，按照你的習(xí)慣，向你推送你感興趣的內(nèi)容。這類工作的的確確是人工智能或者AI很典型的應(yīng)用，這是把所謂的大數(shù)據(jù)用上了。它會(huì)把很多熱點(diǎn)，會(huì)有一個(gè)提示，最近發(fā)現(xiàn)你什么習(xí)慣，有意識(shí)地給你推了什么東西。我估計(jì)華為所謂的AI是這兩方面。但是它是變成了硬件的，在芯片里邊有一部分，可能把有一些東西做到了，因?yàn)樗袞|西都要從里面過，通過它的規(guī)則，根據(jù)這個(gè)來做的。AI的定義太泛，稍微做一點(diǎn)和智能有關(guān)的就叫AI。

洪繼光：計(jì)算所也搞了個(gè)AI芯片，細(xì)節(jié)你清楚嗎？

原魁：細(xì)節(jié)我不清楚，他是把深度學(xué)習(xí)做到芯片里。所謂的深度學(xué)習(xí)有很多，實(shí)際上深度學(xué)習(xí)一點(diǎn)不新鮮了，過去只是說計(jì)算量太大，它就是層級(jí)多了，過去我們只能用三層，到現(xiàn)在為止，人工神經(jīng)網(wǎng)絡(luò)用到控制上的根本沒有。應(yīng)該也是把一部分算法放到他們的芯片里，到底放了多少，在多大程度上解決了哪類問題最有效，這個(gè)是不知道的。

查紅彬：比如說像剛才董老師提到我要做人臉識(shí)別，這么來做就是不同的大量的網(wǎng)絡(luò)要做，他們也希望做通用的，網(wǎng)絡(luò)很大，做出來之后，能夠在不同的應(yīng)用中用起來。人的大腦一個(gè)非常重要的性質(zhì)是大腦里邊的每一個(gè)計(jì)算單元，能夠改變自己的一些局部的結(jié)構(gòu)。將來能不能想辦法把它做成結(jié)構(gòu)非常類似的東西，現(xiàn)在人為的能夠改變處理結(jié)構(gòu)，像人腦大面積地去改還是很難。像人腦大面積地去改，就是單純的強(qiáng)運(yùn)算的計(jì)算機(jī)，也不需要操作系統(tǒng)等等。他們應(yīng)該是自己想做這種類型的，還沒有做下去。

桂文莊：今天沙龍開得很好。問題是當(dāng)前的熱點(diǎn)問題，也比較前沿。我們一方面討論了計(jì)算機(jī)視覺現(xiàn)在的狀況，現(xiàn)在的基本問題和應(yīng)用，同時(shí)也討論了這個(gè)研究方向應(yīng)該怎么發(fā)展。我個(gè)人覺得，其實(shí)機(jī)器人視覺是和應(yīng)用聯(lián)系得非常非常緊密的東西，它和純粹搞數(shù)學(xué)、天文、物理不一樣，它是一門應(yīng)用科學(xué)。但是它里頭也有著非常多基礎(chǔ)性的問題。搞這種東西總得兩個(gè)輪子前進(jìn)，一個(gè)方面要應(yīng)用驅(qū)動(dòng)，隨著應(yīng)用需求，你會(huì)提出很多很多的問題要研究，因此它推動(dòng)了這門學(xué)科的發(fā)展；另外一方面，也要從基礎(chǔ)理論的體系上，從科學(xué)技術(shù)本身的發(fā)展規(guī)律上去發(fā)展。這兩個(gè)輪子不可偏費(fèi)，不可只顧一頭。理論上的重要突破會(huì)對(duì)實(shí)踐發(fā)生重要的作用。所以我覺得研究機(jī)器人視覺一定要兩條腿走路，既要重視應(yīng)用，也要把基礎(chǔ)的東西繼續(xù)發(fā)展扎實(shí)。剛才查老師講的，實(shí)際上就是一個(gè)場(chǎng)景地圖處理的問題，其實(shí)里頭的問題還非常非常多，還有很多很多事情，怎么樣更準(zhǔn)確更快的把這個(gè)東西實(shí)現(xiàn)出來，這里頭有非常多的問題，還沒有很好的發(fā)展。原老師講的應(yīng)用更是五花八門，未來的應(yīng)用現(xiàn)在想不到的太多了。

國(guó)家提出人工智能的發(fā)展是一個(gè)大的戰(zhàn)略。雖然現(xiàn)在社會(huì)上有點(diǎn)炒作的問題，什么東西都弄成智能的了，包括配鑰匙也是智能配鑰匙了。但是人工智能確實(shí)是我們下一步長(zhǎng)遠(yuǎn)發(fā)展的核心的技術(shù)。就像“互聯(lián)網(wǎng)+”一樣，人工智能的“+”一定會(huì)推動(dòng)各個(gè)產(chǎn)業(yè)的發(fā)展。所以我覺得這個(gè)議題是非常有意義的。

咱們自動(dòng)化所分會(huì)去年開的“類腦計(jì)算”學(xué)術(shù)沙龍也非常好，雖然類腦的事情大家還有不同意見，但是那也是一個(gè)非常前沿的，非常值得重視的事情。腦科學(xué)的東西，未知的東西更多。但是科學(xué)就是要發(fā)現(xiàn)前沿，發(fā)現(xiàn)未知的東西。像這樣的方向，科學(xué)院應(yīng)該很好地去做，應(yīng)該去做那些前沿的、具有科學(xué)價(jià)值的東西，不然老是跟著人家跑，老是人家有什么新的概念咱們就跟著去干。深度學(xué)習(xí)也不是咱們提出來的。到了哪一天中國(guó)的科學(xué)家能夠提出自己的思想，自己的理論體系，自己的新的顛覆性的創(chuàng)新，這個(gè)時(shí)候我們才真正的強(qiáng)起來。人工智能，無論從理論還是從應(yīng)用上，都是一個(gè)非常大的領(lǐng)域，要好好發(fā)展。

顧學(xué)真：今天的沙龍很好，原老師和查老師做了很好的報(bào)告，大家也充分地進(jìn)行了交流和討論。大家對(duì)視覺下一步怎么來做提出了很多想法，胡包鋼還講到我們自動(dòng)化所要怎樣進(jìn)一步做人工智能。我現(xiàn)在不知道咱們所現(xiàn)在對(duì)信息論比較感興趣的，或者想去做的人數(shù)多不多，或者有沒有這個(gè)課題。咱們自動(dòng)化所建所的時(shí)候，信息論也是作為很重要的一門課程。咱們研究所要進(jìn)一步要發(fā)展，基礎(chǔ)理論研究方面要提高。一個(gè)是信息論，還有一個(gè)，系統(tǒng)理論。這兩個(gè)抓起來，這自動(dòng)化所是立于不敗之地的很重要的東西。只有把這兩個(gè)方面搞扎實(shí)了，后面應(yīng)用的東西才有底氣，有中國(guó)特色的。

感謝兩位老師為了這個(gè)事做了精心準(zhǔn)備，也感謝鄧力同志對(duì)會(huì)議的形式也做了充分的準(zhǔn)備，還有院老科協(xié)的領(lǐng)導(dǎo)來參與，來支持我們。另外，還要感謝董老師和張老師來參加我們的沙龍，他們提出了很好的建議。我們這個(gè)活動(dòng)得到了院老科協(xié)的指導(dǎo)，所的領(lǐng)導(dǎo)的支持，我想我們今后的活動(dòng)肯定能辦得更好，謝謝大家，沙龍活動(dòng)到此結(jié)束。