你是否還記得,兒童時代是如何學(xué)會認(rèn)路的?比如說去朋友家里,或者是去學(xué)校上學(xué)?可能你并沒有地圖作參考,但是只需要記住街道外觀,就可以沿著道路和轉(zhuǎn)彎到達(dá),這個過程你可能會迷路,但最終可以通過路標(biāo)走到正確位置。那么你有沒有想過,AI能否也像人類或動物那樣,不通過地圖就學(xué)會導(dǎo)航呢?
谷歌最新研究顯示,AI可以在不訪問環(huán)境地圖情況下,在外觀多樣化的環(huán)境中進(jìn)行導(dǎo)航。在這項(xiàng)研究中,技術(shù)人員使用了來自谷歌街景的第一人稱視角照片,將AI變成了真正的城市人——它可以利用視覺信息,來學(xué)習(xí)如何在多個城市中進(jìn)行導(dǎo)航(需強(qiáng)調(diào)的是,研究是關(guān)于廣義導(dǎo)航而非駕駛的;并未使用交通信息,也沒有嘗試制作車輛模型)。
AI不借助地圖和GPS也能導(dǎo)航
據(jù)DeepMind科學(xué)家Piotr Mirowski表示,“解決導(dǎo)航任務(wù)時需要回答兩個問題,你在哪兒?以及如何到想去的地方?這可以是沒有智能手機(jī)的孩子在某地區(qū)行走,小鳥學(xué)習(xí)飛回巢穴,或是機(jī)器人等等情形。因此該研究要從現(xiàn)實(shí)生活獲取靈感。”
與傳統(tǒng)方法(依賴于顯式映射和探索)不同,谷歌嘗試了學(xué)習(xí)人類過去常使用的那種方法進(jìn)行導(dǎo)航(沒有地圖、GPS定位或其它輔助手段,只使用視覺觀察),通過記住周邊環(huán)境,以及試錯來完成導(dǎo)航記憶的構(gòu)建。谷歌創(chuàng)建了一個神經(jīng)網(wǎng)絡(luò)代理(agent),能輸入從環(huán)境中觀察到的圖像,并預(yù)測在該環(huán)境中它該采取的下一步行動,研究中主要通過深度學(xué)習(xí)來進(jìn)行端到端訓(xùn)練,并利用了城市規(guī)模的真實(shí)世界數(shù)據(jù),包括復(fù)雜的十字路口、人行道、隧道,以及橫跨倫敦、巴黎和紐約的各種拓?fù)浣Y(jié)構(gòu)等。
可轉(zhuǎn)移到新城市的模塊化神經(jīng)網(wǎng)絡(luò)架構(gòu)
該人工代理的神經(jīng)網(wǎng)絡(luò)由三部分構(gòu)成:能夠處理圖像并提取視覺特征的卷積網(wǎng)絡(luò)、特定于地區(qū)的循環(huán)神經(jīng)網(wǎng)絡(luò),蘊(yùn)含著記憶環(huán)境以及學(xué)習(xí)“這里”(當(dāng)前位置)和“那里”(目標(biāo)位置)表征的任務(wù)、以及制定代理行動導(dǎo)航規(guī)則的,不因地區(qū)改變的循環(huán)網(wǎng)絡(luò)。
其中,特定于地區(qū)的模塊被設(shè)計成可互換的,而且該模塊對代理(agent)導(dǎo)航的城市來說是獨(dú)一無二的,但視覺模塊和策略模塊可以不因地區(qū)改變。舉例來講,上圖a為城市導(dǎo)航架構(gòu)示例,b為多城市導(dǎo)航架構(gòu)(每個城市都有其特定區(qū)域路徑)示例,c則為代理(agent)調(diào)整到新城市時的訓(xùn)練和遷移過程。
簡單來說,就像人類一樣,當(dāng)代理(agent)訪問新城市時,它必須學(xué)習(xí)一套新的路標(biāo),但不需要重新學(xué)習(xí)視覺表征或行為(比如沿著道路向前,十字路轉(zhuǎn)彎等)。因此通過多城市架構(gòu),可以現(xiàn)在一系列城市中進(jìn)行訓(xùn)練,然后凍結(jié)策略網(wǎng)絡(luò)和視覺卷積網(wǎng)絡(luò),只保留用于新城市的新特定區(qū)域路徑。總的來說,這種方法能讓代理(agent)學(xué)會新知識,而且不會忘記已學(xué)過知識,就像人類到了新城市(地區(qū))要通過記住各類建筑和環(huán)境方便出行,卻又不會忘記以前曾待過的城市(或區(qū)域)那樣。
寫在最后
谷歌團(tuán)隊認(rèn)為,“研究導(dǎo)航是研究和發(fā)展AI的基礎(chǔ),嘗試在人工代理(agent)中復(fù)制導(dǎo)航也能幫助科學(xué)家了解其生物學(xué)基礎(chǔ)。” 雖然該技術(shù)在現(xiàn)實(shí)的應(yīng)用目前尚未就緒,但未來或可用于自動駕駛(無人機(jī)或其它智能設(shè)備)在沒有可靠地圖數(shù)據(jù)區(qū)域的導(dǎo)航。