如何將深度學習應用于無人機圖像的目標檢測
本文全面概述了基于深度學習的對無人機航拍圖像進行物體檢測的方法。我們還介紹了一個應用示例:利用無人機監(jiān)測一個非洲住房項目的建設進度。
第一部分:我們剛發(fā)布了Nano Drone APIs!
您是否知道無人機及其相關功能將在2023年成為一項價值500億美元的產業(yè)? 截至今天,無人機被用于農業(yè),建筑,公共安全和安全等領域,同時也被其他領域迅速采用。隨著基于深度學習的計算機視覺為這些無人機“提供動力”,行業(yè)專家們預測無人機將在以前難以想象的應用場景中被前所未有地廣泛使用。
我們將探索一些應用以及伴隨著它們的挑戰(zhàn),這些應用基于深度學習完成了基于無人機的自動化監(jiān)測。
在最后,我們將展示一個使用Nanonets機器學習框架對非洲住房項目進行遠程監(jiān)測的案例。
第一部分:航拍圖像——簡要背景
人們總是對從高處俯瞰世界著迷,從高聳的大樓上、從瞭望塔上、從堡壘,還征服了最高的山峰。為了能捕捉這樣的瞬間并且和全世界分享,人們竭盡全力,借助梯子、高樓、風箏、氣球、飛機和火箭,挑戰(zhàn)地心引力。
1906年,從風箏上拍攝的舊金山全景(來源:國會圖書館)
如今,即使是普通大眾也可以使用能夠飛到2公里高處的無人機。這些無人機配有高分辨率的攝像頭,能夠捕捉高質量的圖像,用于各種分析。
農田的航拍圖像
第二部分:無人機及其工業(yè)應用
隨著無人機的普及,我們看到很多攝影師和業(yè)余愛好者的日常愛好和活動,他們使用無人機進行一些創(chuàng)造性項目,諸如捕捉南非的不平等現(xiàn)象,或者拍攝足以讓伍迪艾倫(Woody Allen)都感到驕傲的紐約奇景。
雖然這一切看起來很輕巧,但是價值500億美元的無人機產業(yè)核心在于工業(yè)應用。
在這里我們探討一二:
能源:太陽能發(fā)電廠的檢測
太陽能發(fā)電廠的日常檢測和維護是一項艱巨的任務。傳統(tǒng)的人工檢測方式只能支持每三個月/次的檢測頻率。由于環(huán)境惡劣,太陽能電池板可能會有缺陷。損壞的太陽能電池板部件降低了功率輸出效率。
左圖:太陽能電池板的原始熱圖像
右圖:因特爾自動化系統(tǒng)檢測的缺陷定位和分類
農業(yè):植物早期病害的檢測
倫敦帝國理工學院(Imperial College London)的研究人員在無人機上安裝多光譜相機,這些相機將使用特殊的過濾器從選定的電磁光譜區(qū)域捕捉反射光。有病害的植物通常會顯示出一種有別于健康植物“光譜特征”。
帶有病原和營養(yǎng)不足的植物葉片的光譜圖像
公共安全:鯊魚偵測
對一大片土地/水域的俯視圖進行分析,可以獲取大量關于治安和公共安全方面的信息。其中一個例子就是在澳大利亞沿海水域發(fā)現(xiàn)鯊魚。澳大利亞西太平洋集團開發(fā)了一種基于深度學習的目標探測系統(tǒng)來偵測水中的鯊魚。
除此之外,還有各種各樣的航拍圖像應用程序,比如土木工程(橋梁日常檢查,電線監(jiān)測和交通調查),石油和天然氣(近海石油和天然氣平臺、鉆井設備的檢查),公共安全(機動車事故、核事故、建筑火災、船舶碰撞、飛機和火車事故)及治安(交通監(jiān)測、邊境監(jiān)測、海岸監(jiān)測、敵對游行示威及暴動控制)。
第三部分:獲取和處理工業(yè)級無人機圖像
為了全面捕捉地形和景觀,航拍圖像的獲取過程可以分為兩個步驟。
攝影測量:在無人機飛行過程中,為了確保圖象重疊,需要每隔一段時間拍攝幾張圖像。這一步很重要,這樣才能測量成像物體間的距離。廣義上講,這一過程被稱為攝影測量學。對于需要用于數(shù)據(jù)分析和制圖的圖像,還需要相應的元數(shù)據(jù)進行圖像拼接。這些元數(shù)據(jù)由無人機上的微型計算機自動嵌入。
圖像拼接:一旦數(shù)據(jù)采集完成后,第二步是將單個航拍圖像合并成一張有用的地圖,通常使用一種專門的攝影測量技術將圖像快速拼接在一起。這種特殊的攝影測量技術被稱為從運動信息中恢復三維場景結構(Sfm)。Sfm軟件從不同角度將同一場景的圖像進行比較、匹配,并測量每幅圖象中物體間的角度后,拼接在一起。在這個步驟里,可能需要參考圖象的地理信息,以便將位置信息附加到每個圖象上。
完成圖像拼接后,生成的圖像可用于上述提到各種應用分析中。
第四部分:人工智能遇上無人機
高分辨率航空影像在全球范圍內越來越常見,它包含大量可與維護、土地開發(fā)、疾病控制、缺陷定位、監(jiān)測、等應用相關聯(lián)的信息。不幸的是,這些數(shù)據(jù)通常是高度非結構化的,因此即便有密集的人工分析,從中大規(guī)模提取有意義的見解還是充滿挑戰(zhàn)性。
例如,城市用地的分類通常是根據(jù)訓練有素的專業(yè)人員的測量。所以這項任務是勞動密集型的、不頻繁的、緩慢的和昂貴的。因此,這些數(shù)據(jù)大多只在那些擁有收集和管理這些數(shù)據(jù)所需的資源和遠見的發(fā)達國家和大城市中才有。
自動分析航空影像的另一個動機是預測有關地區(qū)變化的迫切需要。例如,在大型公眾集會(如音樂會、足球比賽、抗議活動等)上,經常需要進行群眾計數(shù)和群眾行為。傳統(tǒng)上,會有專人來分析從閉路電視攝像頭直接傳送到指揮中心的圖像。正如你想象的那樣,這種方法存在幾個問題,例如在檢測事件時人為的延遲或錯誤,以及標準的靜態(tài)閉路電視(CCTV)缺乏足夠的視圖。
以下是使用航空影像時經常遇到的一些挑戰(zhàn)。
航空影像自動化的挑戰(zhàn)與限制
當自動分析無人機圖像時,有幾個挑戰(zhàn)需要克服。下面列出了其中的一些,并
給出了有前景的解決方案:
對物體的平視和小視:當前的計算機視覺算法和數(shù)據(jù)集是用以人為中心通過水平拍攝的近距離物體照片的實驗室設置而設計和評估的。對于垂直拍攝的無人機圖像,感興趣的對象相對較小且特征較少,主要表現(xiàn)為平面和矩形。如,從無人機上拍攝的建筑物圖像只顯示屋頂,而建筑物的地面圖像將具有門、窗和墻等特征。
數(shù)據(jù)標注困難:按照上述觀點,即使我們可以獲得大量的圖像,我們仍需對其進行標注。這是一項手工任務,需要精確性和準確性,因為“輸入垃圾意味著輸出垃圾”。 除了手動完成之外,沒有什么神奇方法來解決標簽問題。在Nanonet,我們根據(jù)需要提供 可以為你標記數(shù)據(jù)的注釋器。
圖像尺寸大:無人機圖像尺寸很大,大多數(shù)情況下分辨率超過3000px X 3000px。這增加了處理此類圖像時的計算復雜度。為了克服這一問題,我們將預處理方法應用于航空成像,以便使它們?yōu)槲覀兊哪P陀柧氹A段做好準備。這包括以不同的分辨率、角度和姿勢裁剪圖像,以使我們的訓練不受這些變化的影響。
對象重疊:分割圖像的問題之一是同一個對象可能出現(xiàn)在兩張不同的圖像中。這會導致重復檢測和計數(shù)錯誤。此外,在檢測過程中,某些彼此非常接近的對象也可能具有重疊的邊框??朔@個問題的方法之一是通過滑動窗口向上采樣,以尋找小的、密集的對象。
第五部分:Nanonets案例研究:非洲建筑項目遠程自動化檢視
務實大師(Pragmatic Master),一家南非機器人即服務(robotics-as-a-service )公司與Nanonets合作對非洲一個住房建設項目進展進行遠程自動化監(jiān)控。
這些項目通常因為誤報而產生拖延和盜竊,這可能通過頻繁的無人機飛行測繪和記錄來解決
我們的目標是通過探測以下基礎設施來捕捉房屋在不同階段的建造進度:
地基(開始)
墻面板(正在進行)
屋頂(部分完成)
護墻(收尾)
熱水器(可以搬入)
Pragmatic Master之所以選擇Nanonet作為深度學習的提供者是因為Nanonet易于使用的web平臺和即插即用的APIs。
使用Nanonet API的端到端流程非常簡單,只需四個步驟。
End-to-end flow of the Nanonets API
1.上傳圖片:從無人機獲取的圖片可以直接上傳到我們的上傳頁面。在當前的案例研究中,我們總共獲得了1442張低空拍攝的建筑工地照片。上傳圖片的例子會在下方給出。
2. 圖像的標記:在任何監(jiān)督機器學習流程中,標記圖像可能是最困難和最耗時的步驟,但是在Nanonets,我們可以為你完成標記。我們有多年航空成像工作經驗的內部專家。他們將精準及準確地注釋你的圖像,以進行更好的模型訓練。對于Pragmatic Master的用例,我們標記了以下對象及其在所有圖像中的總數(shù)。
屋頂: 2299
熱水器: 6556
墻面板: 1043
護墻: 8730
標記了熱水器的圖像
3. 模型訓練:在Nanonets,我們同時采用遷移學習的原則對你的圖像進行訓練。這包括重新訓練一個已經用大量的航空成像預訓練過的模型。這有助于模型更容易在你的圖像上識別微圖像如邊緣、線條和輪廓和關注更具體的宏觀模式如房屋、樹木、人類和汽車等。遷移學習也縮減了訓練時間因為模型不需要進行大量的迭代也能有良好性能。
我們專有的深度學習軟件能聰明地選擇最佳的模型,并根據(jù)你的用例優(yōu)化超參數(shù)。這涉及到使用高級搜索算法在多個模型和多維參數(shù)間進行搜索。
最難探測的對象是最小的對象,因為它們的分辨率較低。我們的模型訓練策略被優(yōu)化,以檢測非常小的物體,如只有幾個像素面積的熱水器和護墻。
檢測到完整的房子
下面是每個類的平均精度,
屋頂:95.1%
熱水器:88%
墻面板:92%
護墻:81%
注意:添加更多的圖像可以提高平均精度。我們的API還支持在同一圖像中檢測多個對象,例如在一個圖像中檢測屋頂和護墻。
4. 測試與集成:在模型訓練好后,你可以將Nanonet的API直接集成到您的系統(tǒng)中或者我們還提供一個鏡像,其中包含你訓練過的模型和推理代碼。鏡像可以方便地進行縮放,并提供容錯推理系統(tǒng)。
最后一步,圖像被拼接起來并使用與每幅圖像相關聯(lián)的GIS數(shù)據(jù)創(chuàng)建整個景觀視圖。
預測的圖像拼接在一起創(chuàng)造了整個景觀視圖
第6部分:數(shù)據(jù)私隱
客戶信任是我們的首要。我們致力于在任何時候為你提供所有權和你內容的控制。我們提供了兩個使用我們服務的套餐,
開發(fā)人員:你上傳的用例圖像可能被我們用來預訓練我們的模型,我們可以進一步將其用于我們的其他應用程序。
企業(yè):你的數(shù)據(jù)就是你的!我們永遠不會將你的數(shù)據(jù)用于任何模型的預訓練。
在這兩個套餐中,我們與我們的云合作伙伴Amazon Web Services合作,使用高度復雜的數(shù)據(jù)隱私和安全協(xié)議。你的數(shù)據(jù)集是匿名的,并且在預處理和訓練過程中經過最少的人工干預。我們所有人都簽署了保密協(xié)議(NDA),以保護你的數(shù)據(jù)不落入壞人之手。因為我們相信“你的數(shù)據(jù)就是你的!”,你可以要求我們在任何階段從我們的服務器上刪除你的數(shù)據(jù)。
Nanonet是一種web服務,它使得使用深度學習變得容易。你可以用你自己的數(shù)據(jù)構建一個模型,以實現(xiàn)更高的準確性,并使用我們的APIs將其集成到你的應用程序中。
更多細節(jié)請訪問:https://nanonets.com/drone
務實大師(Pragmatic Master)是一家南非機器人即服務公司,提供裝配相機的無人機,以獲取建筑、農業(yè)和采礦工地的圖像。通過對這些圖像的分析,讓我們能跟蹤進度、識別挑戰(zhàn)、消除低效并提供場地的整體鳥瞰圖。