機(jī)器人感知從三維重建的角度進(jìn)行了研究。本質(zhì)上,配備攝像頭或激光雷達(dá)等傳感器的機(jī)器人系統(tǒng)必須重建環(huán)境的 3D 模型才能自主導(dǎo)航。
在本例中,我們討論的是 SLAM(同時(shí)定位和建圖),這是一種允許對未知環(huán)境進(jìn)行地圖繪制的方法。機(jī)器人利用地圖信息來執(zhí)行路線規(guī)劃、避障等任務(wù)。
SLAM 的研究始于 20 世紀(jì) 80 年代至 90 年代,多年來取得了巨大進(jìn)步。這個(gè)問題已經(jīng)得到解決,SPARK 實(shí)驗(yàn)室也研究和使用了有效的技術(shù)解決方案一段時(shí)間。它們是機(jī)器人、無人機(jī)的基礎(chǔ),也是虛擬和增強(qiáng)現(xiàn)實(shí)觀眾的基礎(chǔ)。
因此,多年來人們進(jìn)行了大量的研究來了解環(huán)境的幾何形狀,以確保機(jī)器人能夠四處移動(dòng)并避開障礙物。
然而,近年來人們認(rèn)識(shí)到(機(jī)器人和其他人的)空間感知比幾何問題復(fù)雜得多。
機(jī)器人的空間感知——麻省理工學(xué)院模擬
這在實(shí)踐中意味著什么?
我們?nèi)祟惒粌H了解障礙的存在,而且當(dāng)我們環(huán)顧四周時(shí),我們能夠賦予周圍一切以意義。在實(shí)踐中,我們發(fā)現(xiàn)自己面前的東西不僅被解釋為空曠的空間或被障礙物占據(jù),而且我們很好地理解語義,即物體的含義,即使是以非常復(fù)雜的方式。例如,我們了解我們周圍人和物體的存在,我們在一個(gè)房間里,并且它是建筑物的一部分,因此我們形成了靜態(tài)和動(dòng)態(tài)事物的非常復(fù)雜的表示??臻g感知是一個(gè)過程,從感官數(shù)據(jù)開始,我們可以為我們腦海中清晰的周圍現(xiàn)實(shí)建立一個(gè)非常復(fù)雜的模型。過去十年中最有趣的元素也得益于人工智能的進(jìn)步,其表現(xiàn)是語義部分變得更加容易理解。
在人工智能出現(xiàn)之前,解決識(shí)別和識(shí)別物體等任務(wù)非常復(fù)雜?,F(xiàn)在,深度學(xué)習(xí)模型使我們能夠識(shí)別圖像中的像素并將其與某些對象進(jìn)行匹配。
我們與 Kimera-Multi 合作的目的是將語義部分提升到一個(gè)新的水平。為此,我們繼續(xù)構(gòu)建包含幾何和語義部分的3D 地圖。這使得機(jī)器人可以在未知環(huán)境中移動(dòng),無需 GPS 和任何絕對參考,僅使用從攝像機(jī)和慣性傳感器獲得的傳感數(shù)據(jù),進(jìn)行推理并能夠構(gòu)建包含幾何圖形的三維模型。和語義信息。因此,機(jī)器人也可以通過這個(gè)接口了解物體的類型。
那么,今天的機(jī)器人系統(tǒng)能否更好地了解它們所在的位置以及它們周圍的事物?
沒錯(cuò)。新穎的元素使機(jī)器人具有更高層次的理解:因此,它們理解場景的語義方面、完成高級(jí)任務(wù)的關(guān)鍵要素,包括導(dǎo)航和對象搜索、與人類的交互等等。我們現(xiàn)在開發(fā)了一個(gè)系統(tǒng),多個(gè)機(jī)器人可以在該系統(tǒng)中相互通信以創(chuàng)建統(tǒng)一的地圖,目標(biāo)它們擁有共享的環(huán)境表示,以便協(xié)調(diào)開展行動(dòng)。
然而,這個(gè)問題非常復(fù)雜。機(jī)器人以分布式方式收集數(shù)據(jù)這一事實(shí)給建立單一模型帶來了困難。例如,如果我們考慮十個(gè)地理位置相距很遠(yuǎn)的機(jī)器人,它們會(huì)以分布式方式收集大量數(shù)據(jù),但很難交換數(shù)據(jù)。我們研究的主要目標(biāo)之一是設(shè)計(jì)分布式協(xié)議,讓機(jī)器人繼續(xù)交換最少量的信息,試圖就如何構(gòu)建地圖及其軌跡達(dá)成共識(shí)。簡而言之,兩個(gè)機(jī)器人不是互相發(fā)送各自相機(jī)收集的所有圖像,而是每次看到對方時(shí)交換彼此在參考系統(tǒng)中的位置估計(jì),從而改進(jìn)彼此的地圖。因此,在此過程中,可以收斂到所有系統(tǒng)都一致的共同估計(jì)。這是這項(xiàng)工作的主要貢獻(xiàn)之一。
還有其他值得注意的方面嗎?
是的,另一個(gè)重要貢獻(xiàn)涉及此類系統(tǒng)的穩(wěn)健性問題。在實(shí)驗(yàn)室進(jìn)行演示是一回事,開發(fā)一個(gè)如此可靠的水平儀以允許您在非常復(fù)雜的外部環(huán)境中管理多個(gè)機(jī)器人則是另一回事。此時(shí)機(jī)器人的空間感知與人類相差甚遠(yuǎn)。特別是,我們希望在這些地圖系統(tǒng)中,機(jī)器人始終能夠識(shí)別它是否正在訪問它已經(jīng)知道的地方。如果該區(qū)域已經(jīng)被訪問過,機(jī)器人必須能夠識(shí)別該位置,并且該信息對于改進(jìn)其地圖非常有用。此外,機(jī)器人還必須識(shí)別它們是否正在查看另一個(gè)機(jī)器人已經(jīng)訪問過的地圖部分。
困難在于地點(diǎn)識(shí)別算法非常不精確,并且這些算法產(chǎn)生的不正確結(jié)果會(huì)導(dǎo)致嚴(yán)重錯(cuò)誤重建地圖。我們已經(jīng)證明,可以以分布式方式實(shí)現(xiàn)我的研究小組過去開發(fā)的特定魯棒估計(jì)算法。通過這種方式,盡管地點(diǎn)識(shí)別算法中可能存在錯(cuò)誤,但仍可以交換估計(jì)和測量結(jié)果,以形成正確且共享的地圖。
機(jī)器人的空間感知應(yīng)用了哪些人工智能技術(shù)?
在這項(xiàng)工作中,人工智能主要進(jìn)入語義部分。深度學(xué)習(xí)算法用于根據(jù)不同語義類別對圖像中的像素進(jìn)行分類。然后,每個(gè)像素被分類為某個(gè)對象并具有相關(guān)的語義,并為創(chuàng)建三維地圖提供有價(jià)值的信息。不僅如此:借助該系統(tǒng),可以確保在多個(gè)圖像中多次觀察地圖的同一部分。這使我們能夠減少人工智能系統(tǒng)中可能錯(cuò)誤地對某些像素進(jìn)行分類的錯(cuò)誤。
在研究方面,該領(lǐng)域有哪些承諾?您現(xiàn)在和未來幾個(gè)月正在做什么?
有很多人致力于多機(jī)器人系統(tǒng)和感知。前者尤其在更大的機(jī)器人技術(shù)中構(gòu)成了一個(gè)社區(qū),并在多個(gè)方面進(jìn)行操作,意識(shí)到這種類型的系統(tǒng)在許多情況下更加高效。例如,我想到的是搜索和救援行動(dòng),即在災(zāi)難性事件后搜尋幸存者,如果可以的話,成功的可能性會(huì)更高依靠更多的機(jī)器人。但在其他領(lǐng)域,依靠多機(jī)器人系統(tǒng)可以獲得更好的結(jié)果。
談到接下來的發(fā)展,我們需要回到人類的空間感知:它不僅超越幾何,而且超越物體。作為人類,我們對現(xiàn)實(shí)不僅有一個(gè)非常復(fù)雜而且有層次的概念,以便非常有效地計(jì)劃我們的行動(dòng)。讓我們想想當(dāng)我們計(jì)劃旅行時(shí):我們在多個(gè)層面上建立了幾個(gè)步驟,通過機(jī)場、車輛和城市來計(jì)劃旅行。我們正在嘗試復(fù)制這種理解水平,讓機(jī)器人制定環(huán)境的分層抽象,并嘗試使用這種表示來加快決策速度。在這方面,我們提出了“3D場景圖”的想法,其中定義圖來插入不同級(jí)別的抽象環(huán)境并捕獲有關(guān)場景中不同對象或不同實(shí)體之間關(guān)系的信息。這些模型使您能夠推理不同對象之間或不同人之間的關(guān)系——這是執(zhí)行高級(jí)任務(wù)的一個(gè)重要方面。
我們正在研究更復(fù)雜的表示,并試圖了解如何在具有一個(gè)或多個(gè)機(jī)器人的系統(tǒng)中構(gòu)建這些表示。此外,我們正在嘗試將它們開發(fā)為其他人工智能模型的輸入,例如支撐決策的強(qiáng)化學(xué)習(xí)。我們希望了解如何使用人工智能算法提供這種感知表示,以便機(jī)器人能夠更有效地做出決策。此外,我們正在努力通過使用幾何來解決人工智能算法的一個(gè)基本問題,即需要擁有非常大的注釋數(shù)據(jù)集,這是人工智能圖像理解的基礎(chǔ)。
人工智能算法的有效性取決于大量數(shù)據(jù)集的可用性。我們知道,在許多機(jī)器人領(lǐng)域,沒有如此大的數(shù)據(jù)集。因此,我們打算重點(diǎn)關(guān)注自我監(jiān)督的可能性,即開發(fā)無需人工監(jiān)督即可運(yùn)行的系統(tǒng),無需注釋即可收集數(shù)據(jù)。大型語言模型,例如 ChatGPT,以這種方式工作,即以無監(jiān)督的方式工作,因此它們可以從互聯(lián)網(wǎng)上的文本中學(xué)習(xí),而無需很多注釋。這是我們在機(jī)器人技術(shù)領(lǐng)域需要努力的前沿領(lǐng)域。未來我們必須擁有能夠觀察現(xiàn)實(shí)并通過推理來自行理解并做出決策的機(jī)器人,而無需人類操作員的頻繁干預(yù)。
您對機(jī)器人空間感知的研究和研究未來的應(yīng)用和好處是什么?
搜索和救援是一個(gè)非常重要的應(yīng)用:讓我們考慮一下在受地震或其他災(zāi)難性事件影響的地區(qū)派遣機(jī)器人進(jìn)行救援行動(dòng)、為團(tuán)隊(duì)或獨(dú)立提供幫助的機(jī)會(huì)。在 DARPA(美國國防高級(jí)研究計(jì)劃局)最近發(fā)起的機(jī)器人系統(tǒng)競賽中,重點(diǎn)是地下研究。人們對開發(fā)地下環(huán)境中繪圖的能力非常感興趣,因?yàn)榈叵颅h(huán)境對人類來說非常困難且風(fēng)險(xiǎn)很大。除此之外,這種環(huán)境在很多方面都與其他行星上的外星探索非常相似。
另一個(gè)令人感興趣的背景是工業(yè)和物流領(lǐng)域,同樣是關(guān)于機(jī)器人的空間感知:今天亞馬遜已經(jīng)在使用機(jī)器人在其倉庫中,地面上有虛擬向?qū)б苿?dòng)。未來,依靠能夠在不同環(huán)境中自主移動(dòng)、與人類一起操作的機(jī)器人將會(huì)非常有趣。最后,空間感知的研究將使智能交通系統(tǒng)領(lǐng)域發(fā)生重大發(fā)展。例如,我正在考慮自動(dòng)駕駛汽車,甚至卡車能夠相互通信,以便以更有效和更有效的方式移動(dòng)。協(xié)作方式,大大提高安全水平。
2024-11-09 18:31
2024-11-08 10:07
2024-11-05 12:30
2024-11-03 08:35
2024-11-02 08:58
2024-10-30 10:21
2024-10-30 10:14
2024-10-29 09:48
2024-10-28 08:36
2024-10-28 08:21