配件商：

代理商：

制造商：

Facebook最新研究：我們訓(xùn)練機器人討價還價，沒想到AI還自己學(xué)會了“使詐”（附論文）

2017-06-21 05:47 性質(zhì)：轉(zhuǎn)載作者：物聯(lián)網(wǎng)智庫來源：物聯(lián)網(wǎng)智庫

免責(zé)聲明：中叉網(wǎng)（htyl001.com)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機構(gòu)所有。文章內(nèi)容觀點，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷?。?/div>

【導(dǎo)讀】就是該有這樣的操作~~你跟女票說：“今晚的球賽特別重要，但是為了陪你我勉強放棄不看！”實際上今晚比賽的球隊你根本不感興...

【導(dǎo)讀】就是該有這樣的操作~~

　　你跟女票說：“今晚的球賽特別重要，但是為了陪你我勉強放棄不看！”實際上今晚比賽的球隊你根本不感興趣，這樣做只是讓女票同意你明天和哥們喝酒的談判“小伎倆”。

　　這個“使詐”的技能是不是很熟悉？而這次，學(xué)會這個技能的是Facebook的討價還價機器人，而且，這還是人家AI自己獨立學(xué)會的技能。

　　近日，F(xiàn)acebook發(fā)布最新研究，稱他們訓(xùn)練的機器人已經(jīng)get了談判技能。而且，有些情況下，機器人最初假裝對無價值項目感興趣，只有通過放棄它才能“妥協(xié)” - 這是人們經(jīng)常使用的有效談判策略。這個行為并不是由研究人員編寫的，而是由機器人發(fā)現(xiàn)的，作為試圖實現(xiàn)目標(biāo)的方法。

下面才是正文啦。

　　每天，從我們醒來的那一刻開始，我們的生活就是不斷地與人談判：從討論看什么電視頻道，到說服你的孩子吃蔬菜或試圖買菜時獲得更好的價格。所有這些都是共通的，它們需要復(fù)雜的交流和推理技能，這是計算機所沒有的屬性。

　　迄今為止，現(xiàn)有的chatbots（聊天機器人）上的工作已經(jīng)導(dǎo)致系統(tǒng)可以進行短暫的對話，并執(zhí)行簡單的任務(wù)，如預(yù)訂餐廳等。但是，與人們進行有意義的對話的機器人還是很具有挑戰(zhàn)性的，因為它需要機器人將其對話的理解與其對世界的知識相結(jié)合，然后產(chǎn)生一個新句子來幫助實現(xiàn)其目標(biāo)。

　　Facebook人工智能研究（FAIR）的研究人員已經(jīng)開放源代碼，并發(fā)表論文，介紹機器人具有的新功能 - 談判能力。

　　類似于人們有不同的需求，遇到?jīng)_突，然后談判達成一個商定的妥協(xié)，研究人員已經(jīng)表明，對于具有不同目標(biāo)的對話機器人（實現(xiàn)為端對端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)）在達成共同決定或結(jié)果的同時，與其他機器人或人員可以進行從開始到結(jié)束的談判。

任務(wù)：多議題討價還價

　　FAIR研究人員研究了多議題談判任務(wù)。對兩個機器人都顯示了相同的項目集合（比如說兩本書，一個帽子，三個球），并且被指示他們通過談判把這些物品分配給彼此。

　　每個機器人都提供自己的價值函數(shù)，它表示對每個類型的項目關(guān)心多少（比如對于機器人1，每個球值得3分）。在生活中，兩個機器人都不知道其他機器人的價值函數(shù)，必須從對話中推斷出（如果你說你想要球，那你應(yīng)該很重視球）。

　　FAIR研究人員創(chuàng)造了許多這樣的談判方案，始終確保兩位機器人商不可能同時獲得最佳交易。此外，如果談判進行不下去（或者不經(jīng)過10次對話之后的協(xié)議），那這兩個人都只得0分。簡單地說，談判是至關(guān)重要的，良好的談判導(dǎo)致更好的表現(xiàn)。

對話框部署

　　談判同時是語言和推理問題，其中必須制定意圖，然后口頭實現(xiàn)。這樣的對話包含合作和對抗的要素，要求機器人了解和制定長期計劃并產(chǎn)生話語以實現(xiàn)其目標(biāo)。

　　FAIR研究人員在構(gòu)建這樣的長期規(guī)劃對話機器方面的關(guān)鍵技術(shù)創(chuàng)新是一種稱為對話部署的概念。

　　當(dāng)聊天人可以建立對方（對話者）的心理模型，提前思考或預(yù)測未來談話的方向時，他們可以選擇避開沒意義的，混亂的或令人沮喪的交流，從而走向成功的談判。

　　具體來說，F(xiàn)AIR已經(jīng)開發(fā)了對話部署，作為一種新技術(shù)，其中機器通過將對話模型推出到對話結(jié)束來模擬未來的對話，從而可以選擇具有最大預(yù)期未來獎勵的話語。

　　類似的想法已被用于游戲環(huán)境規(guī)劃中，但從未被應(yīng)用于語言上，因為語言可能的動作數(shù)量要高得多。為了提高效率，研究人員首先產(chǎn)生了一組較小的候選語言來表達，然后對于每個候選語言，他們反復(fù)模擬對話的完整未來，以估計它們的成功程度。該模型的預(yù)測精度足夠高，使得該技術(shù)在以下幾個方面大大提高了談判策略：

　　談判更加努力：新的機器人與人類進行了長時間的對話，反過來也會很快接受交易，這個模型會一直談判直到交易成功。

　　智能機動：有些情況下，機器人最初假裝對無價值項目感興趣，最后只有通過放棄它才能“妥協(xié)” - 這是人們經(jīng)常使用的有效談判策略。這個行為并不是由研究人員編寫的，而是由機器人發(fā)現(xiàn)的，作為試圖實現(xiàn)目標(biāo)的方法。

　　創(chuàng)造語句：雖然神經(jīng)模型很容易從訓(xùn)練數(shù)據(jù)中重復(fù)句子，但這項工作表明，模型能夠在必要時進行泛化。

建立和評估談判數(shù)據(jù)集

　　為了訓(xùn)練協(xié)商機器人和進行大規(guī)模的定量評估，F(xiàn)AIR團隊協(xié)作收集了一系列人與人之間的談判記錄。這些人被展示了一組物品和每個物品的價值，每兩個人要討論決定，要怎么劃分這些物品。然后研究人員訓(xùn)練一個遞歸的神經(jīng)網(wǎng)絡(luò)，通過教它模仿人們的行為來進行談判。在對話框中的任何點，模型都試圖猜測人類在這種情況下會說什么。

　　不同于先前針對目標(biāo)對話框的工作，這些模型被訓(xùn)練成“端到端”，完全是由人類所做的語言和決定所決定的，這意味著這種方法可以很容易地適應(yīng)其他任務(wù)。

　　為了超越簡單地模仿人們，F(xiàn)AIR研究人員允許模型來實現(xiàn)談判的目標(biāo)。為了訓(xùn)練模型實現(xiàn)其目標(biāo)，研究人員讓模型進行了數(shù)千次的自我談判，并使用強化學(xué)習(xí)算法，當(dāng)它取得好的結(jié)果時給予獎勵。為了防止算法開發(fā)自己的語言，它也同時訓(xùn)練模型產(chǎn)生人類語言。

　　為了評估談判機器人，F(xiàn)AIR團隊測試他們在網(wǎng)上與人交談。大多數(shù)以前的工作避免與真實的人對話或在較不具挑戰(zhàn)性的領(lǐng)域工作，因為學(xué)習(xí)模型要響應(yīng)人們所說的各種語言非常困難。

　　有趣的是，在FAIR團隊的實驗中，大多數(shù)人沒有意識到他們是在與機器人交談，而不是與另一個人交談，這表明機器人已經(jīng)學(xué)會在這個領(lǐng)域用英語進行流利的對話。FAIR團隊最好的談判機器人，使用強化學(xué)習(xí)和對話的推出，其性能已經(jīng)可以和人類談判相媲美。它取得了更好的交易的頻率，等同于更糟的交易的頻率，表明FAIR的機器人不僅可以說英語，也可以聰明地決定想說什么。

強化學(xué)習(xí)用于對話機器人

　　監(jiān)督學(xué)習(xí)的目的是模仿人類用戶的行為，但它并沒有明確地試圖實現(xiàn)機器人的目標(biāo)。FAIR團隊采用另一種方法，嘗試預(yù)訓(xùn)練再加監(jiān)督學(xué)習(xí)，然后基于評估指標(biāo)，利用強化學(xué)習(xí)對模型進行微調(diào)。實際上，他們使用監(jiān)督學(xué)習(xí)來在語言和意義之間進行映射，但是使用強化學(xué)習(xí)來幫助決定說什么。

　　在強化學(xué)習(xí)過程中，一個機器人試圖從與另一個機器的對話中改進其參數(shù)。而另一個機器可能是一個人，F(xiàn)AIR團隊使用一個固定的監(jiān)督模型，訓(xùn)練模仿人類。第二個模型是固定的，因為研究人員發(fā)現(xiàn)，隨著機器開發(fā)自己的語言進行談判，更新兩個機器模型的參數(shù)導(dǎo)致了模型不收斂。在每一個對話結(jié)束時，根據(jù)最后達成的協(xié)議給予獎勵。然后，使用策略梯度，這個獎勵通過輸出的每一個字被回傳網(wǎng)絡(luò)，從而增加導(dǎo)致高回報的行動的概率。

下一步

　　這一突破對于研究社區(qū)和BOT開發(fā)商是重大的一步，可以創(chuàng)造聊天機器人推理，交流，洽談的能力，對于建立個性化的數(shù)字助理至關(guān)重要。與社區(qū)合作使我們有機會分享我們的工作和我們要解決的挑戰(zhàn)，并鼓勵有才華的人貢獻他們的想法和努力，推動這個領(lǐng)域向前發(fā)展。

0贊 0踩

下一篇聚焦內(nèi)部物流解決方案——LogiMAT China 2017（南京）今日開幕

上一篇工信部將制定餐飲機器人標(biāo)準(zhǔn)規(guī)范

網(wǎng)友評論
文明上網(wǎng)，理性發(fā)言，拒絕廣告
0條評論

相關(guān)資訊
更多>>

無電池傳感器利用語音的力量

聲敏傳感器無需外部電源，由某些噪音產(chǎn)生的聲波激活。研究人員開發(fā)了一種無電池傳感器，可以對聲波（例如特定的口語單詞）做出反應(yīng)，產(chǎn)生足夠的振動能量來為電子設(shè)備供電。這種新型傳感器...

2024-02-06 10:11
科普：了解 CAN 總線的綜合指南

CAN 總線誕生于上世紀(jì) 80 年代，有助于在車輛內(nèi)進行可靠的電子通信。本文將深入探討 CAN 總線的基本原理、架構(gòu)、協(xié)議、應(yīng)用和局限性。簡介控制器局域網(wǎng)（CAN）總線由博世于 20 世紀(jì) 80 年...

2024-02-04 13:39
2023年國際年度內(nèi)部物流和叉車獎(IFOY)：17 項創(chuàng)新進入決賽

IFOY 組織公布了 2024 年 IFOY 獎提名名單，并再次進行了嚴(yán)格評選。來自 6 個國家的 15 家內(nèi)部物流供應(yīng)商從 35 家公司中脫穎而出，共有 17 種設(shè)備和解決方案入圍決賽，其中包括 4 ...

2024-02-04 13:35
瑞士科學(xué)家開發(fā)出 "更輕、更安全、更堅固 "的機器人人工肌肉

瑞士蘇黎世聯(lián)邦理工學(xué)院的研究人員開發(fā)出了用于機器人運動的人造肌肉。該學(xué)院研究人員表示，與之前的技術(shù)相比，他們的解決方案具有多項優(yōu)勢：它可用于機器人需要柔軟而非僵硬的地方，或機器人與環(huán)...

2024-02-04 13:04
本周工業(yè)車輛行業(yè)熱點回顧（2024.1.28－2.3）

小年已至，對我們來說，小年不只是為春節(jié)做準(zhǔn)備，更是年終總結(jié)的時刻，讓我們回想過去一年的經(jīng)歷和成長，同時也提醒自己做好準(zhǔn)備，應(yīng)對未來的挑戰(zhàn)和機遇。工作一...

2024-02-04 09:09
關(guān)于對《越野叉車驗證視野的試驗方法第2部分：越野型回轉(zhuǎn)伸縮臂式叉車》等三項國家標(biāo)準(zhǔn)（征求意見稿）征求意見的通知

2024-02-03 09:43
【新春祝福特輯】漢諾威米蘭展覽（上海）有限公司祝大家萬事順意，生意興“龍”！

2024-02-03 09:03
比爾·蓋茨：人工智能時代已經(jīng)開始

人工智能與手機和互聯(lián)網(wǎng)一樣具有革命性。在我的一生中，有兩次技術(shù)展示給我留下了革命性的印象。第一次是在 1980 年，當(dāng)時我看到了圖形用戶界面--包括 Windows 在內(nèi)的所有現(xiàn)代操作系統(tǒng)的前身。...

2024-02-02 08:56
AGV 指南：工業(yè)自動化牽引系統(tǒng)

在工業(yè)自動化領(lǐng)域，拖車牽引系統(tǒng)是重塑物料搬運格局的重要組成部分。什么是拖車？拖車是一種在倉庫、工廠或其他設(shè)施等各種工業(yè)環(huán)境中有效運輸材料的車輛。你可以把拖車想象成火車，拖車本身就像位...

2024-02-02 08:49
關(guān)于對《越野叉車驗證視野的試驗方法第2部分：越野型回轉(zhuǎn)伸縮臂式叉車》等三項國家標(biāo)準(zhǔn)（征求意見稿）征求意見的通知

2024-02-01 15:05