當(dāng)前位置：湖北世紀(jì)喬豐塑業(yè)有限公司>>塑料系列>>武漢小區(qū)垃圾桶，小區(qū)垃圾桶價格

武漢小區(qū)垃圾桶，小區(qū)垃圾桶價格

返回列表頁

參考價: ￥ 65

訂貨量: ≥1 臺

具體成交價以合同協(xié)議為準(zhǔn)

產(chǎn)品型號

品牌

廠商性質(zhì)其他

所在地

在線詢價收藏產(chǎn)品查看聯(lián)系電話

聯(lián)系方式：吳經(jīng)理查看聯(lián)系方式

更新時間：2023-08-30 10:30:35瀏覽次數(shù)：40次

聯(lián)系我時，請告知來自環(huán)保在線

產(chǎn)品分類 品牌分類

  塑料系列

全部產(chǎn)品列表

暫無信息

湖北世紀(jì)喬豐塑業(yè)有限公司

經(jīng)營模式：其他

商鋪產(chǎn)品：2006條

所在地區(qū)：

聯(lián)系人：吳經(jīng)理

詢價 給他留言

產(chǎn)品簡介

產(chǎn)品描述品牌武漢世紀(jì)喬豐塑膠制品有限公司型號分類垃圾桶材質(zhì)塑料重量7.3kg箱裝數(shù)量60升垃圾桶顏色橘紅顏色橙黃顏色波點顏色鈷藍(lán)顏色紅色顏色黃色產(chǎn)品性能收納規(guī)格490*410*650mm厚度多尺寸容積12L以上加工定制是產(chǎn)地武漢　　其他名字：1、可回收垃圾箱；2、廚余垃圾箱；3、有害垃圾箱；4、其他垃圾箱

詳細(xì)介紹

產(chǎn)品描述

品牌	武漢世紀(jì)喬豐塑膠制品有限公司	型號	分類垃圾桶
材質(zhì)	塑料	重量	7.3kg
箱裝數(shù)量	60升垃圾桶	顏色	橘紅
顏色	橙黃	顏色	波點
顏色	鈷藍(lán)	顏色	紅色
顏色	黃色	產(chǎn)品性能	收納
規(guī)格	490410650mm	厚度	多尺寸
容積	12L以上	加工定制	是
產(chǎn)地	武漢

　　其他名字：1、可回收垃圾箱；2、廚余垃圾箱；3、有害垃圾箱；4、其他垃圾箱。

　　編者按：本文來自“"，審校：**。。據(jù)外媒報道，對于澳大利亞人馬克·塞拉斯（MarkSerrels）來說，親身駕駛特斯拉ModelX四天，并非是為了對這款“未來之車"進(jìn)行性能測試，而是一次生死攸關(guān)的體驗。對于從未駕駛過ModelX的塞拉斯來說，駕駛它就像在操作一部巨大的、可移動充電的iPhone。下面就是塞拉斯的親身經(jīng)歷：我不是個善于開車的人。我考試五次不及格。當(dāng)我20歲的時候，我在爆胎的情況下繼續(xù)開出了5公里，卻沒有注意到任何問題。有一次，我試圖給汽車加油，卻忘了把蓋子蓋好，引發(fā)了一系列壯觀的事件：在一個炎熱的周日下午，我的汽車引擎在墨爾本市中心發(fā)生爆炸。所以，當(dāng)我決定利用ModelX進(jìn)行為期四天的試駕時，我感到非常緊張。之所以決定親身體驗這款車型，是因為我們知道，從技術(shù)角度來看，特斯拉制造出了很棒的汽車，但是在現(xiàn)實的家庭生活中會發(fā)生什么呢？作為“未來之車"，ModelX本質(zhì)上就是個巨大的、可移動的、可充電的iPhone。特斯拉的服務(wù)人員把鑰匙遞給我，然后把我?guī)У轿乙_的那輛ModelX所在的地方。她禮貌地叫我開門，不過我停了下來。這輛車看起來很時髦，流線光滑，沒有明顯的邊緣和縫隙。我就像是個拿著棍子的**，而ModelX就像我要對付的巨石。我笨拙地拖著腳，因為我不知道如何開車門。準(zhǔn)豪華車型我不做有關(guān)汽車方面的評論，也從來沒有開過“豪華車"。我目前擁有一輛2006年的豐田Rav4，但它更像是成SUV的垃圾桶。這不是開玩笑，坐在司機(jī)的座位上，我經(jīng)常能聞到垃圾的氣味，但畢竟生活要繼續(xù)下去，我逐漸習(xí)慣于將其當(dāng)成是正常的事情。當(dāng)你有一輛被設(shè)計用來將孩子從A點運(yùn)送到B點的汽車時，你的車就是一個有輪子的、經(jīng)過美化的垃圾箱。座位之間有餅干，地板上散落著香蕉皮，還有尿布、各種奇怪的棍子，甚至還有破了的小傘。在這種背景下，時尚、具有未來范兒的特斯拉ModelX不禁讓人感覺超凡脫俗。踩下加速器，我的突觸就像被強(qiáng)迫喂過冰鎮(zhèn)果汁的穴居人那樣酸爽。我坐在一輛從未來被送回到現(xiàn)代的汽車?yán)?，我身上的每一根纖維，從器官到骨骼上的肌肉，都因恐懼和興奮而震動。在ModelX的有個巨大的平板電腦，它對我的動作有所回應(yīng)。我不需要和方向盤較勁。我加速，車子就會按照指令行事，并以“是的，主人"回應(yīng)。此外，ModelX聞起來沒有垃圾的味道。顯然，這是一款豪華SUV。我無法將它與其他在這一領(lǐng)域爭奪的豪華SUV進(jìn)行比較。我只知道，這輛車感覺比我開過的任何車都更具未來感，我被這個從未來送來的奇怪東西弄糊涂了，它想要把我們從化石燃料和“"手中拯救出來，讓我們重新回到石器時代。特斯拉的服務(wù)人員問我，是否還有其他問題。我回答說：“只有一個。"而且這是個很重要的問題。大約六個月前，我在高速公路上開車時，我兩歲的兒子想出了如何打開乘客車門的辦法。當(dāng)時我正以96公里的時速開車。我想問的是：“如何才能啟動兒童鎖？"接下來就是我大腦中的每一根纖維遭受轟炸的時刻。使用特斯拉的平板電腦，我們在一套極其嚴(yán)格的設(shè)置中艱難地尋找“兒童鎖"。這讓我想起了從iOS切換到安卓系統(tǒng)時的場景，并試圖弄清楚如何關(guān)閉Facebook通知。你知道這是顯而易見的(至少在事后看來如此)，但當(dāng)時你正在的信息海洋中滾動，這讓人有些喘不過氣來的感覺。你可以調(diào)整懸掛，可以調(diào)整方向盤，可以讓你的座位變得暖和，可以在巨大的平板電腦上玩雅達(dá)利游戲。但現(xiàn)在我只想確保，我的孩子們不會因意外而。這是我們的車嗎？在那一整天，我始終期待著接長子放學(xué)的瞬間，我等不及要看他對特斯拉新車的反應(yīng)了。我的小兒子沒啥反應(yīng)，他才2歲，除了毀掉房子里所有值錢的東西外，他無法真的給出有意義的見解。當(dāng)我把他從托兒所接走的時候，他悄悄地爬上了自己的汽車座椅，就像什么都沒改變一樣，就像我們的垃圾桶Rav4并沒有突然被來自未來的汽車所取代那樣。在特斯拉ModelX上安裝法定的兒童座椅相對容易，但有一種奇怪的不和諧之處。在價值8.62萬美元)的豪華汽車上無縫安裝上可供兒童吃喝拉撒的座椅，怎么看都有點兒怪異。就像是在看一幅荷蘭錯覺藝術(shù)大師埃舍爾（MCEscher）的畫，我茫然地盯著坐在特斯拉里的兒子，等待著這幅圖像開始變得更有意義。接到五歲的兒子時，事情終于有了變化。這是我所希望的，他帶著“驚嘆"向它走去。他氣喘吁吁地問：“這是我們的車嗎？"我們繞道去了高速公路。此前，在特斯拉服務(wù)人員的指導(dǎo)下，我被告知如何讓汽車進(jìn)入無人駕駛狀態(tài)。他們的建議是“只在高速公路上用它"，而我打算接受這個建議。這是我**次使用它，有特斯拉代表坐在旁邊，我感覺相當(dāng)舒服。舒舒服服地把自己的生活交到這款智能組件的手中。我和后面的孩子們會有什么感覺？當(dāng)這種場景在以后的生活中成為常態(tài)時，我會有什么感覺？至少在現(xiàn)在看來，我覺得一切都很不錯。我開車上了高速公路，并按了加速鍵。我的孩子們在后面沒完沒了地要求“走得更快些"，“去麥當(dāng)勞吃晚飯"，還為了一個空水瓶打架，于是我拉了兩次“自動駕駛儀"開關(guān)，進(jìn)入無人駕駛狀態(tài)，以便把雙手從方向盤上拿開，默默地祈禱死亡的甜蜜釋放。孩子們錯了嗎？有時候，我們很難擺脫一種感覺，那就是我們在浪費(fèi)子孫后代能夠享用的資源。在我體驗自動駕駛儀的那天，當(dāng)我的孩子們在后座上爭吵不休時，1000多名兒童在悉尼參加，這是全國范圍內(nèi)的“第四次罷工氣候行動"(Strike4ClimateAction)的一部分。全國各地（如墨爾本、巴拉拉特、凱恩斯、紐卡斯?fàn)?、珀斯）的孩子們離開教室，**在氣候變化問題上無所作為。這很鼓舞人心。這些孩子不能投票，他們沒有辦法選舉或罷免做出可能會毀掉他們未來的決定的人，但他們共同找到了一種讓人們聽到他們聲音的方法。澳大利亞**斯科特·莫里森(ScottMorrison)批評了活動。他曾把煤塊帶到議會，并說“我們不支持我們的學(xué)校變成議會"，希望學(xué)校里“少些積極主義"。事實上，孩子們是對的。當(dāng)我回到家，把特斯拉ModelX倒進(jìn)車庫時，附近的孩子們從自行車上跳了下來。他們聚在一起，驚掉了的下巴。一個孩子說：“一看到它，我就給媽媽發(fā)了短信。"另一個人開始喋喋不休地說出特斯拉的型號，就像他自己就是埃隆·馬斯克(ElonMusk)一樣。一個住在馬路對面的小孩而告訴我，他是個特斯拉的超級粉絲。這些孩子不再把保時捷的海報貼在墻上，而是掛上了特斯拉跑車Roadster的海報。當(dāng)ModelX的鷹翼門打開時，孩子們甚至尖叫起來。在他們父母的允許下，我把他們都帶去兜風(fēng)。在整個過程中，他們就像一群的鬣狗那樣高聲吠叫著。這不是我的車街對面的那個中年人隨后走了過來，并毫不客氣地指出，這種電動汽車沒用。的確，我一周吃六次肉，我們正在毀滅所生活的世界。冰蓋正在融化，加州野火肆虐，只有在像特斯拉ModelX這樣的車?yán)锊拍芎粑礁蓛舻目諝狻Ｎ业闹心赅従哟_信，一輛車不起作用，普通人買不起它。當(dāng)我打開ModelX的鷹翼門時，我對所有盯著它的人說了相同的話：“這不是我的車，我只是借用幾天而已。"同時，提醒大家我很正常，這里沒什么可看的。2018年，埃隆·馬斯克(ElonMusk)被處以2000萬美元的罰款，并被迫辭去特斯拉董事長一職，此前他被指控在Twitter上誤導(dǎo)投資者。他目前正被一名英國潛水員，這名潛水員英勇地營救了被困在水下洞穴中的泰國兒童，但卻被馬斯克稱為“戀童癖者"。馬斯克還在喬·羅根(JoeRogan)的播客上吸**，然后在Twitter上漫不經(jīng)心地表示，他堅信每周應(yīng)該工作80小時，可能需要多達(dá)100小時來“改變世界"，他似乎沒有意識到自己公司在員工待遇方面的聲譽(yù)不佳。簡而言之，2018年是埃隆·馬斯克(ElonMusk)從“鋼鐵俠"變成“問題人士"的一年。所以當(dāng)我說“不是我的車"時，既有不愿被看作是“在學(xué)校里炫耀漂亮新車的大人物"的意思，也有不愿惹麻煩的意思，因為很多人現(xiàn)在似乎不喜歡馬斯克。周六，我從悉尼開車到堪培拉，這基本上是一條長達(dá)320公里的直線，單調(diào)乏味。但在特斯拉ModelX車中，時間似乎過得更快。我感覺很舒服。我已經(jīng)調(diào)整了我的座位，設(shè)定了自己的特殊規(guī)格，并保存為檔案。使用了氣候控制功能意味著，悉尼夏季太陽的熾熱不會穿透到車中。汽車被設(shè)置為智能型巡航控制。我在看平板電腦，它記錄了我的電池使用情況，估計在目前的情況下，我能以這個速度行駛多少公里。數(shù)字顯示，我可以很舒適地到達(dá)堪培拉。在車的后座上，孩子們在爭論聽哪首音樂。我們終滿足于《忍者》的主題曲，并重復(fù)播放。“我們被真空封在一個奇怪的夢里，外面的世界一片混亂"，我當(dāng)時就是這么想的。如果澳大利亞的灌木叢突然變成燃燒的地獄，如果有人終投下了，如果海洋上升并吞噬了我們所有人，在這輛車?yán)铮谶@一刻，我們將是后的人之一。

　　兩用垃圾桶，是指一種兼具垃圾桶與簸箕兩種功能的新型垃圾桶，該垃圾桶大致具有一概呈Ｌ型的容器本體，本體上方設(shè)有一垃圾投入口及一自動復(fù)歸的蓋板，使用者輕壓蓋板將垃圾投入垃圾桶內(nèi)時，蓋板可自動將投入口封閉，以達(dá)到整潔衛(wèi)生的要求，容器本體下方一側(cè)向前延伸成一斜面袋口，該袋口設(shè)有一可向內(nèi)掀起的活動蓋，可掃入垃圾而又不使垃圾掉出，活動蓋一側(cè)另設(shè)一缺口，可在連動桿向上拉起后，連動桿前端的鉤柄移位至缺口處，使活動蓋可向內(nèi)或向外掀動，以利垃圾桶內(nèi)的垃圾倒出，可當(dāng)直接掃入垃圾的簸箕以及可倒垃圾的兩用垃圾桶。這款垃圾桶仿佛一個被鋒利的**沿對角線削成兩半的中空長方體。而因為空洞并未處于長方體的正中間，所以，只要將其90度放倒，即可讓垃圾桶變身簸箕，方便了垃圾的清掃和收納。

　　編者按：本文來自微信公眾號“S先生"（ID：TheMisterS），作者M(jìn)ingke，。原題目《人工智障2:你看到的AI與智能無關(guān)》前言大家好，我又出來懟人了。兩年前，寫了一篇文章《為什么現(xiàn)在的人工智能助理都像人工智障》，當(dāng)時主要是懟“智能助理們"。這次呢則是表達(dá)“我不是針對誰，只是現(xiàn)在所有的深度學(xué)習(xí)都搞不定對話AI"，以及“你看都這樣了，那該怎么做AI產(chǎn)品"。-閱讀門檻-時間：這篇真的太長了（近3萬字）根據(jù)預(yù)覽同學(xué)們的反饋，通常**次閱讀到Part3時，會消耗很多精力，但讀完P(guān)art3才發(fā)現(xiàn)是精華（同時也是燒腦的部分）。請大家酌情安排閱讀時間?？勺x性：我會在內(nèi)容里邀請你一起思考（無需知識），所以可能不適合通勤時間閱讀。你的閱讀收益取決于在過程中思考的參與程度。適合人群：對話智能行業(yè)從業(yè)者、AIPM、關(guān)注AI的投資人、對AI有強(qiáng)烈興趣的朋友、關(guān)心自己的工作會不會被AI代替的朋友；關(guān)于鏈接：閱讀本文時，無需閱讀每個鏈接里的內(nèi)容，這并不會影響對本文的理解。-關(guān)于“人工智障"四個字-上一片文章發(fā)出后，有朋友跟我說，標(biāo)題里的“人工智障"這個詞貌似有點offensive。作為學(xué)語言出身的，我來解釋一下這個原因：開始呢，我是在跟一位企業(yè)咨詢顧問聊人工智能這個賽道的現(xiàn)狀。因為對話是用英語展開的，當(dāng)時為了表達(dá)我的看法“現(xiàn)在的智能助理行業(yè)正處在一種難以逾越的困境當(dāng)中"，我就跟她說“CurrentlyallthedigitalassistantsareArtificial-Intelligentlychallenged"。她聽了之后哈哈一笑?！癷ntelligentlychallenged"同時也是英文中對智障的委婉表達(dá)。假設(shè)不了解這個常識，她就可能忽略掉這個梗，盡管能明白核心意思，只是不會覺得有什么好笑的。那么信息在傳遞中就有損失。寫文章時，我把這個信息翻譯成中文，就成了“人工智障"。但是因為中文語法的特性，有些信息就lostintranslation了。比如實際表達(dá)的是“一種困境的狀態(tài)"而不是“一件事"。（順便說一下，中文的智障，實際上是政治正確的稱呼，詳見特殊會的用詞方法。）為什么要寫那么多字來解釋這個措辭？因為不同的人，看見相同的字，也會得到不同的理解。這也是我們要討論的重點之一。那么，我們開始吧。Part1對話智能的表現(xiàn)：智障:ITU2017年10月，上圖這個叫Sophia的機(jī)器人，被沙特阿拉伯授予了正式的公民身份。公民身份，這個評價比圖靈測試還要牛。何況還是在沙特，他們才剛剛允許女性開車不久（2017年9月頒布的法令）。Sophia經(jīng)常參加各種會、“發(fā)表演講"、“接受采訪"，比如去對話，表現(xiàn)出來非常類似人類的言談；去和WillSmith拍MV；接受GoodmorningBritain之類的主流媒體的采訪；甚至公司創(chuàng)始人參加JimFallon的訪談時一本正經(jīng)的說Sophia是“basicallyalive"。Basicallyalive.要知道，西方的吃瓜群眾都是看著《》長大的，前段時間還看了《西部世界》。在他們的世界模型里，“機(jī)器智能會覺醒"這個設(shè)定是遲早都會發(fā)生的。普通大眾開始嚇得瑟瑟發(fā)抖。不僅開始擔(dān)心自己的工作是不是會被替代，還有很多人開始擔(dān)心AI會不會統(tǒng)治人類，這樣的話題展開?！拔磥硪褋?，很多人都以為真正的人工智能已經(jīng)近在咫尺了。只是，有些人可能會注意到有些不合理的地方：“等等，人工智能都要威脅人類了，為啥我的Siri還那么蠢？"Source:DumbAndDumber:ComparingAlexa,Siri,CortanaAndTheGoogleAssistant,Forbes,May2018我們來看看到2018年末在對話智能領(lǐng)域，各方面究竟發(fā)展的如何了?！安灰毡静?我在2016年底做過一個測試，對幾個智能助理提一個看似簡單的需求：“推薦餐廳，不要日本菜"。只是各家的AI助理都會給出一堆餐廳推薦，全是日本菜。2年過去了，在這個問題的處理上有進(jìn)展么？我們又做了一次測試：結(jié)果是依然沒有解決?！安灰?兩個字被所有助理一致忽略了。為什么要關(guān)注“不要"兩個字？之前我去到一家某非常有名的智能語音創(chuàng)業(yè)公司，聊到這個問題時，他家的PM顯出疑惑：“這個邏輯處理有什么用？我們后臺上看到用戶很少提出這類表達(dá)啊。"聽到這樣的評論，基本可以確定：這家公司還沒有深入到服務(wù)對話領(lǐng)域。場景方面，一旦深入進(jìn)服務(wù)領(lǐng)域里的多輪對話，很容易會遇到類似這樣的表達(dá)：“我不要這個，有更便宜的么？"。后臺沒有遇到，只能說用戶還沒開始服務(wù)就結(jié)束了。場景方面與AI公司的domain選擇有關(guān)。但是在技術(shù)方面，則是非常重要的。因為這正是真正智能的核心特點。我們將在part2&3詳細(xì)聊聊這個問題?，F(xiàn)在先拋個結(jié)論：這個問題解決不了，智能助理會一直智障下去的?！癟oC團(tuán)隊轉(zhuǎn)ToB"自從2015年幾個重要的深度學(xué)習(xí)在當(dāng)中火了起來，大小公司都想做“Her"這樣面對個人消費(fèi)者的通用型智能助理（ToC類產(chǎn)品的目標(biāo)）。一波熱錢投給有希望的種子隊伍（擁有Fancy背景）之后，全滅。目前為止，在2C這方面的所有商用產(chǎn)品，無論是還是創(chuàng)業(yè)公司，全部達(dá)不到用戶預(yù)期。在人們的直覺里，會認(rèn)為“智能助理"，處理的是一些日常任務(wù)，不涉及的需求，應(yīng)該比“智能專家"好做。這是延續(xù)“人"的思路。推薦餐廳、安排行程是人人都會做的事情；卻只有少數(shù)受過訓(xùn)練的人能夠處理金融、醫(yī)療問診這類問題。而對于現(xiàn)在的AI，情況正好相反。現(xiàn)在能造出在圍棋上打敗柯潔的AI，但是卻造不出來能給柯潔管理日常生活的AI。隨著toC助理賽道的崩盤，ToBornottoB已經(jīng)不再是問題，因為已經(jīng)沒得選了，只能ToB。這不是商業(yè)模式上的選擇，而是技術(shù)的限制。目前ToB，特別是限定領(lǐng)域的產(chǎn)品，相對ToC類產(chǎn)品更可行：一個原因是領(lǐng)域比較封閉，用戶從思想到語言，不容易發(fā)揮跑題；另一方面則是數(shù)據(jù)充分。只是ToB的公司都很容易被當(dāng)成是做“外包"的。因為客戶是一個個談下來的，項目是一個個交付的，這意味著增長慢，靠人堆，沒有復(fù)利帶來的指數(shù)級增長。大家紛紛表示不開心。這個“幫人造機(jī)器人"的業(yè)務(wù)有點像“在網(wǎng)頁時代幫人建站"。轉(zhuǎn)成ToB的團(tuán)隊經(jīng)常受到資本的質(zhì)疑：“你這個屬于做項目，怎么規(guī)模化呢？"要知道，國內(nèi)的很多投資機(jī)構(gòu)和里面的投資經(jīng)理入行的時間，是在國內(nèi)的移動互聯(lián)起來的那一波?！癝calability"或者“高速增長"是體系里重要的指標(biāo)，沒有之一。而做項目這件事，就是Casebycase，要增長就要堆人，也就很難出現(xiàn)指數(shù)級增長。這就有點尷尬了?！澳惴判?，我有SaaS！哦不，是AIaaS。我可以打造一個平臺，上面有一系列工具，可以讓客戶們自己組裝機(jī)器人。"然而，這些想做技能平臺的創(chuàng)業(yè)公司，也沒有一個成功的。短期也不可能成功。YannLeCun對AIaas的看法主要的邏輯是這樣的：你給客戶提供工具，但他需要的是雕像——這中間還差了一個雕塑家。佐證就是那些各家試圖開放“對話框架"給更小的，甚至是服務(wù)提供者，幫助他們“3分鐘開發(fā)出自己的AI機(jī)器人"，具體就不點名了。自己都開發(fā)不出來一個讓人滿意的產(chǎn)品，還想抽象一個范式出來讓別人沿用你的（不work的）框架？不過，我認(rèn)為MLaaS在長期的成功是有可能的，但還需要行業(yè)發(fā)展更為成熟的時候，現(xiàn)在為時尚早。具體分析我們在后面Part5會談到?！耙粝涞某晒椭悄艿氖?對話這個領(lǐng)域，另一個比較火的賽道是智能音箱。各大主要科技公司都出了自己的智能音箱，騰訊叮當(dāng)、阿里的天貓精靈、小米音箱、國外的Alexa、Google的音箱等等。作為一個硬件品類，這其實是個還不錯的生意，基本屬于制造業(yè)。不僅出貨不差，還被寄予期望，能夠成為一個生態(tài)的生意——核心邏輯看上去也是充滿想象力的：超級終端：在后移動時代，每家都想像iphone一樣搶用戶的入口。只要用戶習(xí)慣使用語音來獲得咨詢或者服務(wù)，甚至可以像Xbox/ps一樣，硬件賠錢賣，軟件來掙錢；用語音做OS：打造各類語音的技能，然后通過大量“離不開的技能"反哺這個OS的市場占有；提供平臺：像Xcode一樣，給提供應(yīng)用開發(fā)的工具和分發(fā)平臺、提供使用服務(wù)的流量。可是，這些技能使用的實際情況是這樣的：Source:Statista萬眾期待的killerapp并沒有出現(xiàn)；基本沒有商業(yè)服務(wù)型的應(yīng)用；技能都沒賺到錢，也不知道怎么；大部分高頻使用的技能都沒有商業(yè)價值——用戶用的多的就是“查天氣"沒有差異性：智能的差異嘛基本都沒有的事兒?！盎实鄣男氯斯ぶ悄?回過頭來，我們再來看剛剛那位沙特阿拉伯的公民，Sophia。既然剛剛提到的那么多公司投入了那么多錢和科學(xué)家，都搞成這樣，憑什么這個Sophia能一鳴驚人？因為Sophia的“智能"是個**?？梢灾苯右肶annLeCun對此的評價，“這是鬼扯"。簡單來說，Sophia是一個帶喇叭的木偶——在各種大會上的發(fā)言和采訪的內(nèi)容都是人工撰寫，然后用人人都有的語音合成做輸出。卻被宣傳成為是其“人工智能"的自主意識言論。這還能拿“公民身份"，可能是人類公民被黑的慘的一次。這感覺，好像是我家的橘貓被一所985大學(xué)授予了土木工程學(xué)士學(xué)位。其實對話系統(tǒng)里，用人工來撰寫內(nèi)容，或者使用模版回復(fù)，這本來就是現(xiàn)在技術(shù)的現(xiàn)狀（在后面我們會展開）。但刻意把“非智能"的產(chǎn)物說成是“智能"的表現(xiàn)，這就不對了?？紤]到大部分吃瓜群眾是通過媒體渠道來了解當(dāng)前技術(shù)發(fā)展的，跟著炒作的媒體（比如被點名的TechInsider）都是這場**的共犯。這些不知道是無知還是無良的文科生，真的沒有做好新聞工作者份內(nèi)的調(diào)查工作。近這股妖風(fēng)也吹到了國內(nèi)的韭菜園里。Sophia出現(xiàn)在了王力宏的一首講AI的MV里；然后又2018年11月跑去給大企業(yè)站臺。真的，行業(yè)內(nèi)認(rèn)真做事兒的小伙伴，都應(yīng)該站出來，讓大家更清晰的知道現(xiàn)在AI——或者說機(jī)器學(xué)習(xí)的邊界在哪兒。不然甲方爸爸們信以為真了，突然指著sophia跟你說，“別人都能這么自然，你也給我整一個。"你怕不得裝個真人進(jìn)去？對了，說到這兒，確實現(xiàn)在也有：用人——來成人工智能——來模擬人，為用戶服務(wù)。Source:TheGuardian國內(nèi)的案例典型的就是銀行用的大堂機(jī)器人，其實是真人在遠(yuǎn)程語音（所謂Telepresence）。美國有X.ai，做基于的日程管理的。只是這個AI到了下午5點就要下班。當(dāng)然，假如我是這些**背后，被質(zhì)疑的時候，我還可以強(qiáng)行拉回人工智能上：“這么做是為了積累真正的對話數(shù)據(jù)，以后用來做真的AI對話系統(tǒng)識別的訓(xùn)練。"這么說對外行可能是毫無破綻的。但是真正行業(yè)內(nèi)干正經(jīng)事的人，都應(yīng)該像傅盛那樣站出來，指明這些做法是**：“沒有一家能做出來......做不到，一定做不到"。人家沙特是把AI當(dāng)成人，這些套路是把人當(dāng)成AI。然后大眾就開始分不清楚究竟什么是AI了?！叭斯ぶ悄芫烤梗╰md）指的是什么？"另一方面，既然AI現(xiàn)在的那么蠢，為什么馬一龍(ElonMusk)卻說“AI很有可能毀滅人類"；霍金甚至直接說“AI可能是人類文明里糟糕的事件"。而在另一邊，F(xiàn)acebook和Google的**科學(xué)家卻在說，現(xiàn)在的AI都是渣渣，根本不需要擔(dān)心，甚至應(yīng)該重做。大家該相信誰的？一邊是要去火星的男人，和說不定已經(jīng)去了火星的男人；另一邊是當(dāng)前兩家科技的人物。其實他們說的都對，因為這里說到的“人工智能"是兩碼事。馬一龍和霍金擔(dān)心的人工智能，是由人造出來的真正的智能，即通用人工智能（AGI,ArtificialGeneralIntelligence）甚至是超級智能（SuperIntelligence）。而YannLeCun和Hinton指的人工智能則是指的當(dāng)前用來實現(xiàn)“人工智能效果"的技術(shù)（基于統(tǒng)計的機(jī)器學(xué)習(xí)）。這兩位的觀點是“用這種方式來實現(xiàn)人工智能是行不通的"。兩者本質(zhì)是不同的，一個指的是結(jié)果，一個指的是（現(xiàn)在的）過程。那么當(dāng)我們在討論人工智能的時候，究竟在說什么？JohnMcCathyJohnMcCathy在1956年和MarvinMinsky，NathanielRochester以及ClaudeShannon在達(dá)特貌似研討會上打造了AI這個詞，但是到目前為止，學(xué)界工業(yè)界并沒有一個統(tǒng)一的理解。根本的問題是目前人類對“智能"的定義還不夠清楚。何況人類本身是否是智能的**體現(xiàn)，還不一定呢。想想每天打交道的一些人：）一方面，在大眾眼中，人工智能是“人造出來的，像人的智能"，比如Siri。同時，一個AI的水平高低，則取決于它有多像人。所以當(dāng)Sophia出現(xiàn)在公眾眼中的時候，普通人會很容易被蒙蔽（甚至能通過圖靈測試）。Oracle對AI的定義也是“只要是能讓計算機(jī)可以模擬人類行為的技術(shù)，都算！"而另一方面，從字面上來看“ArtificialIntelligence"，只要是人造的智能產(chǎn)品，理論上都算作人工智能。也就是說，一個手持計算器，盡管不像人，也應(yīng)算是人工智能產(chǎn)品。但我相信大多數(shù)人都不會把計算器當(dāng)成是他們所理解的人工智能。這些在認(rèn)識上不同的解讀，導(dǎo)致當(dāng)前大家對AI應(yīng)用的期望和評估都有很多差異。再加上還有“深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)"這些概念紛紛跟著人工智能一起出現(xiàn)。但是各自意味著什么，之間是什么關(guān)系，普通大眾都不甚了解?！皼]關(guān)系，韭菜不用懂。"但是想要割韭菜的人，**能搞清楚吧。連有些投資人自己也分不清，你說怎么做判斷，如何投項目？當(dāng)然是投胸大的。以上，就是到2018年末，在對話領(lǐng)域的人工智能的現(xiàn)狀：智能助理依然智障；大部分ToB的給人造機(jī)器人的都無法規(guī)?；?；對話方面沒有像AlphaZero在圍棋領(lǐng)域那樣的讓人震驚的產(chǎn)品；沒有商業(yè)上大規(guī)模崛起的跡象；有的是一團(tuán)渾水，和渾水摸魚的人。為什么會這樣？為什么人工智能在圖像識別，人臉識別，下圍棋這些方面都那么快的進(jìn)展，而在對話智能這個領(lǐng)域卻是如此混亂？既然你都看到這里了，我相信你是一個愿意探究本質(zhì)的好同志。那么我們來了解，對話的本質(zhì)是什么；以及現(xiàn)在的對話系統(tǒng)的本質(zhì)又是什么。Part2當(dāng)前對話系統(tǒng)的本質(zhì)：填表“AIthinks,manlaughs"Source:TheGlobeandMail有一群小雞出生在一個農(nóng)場，無憂無慮安心地生活。雞群中出現(xiàn)了一位科學(xué)家，它注意到了一個現(xiàn)象：每天早上，食槽里會自動出現(xiàn)糧食。作為一名優(yōu)秀的歸納法信徒(Inductivist)，這只科學(xué)雞并不急于給出結(jié)論。它開始全面觀察并做好記錄，試圖發(fā)現(xiàn)這個現(xiàn)象是否在不同的條件下都成立?！靶瞧谝皇沁@樣，星期二是這樣；樹葉變綠時是這樣，樹葉變黃也是這樣；天氣冷是這樣，天氣熱也是這樣；下雨是這樣，出太陽也是這樣！"每天的觀察，讓它越來越興奮，在心中，它離真相越來越接近。直到有一天，這只科學(xué)雞再也沒有觀察到新的環(huán)境變化，而到了當(dāng)天早上，雞舍的門一打開，它跑到食槽那里一看，依然有吃的！科學(xué)雞，對他的小伙伴，志在必得地宣布：“我預(yù)測，每天早上，槽里會自動出現(xiàn)食物。明天早上也會有！以后都會有！我們不用擔(dān)心餓死了！"經(jīng)過好幾天，小伙伴們都驗證了這個預(yù)言，科學(xué)雞驕傲的并興奮的把它歸納成“早起的小雞有食吃定理"。正好，農(nóng)場的農(nóng)夫路過，看到一只興奮的雞不停的咯咯叫，他笑了：“這只雞很可愛哦，不如把它做成叫花雞好了"?？茖W(xué)雞，卒于午飯時間。在這個例子里，這只羅素雞（BertrandRussell’schicken）只對現(xiàn)象進(jìn)行統(tǒng)計和歸納，不對原因進(jìn)行推理。而主流的基于統(tǒng)計的機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)，也是通過大量的案例，靠對文本的特征進(jìn)行歸類，來實現(xiàn)對識別語義的效果。這個做法，就是羅素雞。目前，這是對話式人工智能的主流技術(shù)基礎(chǔ)。其主要應(yīng)用方向，就是對話系統(tǒng)，或稱為Agent。之前提到的智能助理Siri，Cortana，GoogleAssistant以及行業(yè)里面的智能客服這些都算是對話智能的應(yīng)用?！皩υ捴悄艿暮谙?這些產(chǎn)品的交互方式，是人類的自然語言，而不是圖像化界面。圖形化界面（GUI）的產(chǎn)品，比如網(wǎng)頁或者APP的產(chǎn)品設(shè)計，是所見即所得、界面即功能。對話智能的交互（CUI,ConversationalUI）是個黑箱：終端用戶能感知到自己說出的話（輸入）和機(jī)器人的回答（輸出）——但是這個處理的過程是感覺不到的。就好像跟人說話，你并不知道他是怎么想的。每一個對話系統(tǒng)的黑箱里，都是自由發(fā)揮的天地。雖說每家的黑箱里面都不同，但是**層的思路，都萬變不離其宗，核心就是兩點：聽人話（識別）講人話（對話管理）。如果你是從業(yè)人員，那么請回答一個問題：你們家的對話管理是不是填槽？若是，你可以跳過這一節(jié)（主要科普填槽是怎么回事），請直接到本章的第五節(jié)“當(dāng)前對話系統(tǒng)的局限"?！癆I如何聽懂人話？"對話系統(tǒng)這個事情在2015年開始突然火起來了，主要是因為一個技術(shù)的普及：機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)帶來的語音識別和NLU(自然語言理解)——主要解決的是識別人講的話。這個技術(shù)的普及讓很多團(tuán)隊都掌握了一組關(guān)鍵技能：意圖識別和實體提取。這意味著什么？我們來看一個例子。在生活中，如果想要訂，人們會有很多種自然的表達(dá)：“訂"；“有去上海的航班么？"；“看看航班，下周二出發(fā)去紐約的"；“要出差，幫我查下"；等等等等可以說“自然的表達(dá)"有無窮多的組合（自然語言）都是在代表“訂"這個意圖的。而聽到這些表達(dá)的人，可以準(zhǔn)確理解這些表達(dá)指的是“訂"這件事。而要理解這么多種不同的表達(dá)，對機(jī)器是個挑戰(zhàn)。在過去，機(jī)器只能處理“結(jié)構(gòu)化的數(shù)據(jù)"（比如關(guān)鍵詞），也就是說如果要聽懂人在講什么，必須要用戶輸入的指令。所以，無論你說“我要出差"還是“幫我看看去北京的航班"，只要這些字里面沒有包含提前設(shè)定好的關(guān)鍵詞“訂"，系統(tǒng)都無法處理。而且，只要出現(xiàn)了關(guān)鍵詞，比如“我要退訂"里也有這三個字，也會被處理成用戶想要訂。自然語言理解這個技能出現(xiàn)后，可以讓機(jī)器從各種自然語言的表達(dá)中，區(qū)分出來，哪些話歸屬于這個意圖；而那些表達(dá)不是歸于這一類的，而不再依賴那么死板的關(guān)鍵詞。比如經(jīng)過訓(xùn)練后，機(jī)器能夠識別“幫我推薦一家附近的餐廳"，就不屬于“訂"這個意圖的表達(dá)。并且，通過訓(xùn)練，機(jī)器還能夠在句子當(dāng)中自動提取出來“上海"，這兩個字指的是目的地這個概念（即實體）；“下周二"指的是出發(fā)時間。這樣一來，看上去“機(jī)器就能聽懂人話啦！"。這個技術(shù)為啥會普及？主要是因為機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)氛圍，導(dǎo)致重要的論文基本都是公開的。不同團(tuán)隊要做的是考慮具體工程實施的成本。后的效果，就是在識別自然語言這個領(lǐng)域里，每家的基礎(chǔ)工具都差不多。在意圖識別和實體提取的準(zhǔn)確率，都是百分點的差異。既然這個工具本身不是核心競爭力，甚至你可以用別家的，大把可以選，但是關(guān)鍵是你能用它來干什么？“DuetotheacademicculturethatMLcomesfrom,prettymuchalloftheprimaryscienceispublishedassoonasit’screated-almosteverythingnewisapaperthatyoucanreadandbuildwith.Butwhatdoyoubuild?"——BenedictEvans（A16Z合伙人）在這方面，顯而易見的價值，就是解放雙手。語音控制類的產(chǎn)品，只需要聽懂用戶的自然語言，就去執(zhí)行這個操作：在家里要開燈，可以直接說“開燈"，而不用去按開關(guān)；在車上，說要“開天窗"，天窗就打開了，而不用去找對應(yīng)的按鈕在哪里。這類系統(tǒng)的重點在于，清楚聽清哪個用戶在講是什么。所以麥克風(fēng)陣列、近場遠(yuǎn)場的抗噪、聲紋識別講話的人的身份、ASR（語音轉(zhuǎn)文字），等等硬件軟件的技術(shù)就相應(yīng)出現(xiàn)，向著前面這個目標(biāo)不斷優(yōu)化。“講人話"在這類應(yīng)用當(dāng)中，并不那么重要。通常任務(wù)的執(zhí)行，以結(jié)果進(jìn)行反饋，比如燈應(yīng)聲就亮了。而語言上的反饋，只是一個**作用，可有可無。但是任務(wù)類的對話智能，往往不止是語音控制這樣一輪交互。如果一個用戶說，“看看明天的"——這表達(dá)正常，但無法直接去執(zhí)行。因為缺少執(zhí)行的必要信息：1）從哪里出發(fā)？和2）去哪里？如果我們希望AIAgent來執(zhí)行這個任務(wù)，一定要獲得這兩個信息。對于人來完成這個業(yè)務(wù)的話，要獲得信息，就得靠問這個用戶問題，來獲得信息。很多時候，這樣的問題，還不止一個，也就意味著，要發(fā)起多輪對話。對于AI而言，也是一樣的。要知道“去哪里"=Agent問用戶“你要去哪里？"要知道“從哪里出發(fā)"=Agent問用戶“你要從哪里出發(fā)呢？"這就涉及到了對話語言的生成?！癆I如何講人話？"決定“該說什么話"，才是對話系統(tǒng)的核心——無論是硅基的還是碳基的智能。但是深度學(xué)習(xí)在這個版塊，并沒有起到什么作用。在當(dāng)前，處理“該說什么"這個問題，主流的做法是由所謂“對話管理"系統(tǒng)決定的。盡管每一個對話系統(tǒng)背后的“對話管理"機(jī)制都不同，每家都有各種理解、各種設(shè)計，但是萬變不離其宗——目前所有任務(wù)類對話系統(tǒng)，無論是前段時間的Googleduplex，還是智能客服，或者智能助理，核心的對話管理方法，有且僅有一個：“填槽"，即Slotfilling。如果你并不懂技術(shù)，但是又要迅速知道一家做對話AI的水平如何，到底有沒有黑科技(比如剛剛開始看AI領(lǐng)域的做投資的朋友)，你只需要問他一個問題：“是不是填槽？"如果他們（誠實地）回答“是"，那你就可以放下心來，黑科技尚未出現(xiàn)。接下來，能討論的范圍，無非都是產(chǎn)品設(shè)計、工程實現(xiàn)、如何解決體驗和規(guī)模化的困境，這類的問題?；旧显撝钦系?，還是會智障。要是他們回答“不是填槽"，而且產(chǎn)品的效果還很好，那么就有意思了，值得研究，或者請速速聯(lián)系我：）那么這個“填槽"究竟是個什么鬼？嗯，不搞開發(fā)的大家可以簡單的把它理解為“填表"：好比你要去銀行辦個業(yè)務(wù)，先要填一張表。如果這張表上的空沒有填完，柜臺**姐就不給你辦。她會紅筆給你圈出來：“必須要填的空是這些，別的你都可以不管。"你全部填好了，再遞給**姐，她就去給你辦理業(yè)務(wù)了。還記得剛剛那個的例子么？用戶說“看看明天的"，要想執(zhí)行“查"，就得做以下的步奏，還要按順序來：1.ASR：把用戶的語音，轉(zhuǎn)化成文字。2.NLU語義識別：識別上面的文字，屬于（之前設(shè)定好的）哪一個意圖，在這里就是“訂"；然后，提取文字里面的實體，“明天"作為訂票日期，被提取出來啦。3.填表：這個意圖是訂，那么就選“訂"這張表來填；這表里有三個空，時間那個空里，就放進(jìn)“明天"。（這個時候，表里的3個必填項，還差兩個：“出發(fā)地"和“到達(dá)地"）4.開始跑之前編好的程序：如果差“出發(fā)地"，就回“從哪里走啊？"；如果差“目的地"，就回“你要去哪里？"（NLG上打引號，是因為并不是真正意義上的自然語言生成，而是套用的對話模版）5.TTS：把回復(fù)文本，合成為語音，播放出去在上面這個過程當(dāng)中，1和2步奏都是用深度學(xué)習(xí)來做識別。如果這個環(huán)節(jié)出現(xiàn)問題，后面就會連續(xù)出錯。循環(huán)1-5這個過程，只要表里還有空要填，就不斷問用戶，直到所有的必填項都被填完。于是，表就可以提交**姐（后端處理）了。后端看了要查的條件，返回滿足這些條件的情況。Agent再把查詢結(jié)果用之前設(shè)計好的回復(fù)模板發(fā)回給用戶。順便說一下，我們經(jīng)常聽到有些人說“我們的多輪對話可以支持xx輪，多的時候有用戶能說xx輪"?，F(xiàn)在大家知道，在任務(wù)類對話系統(tǒng)里，“輪數(shù)的產(chǎn)生"是由填表的次數(shù)決定的，那么這種用“輪數(shù)多少"來衡量產(chǎn)品水平的方法，在這個任務(wù)類對話里里無意義。一定要有意義，也應(yīng)該是：在達(dá)到目的、且不影響體驗的前提下，輪數(shù)越少越好。在當(dāng)前，只要做任務(wù)類的多輪對話，基本跑不掉填表。5月的時候，GoogleI/O發(fā)布了Duplex的錄音Demo，場景是GoogleAssistant代替用戶打電話去訂餐廳，和店員溝通，幫助用戶預(yù)定位子。值得注意，這并不是Livedemo。Google'sAssistant.CREDIT:GOOGLE那Google的智能助理（后稱IPA）又怎么知道用戶的具體需求呢？跑不掉的是，用戶還得給GoogleAssistant填一張表，用對話來交代自己的具體需求，比如下面這樣：圖中左邊是一個使用GoogleAssistant訂餐廳的真實案例，來自TheVerge。“當(dāng)前對話系統(tǒng)的局限"我剛剛花了兩千來個字來說明對話系統(tǒng)的通用思路。接下來，要指出這個做法的問題還記得之前提到的“不要日本菜"測試么？我們把這個測試套用在“訂"這個場景上，試試看：“看看明天去北京的航班，東航以外的都可以"，還是按步奏來：1.ASR語音轉(zhuǎn)文字，沒啥問題；2.語義識別，貌似有點問題-意圖：是訂，沒錯；-實體提?。焊暗挠?xùn)練來；-時間：明天-目的地：北京-出發(fā)地：這個用戶沒說，一會得問問他...等等，他說的這個“東航以外的都可以"，指的是啥？之前沒有訓(xùn)練過與航空公司相關(guān)的表達(dá)啊。沒關(guān)系，咱們可以把這個表達(dá)的訓(xùn)練加上去：東航=航司。多找些表達(dá)，只要用戶說了各個航空公司的名字的，都訓(xùn)練成航司這個實體好啦。另外，咱們還可以在填表的框里，添加一個航司選擇，就像這樣（黃色部分）：（嗯，好多做TOB的團(tuán)隊，都是掉在這個“在后面可以加上去"的坑里。）但是，這么理所當(dāng)然的訓(xùn)練之后，實體提取出來的航司卻是“東航"——而用戶說的是“東航以外的"，這又指的哪個（些）航司呢？“要不，咱們做點Trick把‘以外’這樣的邏輯單獨拿出來手工處理掉？"——如果這個問題可以這么容易處理掉，你覺得Siri等一干貨色還會是現(xiàn)在這個樣子？難度不在于“以外"提取不出來，而是在處理“這個以外，是指哪個實體以外？當(dāng)前基于深度學(xué)習(xí)的NLU在“實體提取"這個技術(shù)上，就只能提取“實體"。而人能夠理解，在這個情況下，用戶是指的“排除掉東航以外的其他選擇"，這是因為人除了做“實體提取"以外，還根據(jù)所處語境，做了一個對邏輯的識別：“xx以外"。然后，自動執(zhí)行了這個邏輯的處理，即推理，去進(jìn)一步理解，對方真正指的是什么（即指代）。而這個邏輯推理的過程，并不存在于之前設(shè)計好的步奏（從1到5）里。更麻煩的是，邏輯的出現(xiàn)，不僅僅影響“實體"，還影響“意圖"：“hiSiri，別推薦餐廳"——它還是會給你推薦餐廳；“hiSiri，除了推薦餐廳，你還能推薦什么？"——它還是會給你推薦餐廳。中文英文都是一樣的；Googleassistant也是一樣的。想要處理這個問題，不僅僅是要識別出“邏輯"；還要正確判斷出，這個邏輯是套用在哪個實體，或者是不是直接套用在某一個意圖上。這個判斷如何做？用什么做？都不在當(dāng)前SLU的范圍內(nèi)。對這些問題的處理，如果是集中在一些比較封閉的場景下，還可以解決個七七八八。但是，如果想要從根本上、泛化的處理，希望一次處理就解決所有場景的問題，到目前都無解。在這方面，Siri是這樣，GoogleAssistant也是這樣，任意一家，都是這樣。為啥說無解？我們來看看測試?！坝脠D靈測試來測對話系統(tǒng)沒用"一說到對人工智能進(jìn)行測試，大部分人的**反應(yīng)是圖靈測試。5月GoogleI/O大會的那段時間，我們團(tuán)隊正在服務(wù)一家企業(yè)，為他們規(guī)劃基于AIAgent的服務(wù)。在發(fā)布會的第二天，我收到這家客戶的TechOffice的好心提醒：Google這個像真人一樣的黑科技，會不會現(xiàn)有的技術(shù)方案？我的回答是并不會。話說GoogleDuplex在發(fā)布會上的demo確實讓人印象深刻，而且大部分看了Demo的人，都分辨不出打電話去做預(yù)定的是不是真人。“這個效果在某種意義上，算是通過了圖靈測試。"Google母公司的Chairman說googleduplex可以算過了圖靈測試了由于圖靈測試的本質(zhì)是“欺騙"(Agameofdeception，詳見TobyWalsh的論文)，所以很多人批評它，這只能用來測試人有多好騙，而不是用來測智能的。在這一點上，我們在后文Part4對話的本質(zhì)中會有更多解釋。人們被這個Demo騙到的主要原因，是因為合成的語音非常像真人。這確實是Duplex牛的地方：語音合成。不得不承認(rèn)，包括語氣、音調(diào)等等模擬人聲的效果，確實是讓人嘆為觀止。只是，單就在語音合成方面，就算是做到，在本質(zhì)上就是一只**——多可以騙騙Alexa（所以你看活體識別有多么重要）。只是，Google演示的這個對話系統(tǒng)，一樣處理不了邏輯推理、指代這類的問題。這意味著，就它算能過圖靈測試，也過不了WinogradSchemaChallenge測試。相比圖靈測試，這個測試是直擊深度學(xué)習(xí)的要害。當(dāng)人類對句子進(jìn)行語法分析時，會用真實世界的知識來理解指代的對象。這個測試的目標(biāo)，就是測試目前深度學(xué)習(xí)欠缺的常識推理能力。如果我們用WinogradSchemaChallenge的方法，來測試AI在“餐廳推薦"這個場景里的水平，題目會是類似這樣的：A.“四川火鍋比日料更好，因為它很辣"B.“四川火鍋比日料更好，因為它不辣"AI需要能準(zhǔn)確指出：在A句里，“它"指的是四川火鍋；而在B句里，“它"指的則是日料。還記得在本文Part1里提到的那個“不要日本菜測試"么？我真的不是在強(qiáng)調(diào)“回字有四種寫法"——這個測試的本質(zhì)，是測試對話系統(tǒng)能不能使用簡單邏輯來做推理（指代的是什么）。而在WinogradSchemaChallenge中，則是用世界知識（包括常識）來做推理：如果系統(tǒng)不知道相應(yīng)的常識（四川火鍋是辣的；日料是不辣的），就沒有推理的基礎(chǔ)。更不用說推理還需要被準(zhǔn)確地執(zhí)行。有人說，我們可以通過上下文處理來解決這個問題。不好意思，上面這個常識根本就沒有出現(xiàn)在整個對話當(dāng)中。不在“上文"里面，又如何處理？對于這個部分的詳細(xì)解釋，請看下一章（Part3對話的本質(zhì)）。盡管指代問題和邏輯問題，看上去，在應(yīng)用方面已經(jīng)足夠致命了；但這些也只是深度學(xué)習(xí)表現(xiàn)出來的諸多局限性中的一部分。哪怕更進(jìn)一步，再過一段時間，有一家AI在WinogradSchemaChallenge拿了的正確率，我們也不能期望它在自然語言處理中的表現(xiàn)如同人一樣，因為還有更嚴(yán)重和更本質(zhì)的問題在后面等著?！皩υ捪到y(tǒng)更大的挑戰(zhàn)不是NLU"我們來看問題表現(xiàn)在什么地方。現(xiàn)在我們知道了，當(dāng)人跟現(xiàn)在的AI對話的時候，AI能識別你說的話，是靠深度學(xué)習(xí)對你說出的自然語言進(jìn)行分類，歸于設(shè)定好的意圖，并找出來文本中有哪些實體。而AI什么時候回答你，什么時候反問你，基本都取決于背后的“對話管理"系統(tǒng)里面的各種表上還有啥必填項沒有填完。而問你的話，則是由產(chǎn)品經(jīng)理和代碼小哥一起手動完成的。那么，這張表是誰做的？或者說，是誰決定，對于“訂"這件事，要考慮哪些方面？要獲得哪些信息？需要問哪些問題？機(jī)器又是怎么知道的？是人。是產(chǎn)品經(jīng)理，準(zhǔn)確點說。就像剛才的“訂"的案例，當(dāng)用戶問到“航司"的時候，之前的表里并沒有設(shè)計這個概念，AI就無法處理了。要讓AI能處理這樣的新條件，得在“訂"這張表上，新增加“航空公司"一欄（黃色部分）。而這個過程，都得人為手動完成：產(chǎn)品經(jīng)理設(shè)計好后，工程師編程完成這張表的編程。所以AI并不是真的，通過案例學(xué)習(xí)就自動理解了“訂"這件事情，包含了哪些因素。只要這個表還是由人來設(shè)計和編程實現(xiàn)的，在產(chǎn)品層面，一旦用戶稍微談及到表以外的內(nèi)容，智障的情況就自然出現(xiàn)了。因此，當(dāng)Googleduplex出現(xiàn)的時候，我并不那么關(guān)心Googleduplex發(fā)音和停頓有多像一個人——實際上，當(dāng)我觀察任意一個對話系統(tǒng)的時候，我都只關(guān)心1個問題：“是誰設(shè)計的那張表：人，還是AI？"只是，深度學(xué)習(xí)在對話系統(tǒng)里面，能做的只是識別用戶講出的那句話那部分——嚴(yán)格依照被人為訓(xùn)練的那樣（監(jiān)督學(xué)習(xí)）。至于其他方面，比如該講什么話？該在什么時候講話？它都無能為力。但是真正人們在對話時的過程，卻不是上面提到的對話系統(tǒng)這么設(shè)計的，而且相差十萬八千里。人的對話，又是怎么開展的？這個差異究竟在哪里？為什么差異那么大？所謂深度學(xué)習(xí)很難搞定的地方，是人怎么搞定的呢？畢竟在這個星球上，我們自身就是70億個的自然語言處理系統(tǒng)呢。我們需要了解要解決的問題，才可能開展解決問題的工作。在對話領(lǐng)域，我們需要知道人們對話的本質(zhì)是什么。下一章比較燒腦，我們將討論“思維"這件事情，是如何主導(dǎo)人們的對話的。Part3人類對話的本質(zhì)：思維“對話的終目的是為了同步思維"你是一位30出頭的職場人士，每天上午9點半，都要過辦公樓的旋轉(zhuǎn)門，進(jìn)大堂的，然后刷工牌進(jìn)電梯，去到28樓，你的辦公室。今天是1月6日，平淡無奇的一天。你剛進(jìn)電梯，電梯里只有你一個人，正要關(guān)門的時候，有一個人匆忙擠進(jìn)來。進(jìn)來的快遞小哥，他進(jìn)電梯時看到只有你們兩人，就說了一聲“你好"，然后又低頭找樓層按鈕了。你很自然的回復(fù)：“你好"，然后目光轉(zhuǎn)向一邊。兩邊都沒什么話好講——實際上，是對話雙方認(rèn)為彼此沒有什么情況需要同步的。人們用語言來對話，其終的目的是為了讓雙方對當(dāng)前場景模型（Situationmodel）保持同步。（大家先了解到這個概念就夠了。更感興趣的，詳情請見Towardaneuralbasisofinteractivealignmentinconversation）。Theinteractive-alignmentmodel(basedonPickeringandGarrod,2004)上圖中，A和B兩人之間發(fā)展出來所有對話，都是為了讓紅框中的兩個“Situationmodel"保持同步。Situationmodel在這里可以簡單理解為對事件的各方面的理解，包括Context。不少做對話系統(tǒng)的朋友會認(rèn)為Context是僅指“對話中的上下文"，我想要指出的是，除此以外，Context還應(yīng)該包含了對話發(fā)生時人們所處的場景。這個場景模型涵蓋了對話那一刻，除了明文以外的所有已被感知的信息。比如對話發(fā)生時的天氣情況，只要被人感知到了，也會被放入Context中，并影響對話內(nèi)容的發(fā)展。A:“你對這個事情怎么看？"B:“這天看著要下雨了，咱們進(jìn)去說吧"——盡管本來對話內(nèi)容并沒有涉及到天氣。對同一件事情，不同的人在腦海里構(gòu)建的場景模型是不一樣的。(想要了解更多，可以看Situationmodelsinlanguagecomprehensionandmemory.Zwaan,R.A.,&Radvansky,G.A.(1998).)所以，如果匆忙進(jìn)電梯來的是你的項目老板，而且假設(shè)他和你（多半都是他啦）都很關(guān)注近的新項目進(jìn)展，那么你們要開展的對話就很多了。在電梯里，你跟他打招呼：“張總，早！"，他會回你“早啊，對了昨天那個…"不待他問完，優(yōu)秀如你就能猜到“張總"大概后面要聊的內(nèi)容是關(guān)于新項目的，這是因為你認(rèn)為張總對這個“新項目"的理解和你不同，有同步的必要。甚至，你可以通過昨天他不在辦公室，大概漏掉了這個項目的哪些部分，來推理你這個時候應(yīng)該回復(fù)他關(guān)于這個項目的具體什么方面的問題?！白蛱炷悴辉?，別擔(dān)心，客戶那邊都處理好了。打款的事情也溝通好了，30天之內(nèi)搞定。"——你看，不待張總問完，你都能很棒的回答上。這多虧了你對他的模型的判斷是正確的。一旦你對對方的情景模型判斷失誤，那么可能“沒打中點上"?！拔抑溃蛱焱砩衔一亓颂斯?，小李跟我說過了。我是要說昨天晚上我回來辦公室的時候，你怎么沒有在加班呀？小王，你這樣下去可不行啊…"所以，人們在進(jìn)行對話的過程中，并不是僅靠對方上一句話說了什么（對話中明文所包含的信息）就來決定回復(fù)什么。而這和當(dāng)前的對話系統(tǒng)的回復(fù)機(jī)制非常不同。“對話是思想從高維度向低維的投影"我們假設(shè)，在另一個平行宇宙里，還是你到了辦公樓。今天還是1月6日，但2年前的今天，你與交往了5年的女友分手了，之后一直對她念念不忘，也沒有交往新人。你和往日一樣，進(jìn)電梯的，剛要關(guān)門的時候，匆忙進(jìn)來的一個人，要關(guān)的門又打開了。就是你2年前分手的那位前女友。她進(jìn)門時看到只有你們兩，她抬頭看了一下你，然后又低頭找樓層電梯了，這時她說：“你好"。請問你這時腦袋里是不是有很多信息洶涌而過？這時該回答什么？是不是類似“一時不知道該如何開口"的感覺？這個感覺來自（你認(rèn)為）你和她之間的情景模型有太多的不同（分手2年了），甚至你都無法判斷缺少哪些信息。有太多的信息想要同步了，卻被貧瘠的語言困住了。在信息豐富的程度上，語言是貧瘠的，而思想則要豐富很多“Languageissketchy,thoughtisrich"(Newperspectivesonlanguageandthought，LilaGleitman,TheOxfordHandbookofThinkingandReasoning；更多相關(guān)討論請看,Fisher&Gleitman,2002;Papafragou,2007)有人做了一個比喻：語言和思維的豐富程度相比，是冰山的一角。我認(rèn)為遠(yuǎn)遠(yuǎn)不止如此：對話是思想在低維的投影。如果是冰山，你還可以從水面上露出來的部分反推水下大概還有多大。屬于維度相同，但是量不同。但是語言的問題在，只用聽到文字信息，來反推講話的人的思想，失真的情況會非常嚴(yán)重。為了方便理解這個維度差異，在這兒用3D和2D來舉例：思維是高維度（立體3D的形狀），對話是低維度（2D的平面上的陰影）。如果咱們要從平面上的陰影的形狀，來反推，上面懸著的是什么物體，就很困難了。兩個陰影的形狀一模一樣，但是上面的3D物體，可能不同。對于語言而言，陰影就像是兩個“你好"在字面上是一模一樣的，但是思想里的內(nèi)容卻不同。在見面的那一瞬間，這個差異是非常大的：你在想（圓柱）：一年多不見了，她還好么？前女友在想（球）：這個人好眼熟，好像認(rèn)識…“挑戰(zhàn)：用低維表達(dá)高維"要用語言來描述思維有多困難？這就好比，當(dāng)你試圖給另一位不在現(xiàn)場的朋友，解釋一件剛剛發(fā)生過的事情的時候，你可以做到哪種程度的還原呢？試試用語言來描述你今天的早晨是怎么過的。當(dāng)你用文字完整描述后，我一定能找到一個事物或者某個具體的細(xì)節(jié)，它在你文字描述以外，但是卻確實存在在你今天早晨那個時空里。Source:TheChallenger比如，你可能會跟朋友提到，早飯吃了一碗面；但你一定不會具體去描述面里一共有哪些調(diào)料。傳遞信息時，缺少了這些細(xì)節(jié)(信息)，會讓聽眾聽到那碗面時，在腦海里呈現(xiàn)的一定不是你早上吃的“那碗面"的樣子。這就好比讓你用平面上（2D）陰影的樣子，來反推3D的形狀。你能做的，只是盡可能的增加描述的視角，盡可能給聽眾提供不同的2D的素材，來盡量還原3D的效果。為了解釋腦中“語言"和“思想"之間的關(guān)系（與讀者的情景模型進(jìn)行同步），我畫了上面那張對比圖，來幫助傳遞信息。如果要直接用文字來描述，還要盡量保全信息不丟失，那么我不得不用多得多的文字來描述細(xì)節(jié)。（比如上面的描述中，尚未提及陰影的面積的具體大小、顏色等等細(xì)節(jié)）。這還只是對客觀事物的描述。當(dāng)人在試圖描述更情緒化的主觀感受時，則更難用具體的文字來表達(dá)。比如，當(dāng)你看到AngelinaJordan這樣的小女生，卻能唱出Iputaspellonyou這樣的歌的時候，請嘗試用語言描述你的主觀感受。是不是很難？能講出來話，都是類似“鵝嚶"這類的？這些文字能代表你腦中的感受的多少部分？1%？希望此時，你能更理解所謂“語言是貧瘠的，而思維則要豐富很多"。那么，既然語言在傳遞信息時丟失了那么多信息，人們?yōu)槭裁蠢斫馄饋?，好像沒有遇到太大的問題？“為什么人們的對話是輕松的？"假設(shè)有一種方式，可以把此刻你腦中的感受，以不失真的效果傳遞給另一個人。這種信息的傳遞和上面用文字進(jìn)行描述相比，豐富程度會有多大差異？可惜，我們沒有這種工具。我們主要的交流工具，就是語言，靠著對話，來試圖讓對方了解自己的處境。那么，既然語言這么不，又充滿邏輯上的漏洞，信息量又不夠，那么人怎么能理解，還以此為基礎(chǔ)，建立起來了整個文明？比如，在一個餐廳里，當(dāng)服務(wù)員說“火腿三明治要買單了"，我們都能知道這和“20號桌要買單了"指代的是同樣的事情(Nuberg,1978)。是什么讓字面上那么大差異的表達(dá)，也能有效傳遞信息？人能通過對話，有效理解語言，靠的是解讀能力——更具體的點，靠的是對話雙方的共識和基于共識的推理能力。當(dāng)人接收到低維的語言之后，會結(jié)合引用常識、自身的世界模型（后詳），來重新構(gòu)建一個思維中的模型，對應(yīng)這個語言所代表的含義。這并不是什么新觀點，大家熟悉的開復(fù)老師，在1991年在蘋果搞語音識別的時候，就在采訪里科普，“人類利用常識來幫助理解語音"。當(dāng)對話的雙方認(rèn)為對一件事情的理解是一樣的，或者非常接近的時候，他們就不用再講。需要溝通的，是那些（彼此認(rèn)為）不一樣的部分。當(dāng)你聽到“蘋果"兩個字的時候，你過去建立過的蘋果這個模型的各個維度，就被引用出來，包括可能是綠或紅色的、味道的甜、大概拳頭大小等等。如果你聽到對方說“藍(lán)色的蘋果"時，這和你過去建立的關(guān)于蘋果的模型不同（顏色）。思維就會產(chǎn)生一個提醒，促使你想要去同步或者更新這個模型，“蘋果為什么是藍(lán)色的？"還記得，在Part2里我們提到的那個測試指代關(guān)系的WinogradSchemaChallenge么？這個測試的名字是根據(jù)TerryWinograd的一個例子而來的?！白h員們拒絕給者頒發(fā)許可證，因為他們[害怕/提倡]暴力。"當(dāng)[害怕]出現(xiàn)在句子當(dāng)中的時候，“他們"指的應(yīng)該是議員們；當(dāng)[提倡]出現(xiàn)在句子當(dāng)中的時候，“他們"則指的是“者"。1.人們能夠根據(jù)具體情況，作出判斷，是因為根據(jù)常識做出了推理，“議員害怕暴力；者提倡暴力。"2.說這句話的人，認(rèn)為這個常識對于聽眾應(yīng)該是共識，就直接把它省略掉了。同理，之前（Part2）我們舉例時提到的那個常識（“四川火鍋是辣的；日料不是辣的"），也在表達(dá)中被省略掉了。常識（往往也是大多數(shù)人的共識）的總量是不計其數(shù)，而且總體上還會隨著人類社會發(fā)展的演進(jìn)而不斷新增。例子1，如果你的世界模型里已經(jīng)包含了“華農(nóng)兄弟"（你看過并了解他們的故事），你會發(fā)現(xiàn)我在Part2開始的例子，藏了一個梗（做成叫花雞）。但因為“華農(nóng)兄弟"并不是大多數(shù)人都知道的常識，而是我與特定人群的共識，所以你看到這句話時，獲得的信息就比其人多。而不了解這個梗的人，看到那里時就不會接收到這個額外的信息，反而會覺得這個表達(dá)好像有點點奇怪。例子2，創(chuàng)投圈的朋友應(yīng)該都有聽說過Elevatorpitch，就是30秒，把你要做什么事情講清楚。通常的案例諸如：“我們是餐飲界的Uber"，或者說“我們是辦公室版的Airbnb"。這個典型結(jié)構(gòu)是“XX版的YY"，要讓這句話起到效果，前提條件是XX和YY兩個概念在發(fā)生對話之前，已經(jīng)納入到聽眾的模型里面去了。如果我給別人說，我是“對話智能行業(yè)的麥肯錫"，要能讓對方理解，對方就得既了解對話智能是什么，又了解麥肯錫是什么。“基于世界模型的推理"場景模型是基于某一次對話的，對話不同，場景模型也不同；而世界模型則是基于一個人的，相對而言長期不變。對世界的感知，包括聲音、視覺、嗅覺、觸覺等感官反饋，有助于人們對世界建立起一個物理上的認(rèn)識。對常識的理解，包括各種現(xiàn)象和規(guī)律的感知，在幫助人們生成一個更完整的模型：世界模型。無論、或者對錯，每一個人的世界模型都不一樣，有可能是觀察到的信息不同，也有可能是推理能力不一樣。世界模型影響的是人的思維本身，繼而影響思維在低維的投影：對話。讓我們從一個例子開始：假設(shè)現(xiàn)在咱們一起來做一個不那么智障的助理。我們希望這個助理能夠推薦餐廳酒吧什么的，來應(yīng)付下面這樣的需求：當(dāng)用戶說：“我想喝點東西"的時候，系統(tǒng)該怎么回答這句話？經(jīng)過Part2，我相信大家都了解，我們可以把它訓(xùn)練成為一個意圖“找喝東西的店"，然后把周圍的店檢索出來，然后回復(fù)這句話給他：“在你附近找到這些選擇"。恭喜，咱們已經(jīng)達(dá)到Siri的水平啦！但是，剛剛我們開頭就說了，要做不那么智障的助理。這個“喝東西的店"是奶茶點還是咖啡店？還是全部都給他？嗯，這就涉及到了推理。我們來手動模擬一個。假設(shè)我們有用戶的Profile數(shù)據(jù)，把這個用上：如果他的偏好中愛的飲品是咖啡，就給他推薦咖啡店。這樣一來，我們就可以更“個性化"的給他回復(fù)了：“在你附近找到這些咖啡店"。這個時候，咱們的AI已經(jīng)達(dá)到了不少“智能系統(tǒng)"喜歡鼓吹的個性化概念——“千人千面"啦！然后我們來看這個概念有多蠢。一個人喜歡喝咖啡，那么他一輩子的任意時候就都要喝咖啡么？人是怎么處理這個問題的呢？如果用戶是在下午1點這么問，這么回他還好；如果是在晚上11點呢？我們還要給他推薦咖啡店么？還是應(yīng)該給他推薦一個酒吧？或者，除此之外，如果今天是他的生日，那么我們是不是該給他點不同的東西？或者，今天是圣誕節(jié)，該不該給他推薦熱巧克力？你看，時間是一個維度，在這個維度上的不同值都在影響給用戶回復(fù)什么不同的話。時間和用戶的Profile不同的是：1.時間這個維度上的值有無限多；2.每個刻度還都不一樣。比如雖然生日是同一個日期，但是過生日的次數(shù)卻不重復(fù)；除了時間這個維度以外，還有空間。于是我們把空間這個維度疊加（到時間）上去。你會發(fā)現(xiàn)，如果用戶在周末的家里問這個問題（可能想叫奶茶外賣到家？），和他在上班時間的辦公室里問這個問題（可能想出去走走換換思路），咱們給他的回復(fù)也應(yīng)該不同。光是時空這兩個維度，就有無窮多的組合，用"ifthen"的邏輯也沒法全部手動寫完。我們造機(jī)器人的工具，到這個需求，就開始捉襟見肘了。何況時間和空間，只是世界模型當(dāng)中顯而易見的兩個維度。還有更多的，更抽象的維度存在，并且直接影響與用戶的對話。比如，人物之間的關(guān)系；人物的經(jīng)歷；天氣的變化；人和地理位置的關(guān)系（是經(jīng)常來出差、是當(dāng)?shù)赝林?、?*次來旅游）等等等等。咱們聊到這里，感覺還在聊對話系統(tǒng)么？是不是感覺有點像在聊推薦系統(tǒng)？要想效果更好，這些維度的因素都要疊加在一起進(jìn)行因果推理，然后把結(jié)果給用戶。至此，影響人們對話的，光是信息（還不含推理）至少就有這三部分：明文（含上下文）場景模型（Context）世界模型。普通人都能毫不費(fèi)力地完成這個工作。但是深度學(xué)習(xí)只能處理基于明文的信息。對于場景模型和世界模型的感知、生成、基于模型的推理，深度學(xué)習(xí)統(tǒng)統(tǒng)無能為力。這就是為什么現(xiàn)在炙手可熱的深度學(xué)習(xí)無法實現(xiàn)真正的智能（AGI）的本質(zhì)原因：不能進(jìn)行因果推理。根據(jù)世界模型進(jìn)行推理的效果，不僅僅體現(xiàn)上在對話上，還能應(yīng)用在所有現(xiàn)在成為AI的項目上，比如自動駕駛。經(jīng)過大量訓(xùn)練的自動駕駛汽車，在遇到偶發(fā)狀況時，就沒有足夠的訓(xùn)練素材了。比如，突然出現(xiàn)在路上的嬰兒車和突然滾到路上的垃圾桶，都會被視為障礙物，但是剎不住車的情況下，一定要撞一個的時候，撞哪一個？又比如，對侯世達(dá)(DouglasHofstardler)而言，“駕駛"意味著當(dāng)要趕著去一個地方的時候，要選擇超速還是不超速；要從堵車的高速下來，還是在高速上慢慢跟著車流走...這些決策都是駕駛的一部分。他說：“世界上各方面的事情都在影響著“駕駛"這件事的本質(zhì)"?！叭四X有兩套系統(tǒng)：系統(tǒng)1和系統(tǒng)2"關(guān)于“系統(tǒng)1和系統(tǒng)2"的詳情，請閱讀Thinking,FastandSlow,byDanielKahneman，一本非常好的書，對人的認(rèn)知工作是如何展開的進(jìn)行了深入的分析。在這兒，我給還不了解的朋友介紹一下，以**本文前后的觀點。心理學(xué)家認(rèn)為，人思考和認(rèn)知工作分成了兩個系統(tǒng)來處理：系統(tǒng)1是快思考：無意識、快速、不怎么費(fèi)腦力、無需推理系統(tǒng)2是慢思考：需要調(diào)動注意力、過程更慢、費(fèi)腦力、需要推理系統(tǒng)1先上，遇到搞不定的事情，系統(tǒng)2會出面解決。系統(tǒng)1做的事情包括:判斷兩個物體的遠(yuǎn)近、追溯聲音的來源、完形填空("我愛北京天安")等等。順帶一提，下象棋的時候，一眼看出這是一步好棋，這個行為也是系統(tǒng)1實現(xiàn)的——前提是你是一位優(yōu)秀的玩家。對于中國學(xué)生而言，你突然問他：“7乘以7"，他會不假思索的說：“49！"這是系統(tǒng)1在工作，因為我們在小學(xué)都會背99乘法表。這個49并非來自計算結(jié)果，而是背下來的（反復(fù)重復(fù)）。相應(yīng)的，如果你問：“3287x2234等于多少？"，這個時候人就需要調(diào)用世界模型中的乘法規(guī)則，加以應(yīng)用（計算）。這就是系統(tǒng)2的工作。另外，在系統(tǒng)1所設(shè)定的世界里，貓不會像狗一樣汪汪叫。若事物違反了系統(tǒng)1所設(shè)定的世界模型，系統(tǒng)2也會被激活。在語言方面，YoshuaBengio認(rèn)為系統(tǒng)1不做與語言有關(guān)的工作；系統(tǒng)2才負(fù)責(zé)語言工作。對于深度學(xué)習(xí)而言，它更適合去完成系統(tǒng)1的工作，實際上它根本沒有系統(tǒng)2的功能。關(guān)于這兩個系統(tǒng)，值得一提的是，人是可以通過訓(xùn)練，把部分系統(tǒng)2才能做的事情，變成系統(tǒng)1來完成的。比如中國學(xué)生得經(jīng)過“痛苦的記憶過程"才能熟練掌握99乘法表，而不是隨著出生到長大的自然經(jīng)驗，慢慢學(xué)會的。但是這里有2個有意思的特征：1.變成系統(tǒng)1來處理問題的時候，可以節(jié)約能量。人們偏向相信自己的經(jīng)驗，是因為腦力對能量的消耗很大，這是一個節(jié)能的做法。2.變成系統(tǒng)1的時候，會犧牲辯證能力，因為系統(tǒng)1對于邏輯相關(guān)的問題一無所知?！拔易鲞@個事情已經(jīng)幾十年了"這種經(jīng)驗主義思維就是典型案例。想想自己長期積累的案例是如何在影響自己做判斷的？“單靠深度學(xué)習(xí)搞不定語言，現(xiàn)在不行，將來也不行"在人工智能行業(yè)里，你經(jīng)常會聽到有人這么說“盡管當(dāng)前技術(shù)還實現(xiàn)不了理想中的人工智能，但是技術(shù)是會不斷演進(jìn)的，隨著數(shù)據(jù)積累的越來越多，終將會實現(xiàn)讓人滿意的人工智能。"如果這個說法，是指寄希望于僅靠深度學(xué)習(xí)，不斷積累數(shù)據(jù)量，就能翻盤——那就大錯特錯了。無論你怎么優(yōu)化“馬車"的核心技術(shù)（比如更壯、更多的馬），都無法以此造出汽車(下圖右)。對于大眾而言，技術(shù)的可演進(jìn)性，是以宏觀的視角看人類和技術(shù)的關(guān)系。但是發(fā)動機(jī)的演化和馬車的關(guān)鍵技術(shù)沒有半點關(guān)系。深度學(xué)習(xí)領(lǐng)域的3大牛，都認(rèn)為單靠深度學(xué)習(xí)這條路（不能終通向AGI）。感興趣的朋友可以沿著這個方向去研究:GeoffreyHinton的懷疑：“我的觀點是都扔掉重來吧"YoshuaBengio的觀點：“如果你對于這個每天都在接觸的世界，有一個好的因果模型，你甚至可以對不熟悉的情況進(jìn)行抽象。這很關(guān)鍵......機(jī)器不能，因為機(jī)器沒有這些因果模型。我們可以手工制作這些模型，但是這遠(yuǎn)不足夠。我們需要能發(fā)現(xiàn)因果模型的機(jī)器。"YannLeCun的觀點：“Alearningpredictiveworldmodeliswhatwe’remissingtoday,andinmyopinionisthebiggestobstacletosignificantprogressinAI."至于深度學(xué)習(xí)在將來真正的智能上扮演的角色，在這兒我引用GaryMarcus的說法：“Idon’tthinkthatdeeplearningwon’tplayaroleinnaturalunderstanding,onlythatdeeplearningcan’tsucceedonitsown."“解釋人工智障產(chǎn)品"現(xiàn)在，我們了解了人們對話的本質(zhì)是思維的交換，而遠(yuǎn)不只是明文上的識別和基于識別的回復(fù)。而當(dāng)前的人工智能產(chǎn)品則無法實現(xiàn)這個效果。那么當(dāng)用戶帶著人類的世界模型和推理能力來跟機(jī)器，用自然語言交互時，就很容易看到破綻。Sophia是一個技術(shù)上的**（凡是鼓吹Sophia是真AI的，要么是不懂，要么是忽悠）；現(xiàn)在的AI，都不會有真正的智能（推理能力什么的不存在的，包括Alphago在內(nèi)）；只要是深度學(xué)習(xí)還是主流，就不用擔(dān)心AI統(tǒng)治人類；對話產(chǎn)品感覺用起來智障，都是因為想跳過思維，直接模擬對話（而現(xiàn)在也只能這樣）；“用的越多，數(shù)據(jù)越多，智能會越強(qiáng)，產(chǎn)品就會越好，使用就會越多"——對于任務(wù)類對話產(chǎn)品，這是一個看上去很酷，實際上不靠譜的觀點；一個AIagent，能對話多少輪，毫無意義；toC的助理產(chǎn)品做不好，是因為解決不了“如何獲得用戶的世界模型數(shù)據(jù)，并加以利用"這個問題；toB的對話智能公司為何很難規(guī)模化？（因為場景模型是手動生成的）先有智能，后有語言：要做到真正意義上的自然語言對話，至少要實現(xiàn)基于常識和世界模型的推理能力。而這一點如果能實現(xiàn)，那么我們作為人類，就可能真的需要開始擔(dān)心前文提到的智能了。不要用NLP評價一個對話智能產(chǎn)品：年底了，有些媒體開始出各種AI公司榜單，其中有不少把做對話的公司分在NLP下面。這就好比，不要用觸摸屏來衡量一款智能手機(jī)。在這兒我不是說觸摸屏或者NLP不重要(Essential)，反而因為太重要了，這個環(huán)節(jié)成為了每一家的標(biāo)配，以至于在這方面基本已經(jīng)做到頭了，差異不過1%。對于一個對話類產(chǎn)品而言，NLU盡管重要，但只應(yīng)占個整體配件的5-10%左右。更進(jìn)一步來說，甚至意圖識別和實體提取的部分用大廠的，產(chǎn)品間差異也遠(yuǎn)小于對話管理部分的差距。真正決定產(chǎn)品的是剩下的90%的系統(tǒng)。到此，是不是有一種絕望的感覺？這些學(xué)界和行業(yè)的大牛都沒有解決方案，或者說連有把握的思路都沒有。是不是做對話智能這類的產(chǎn)品就沒戲了？上限就是這樣了么？不是。對于一項技術(shù)而言，可能確實觸底了；但是對于應(yīng)用和產(chǎn)品設(shè)計而言，并不是由一個技術(shù)決定的，而是很多技術(shù)的結(jié)合，這里還有很大的空間。作為產(chǎn)品經(jīng)理，讓我來換一個角度。我們來研究一下，既然手中的工具是這些，我們能用他們來做點什么？Part4AI產(chǎn)品的潛力在于設(shè)計“AI的歸AI，產(chǎn)品的歸產(chǎn)品"《ThePrestige》2006，劇照有一部我很喜歡的電影，ThePrestige，里面講了一個關(guān)于“瞬間移動"的魔術(shù)。對于觀眾而言，就是從一個地方消失，然后瞬間又從另一個地方出現(xiàn)。**個魔術(shù)師，成功的在舞臺上實現(xiàn)了這個效果。他打開舞臺上的右邊的門，剛一進(jìn)去的一瞬間，就從舞臺左邊的門出來了。對觀眾而言，這符合他們的期望。第二個魔術(shù)師在觀眾席里，看到效果后驚呆了，他感覺這根本毫無破綻。但是他是魔術(shù)師——作為一個產(chǎn)品經(jīng)理——他就想研究這個產(chǎn)品是怎么實現(xiàn)的。但是魔術(shù)行業(yè)里，不受人待見的，就是魔術(shù)揭秘。影片后，他得到了答案（劇透預(yù)警）：所有的工程機(jī)關(guān)、升降機(jī)、等等，都如他所料的藏在了舞臺下面。但真正的核心是，**個魔術(shù)師一直隱藏著自己的另一個雙胞胎兄弟。當(dāng)他打開一個門，從洞口跳下舞臺的那一刻，雙胞胎的另一位就馬上從另一邊升上舞臺?？吹竭@里，大家可能就恍然大悟：“原來是這樣，雙胞胎?。?這感覺是不是有點似曾相識？在本文Part2，我們聊到把對話系統(tǒng)的黑箱打開，里面就是填一張表的時候，是不是有類似的感覺？對話式人工智能的產(chǎn)品（對話系統(tǒng)）就像魔術(shù)，是一個黑箱，用戶是以感知來判斷價值的?！拔疫€以為有什么黑科技呢，我是雙胞胎我也可以啊。"其實這并不容易。我們先不說魔術(shù)的舞臺里面的工程設(shè)計，這個魔術(shù)難的地方是如何能在魔術(shù)師的生活中，讓另一個雙胞胎在大眾視野里消失掉。如果觀眾們都知道魔術(shù)師是雙胞胎，就很可能猜到舞臺上的魔術(shù)是兩個人一起表演的。所以這個雙胞胎，一定不能出現(xiàn)在大眾的“世界模型"里。為了讓雙胞胎的另一個消失在大眾視野里，這兩兄弟付出了很多代價，身心磨，絕非一般人能接受的，比如共享同一個老婆。這也是我的建議：技術(shù)不夠的時候，設(shè)計來補(bǔ)。做AI產(chǎn)品的同學(xué)，不要期待給你智能。要是真的有智能了，還需要你干什么？人工智能產(chǎn)品經(jīng)理需要設(shè)計一套龐大的系統(tǒng)，其中包括了填表、也當(dāng)然包括深度學(xué)習(xí)帶來的意圖識別和實體提取等等標(biāo)準(zhǔn)做法、也包括了各種可能的對話管理、上下文的處理、邏輯指代等等。這些部分，都是產(chǎn)品設(shè)計和工程力量發(fā)揮的空間?！霸O(shè)計思路的基礎(chǔ)"我需要強(qiáng)調(diào)一下，在這里，咱們講的是AI產(chǎn)品思路，不是AI的實現(xiàn)思路。對于對話類產(chǎn)品的設(shè)計，以現(xiàn)在深度學(xué)習(xí)的基礎(chǔ)，語義理解應(yīng)該只占整個產(chǎn)品的5%-10%；而其他的，都是想盡一切辦法來模擬“傳送"這個效果——畢竟我們都知道，這是個魔術(shù)。如果只是識別就占了你家產(chǎn)品的大量心血，其他的不去拉開差異，基本出來就是智障無疑。在產(chǎn)品研發(fā)方面上，如果研發(fā)團(tuán)隊能提供多種技術(shù)混用的工具，肯定會增加開發(fā)團(tuán)隊和設(shè)計的發(fā)揮空間。這個做法也就是DL(DeepLearning)GOFAI(GoodOldFashionedAI)的結(jié)合。GOFAI是JohnHaugeland首先提出的，也就是深度學(xué)習(xí)火起來之前的symbolicAI，也就是專家系統(tǒng)，也就是大多數(shù)在AI領(lǐng)域的人都看不起的“ifthen…"DLGOFAI這個前提，是當(dāng)前一切后續(xù)產(chǎn)品設(shè)計思路的基礎(chǔ)?！癉esignPrinciple：存在即為被感知"“存在即為被感知"是18世紀(jì)的哲學(xué)家GeorgeBerkeley的名言。加州大學(xué)伯克利分校的命名來源也是為了紀(jì)念這位唯心主義大師。這個意思呢，就是如果你不能被感知到，你就是不存在的！我認(rèn)為“存在即為被感知"是對話類AI產(chǎn)品的Designprinciple。對話產(chǎn)品背后的智能，是被用戶感知到而存在的。直到有一天AI可以代替產(chǎn)品經(jīng)理，在那之前，所有的設(shè)計都應(yīng)該圍繞著，如何可以讓用戶感覺和自己對話的AI是有價值的，然后才是聰明的。要非常明確自己的目的，設(shè)計的是AI的產(chǎn)品，而不是AGI本身。就像魔術(shù)的設(shè)計者，給你有限的基礎(chǔ)技術(shù)條件，你能組裝出一個產(chǎn)品，體驗是人們難以想到。同時，也要深刻的認(rèn)識到產(chǎn)品的局限性。魔術(shù)就是魔術(shù)，并不是現(xiàn)實。這意味著，在舞臺上的魔術(shù)，如果改變一些重要的條件，它就不成立了。比如，如果讓觀眾跑到舞臺的頂上，從上往下看這個魔術(shù)，就會發(fā)現(xiàn)舞臺上有洞?；蛘摺八查g移動"的不是這對雙胞胎中的一個，而是一個觀眾跑上去說，“讓我來瞬間移動試試"，就穿幫了。NarrowAI的產(chǎn)品，也是一樣的。如果你設(shè)計好了一個Domain，無論其中體驗如何，只要用戶跑到Domain的邊界以外了，就崩潰了。先設(shè)定好產(chǎn)品邊界，設(shè)計好“越界時給用戶的反饋"，然后在領(lǐng)域里面，盡可能的模擬這個魔術(shù)的效果。假設(shè)Domain的邊界已經(jīng)設(shè)定清晰了，哪些方面可以通過設(shè)計和工程的力量，來大幅增加效果呢？其實，在“Part3對話的本質(zhì)"里談到的與思維相關(guān)的部分，在限定Domain的前提下，都可以作為設(shè)計的出發(fā)點：你可以用GOFAI來模擬世界模型、也可以模擬場景模型、你可以Fake邏輯推理、可以Fake上下文指代——只要他們都限定在Domain里?！斑x擇合適的Domain"成本（工程和設(shè)計的量）和給用戶的價值并不是永遠(yuǎn)成正比，也根據(jù)不同的Domain的不同。比如，我認(rèn)為現(xiàn)在所有的**機(jī)器人都沒有什么價值。開放Domain，沒有目標(biāo)、沒有限定和邊界，對用戶而言，會認(rèn)為什么都可以聊。但是其自身“場景模型"一片空白，對用戶所知的常識也一無所知。導(dǎo)致用戶稍微試一下，就碰壁了。我把這種用戶體驗稱為“每次嘗試都容易遇到挫折"。可能，有些Domain對回復(fù)的內(nèi)容并不那么看重。也就并不需要那么強(qiáng)壯的場景模型和推理機(jī)制來生成回復(fù)內(nèi)容。我們假設(shè)做一個“樹洞機(jī)器人"，可以把產(chǎn)品定義是為，扮演一個好的聽眾，讓用戶把心中的壓力煩惱傾訴出來。:BradleyUniversityOnline這個產(chǎn)品的邊界，需要非常明確的，在用戶剛剛接觸到的時候，強(qiáng)化到用戶的場景模型中。主要是系統(tǒng)通過一些語言的反饋，鼓勵用戶繼續(xù)說。而不要鼓勵用戶來期望對話系統(tǒng)能輸出很多正確且有價值的話。當(dāng)用戶做出一些陳述之后，可以跟上一些對“場景模型"依賴較小，泛泛的話?！拔覐膩頉]有這么考慮過這個問題，你為什么會這么想呢？"“關(guān)于這個人，你還有哪些了解？"“你覺得他為什么會這樣？"……這樣一來，產(chǎn)品在需求上，就大幅減輕了對“自然語言生成"的依賴。因為這個產(chǎn)品的價值，不在回復(fù)的具體內(nèi)容是否，是否有價值上。這就同時降低了對話背后的“場景模型"、“世界模型"、以及“常識推理"這些高維度模塊的需求。訓(xùn)練的素材嘛，也就是某個特定分支領(lǐng)域（比如職場、家庭等）的心理咨詢師的對話案例。產(chǎn)品定義上，這得是一個Companion型的產(chǎn)品，不能真正起到理療的作用。當(dāng)然，以上并不是真正的產(chǎn)品設(shè)計，僅僅是用一個例子來說明，不同的Domain對背后的語言交互的能力要求不同，進(jìn)而對更后面的“思維能力"要求不同。選擇產(chǎn)品的Domain時，盡量遠(yuǎn)離那些嚴(yán)重依賴世界模型和常識推理，才能進(jìn)行對話的場景。有人可能說，你這不就是Sophia的做法么？不是。這里需要強(qiáng)調(diào)的是Sophia的核心問題是欺騙。產(chǎn)品是想忽悠大眾，他們真的做出了智能。在這里，我提倡的是明確告訴用戶，這就是對話系統(tǒng)，而不是真的造出了智能。這也是為什么，在我自己的產(chǎn)品設(shè)計中，如果遇到真人和AI同時為用戶服務(wù)的時候（產(chǎn)品上稱為HybridModel），我們總是會偏向明確讓用戶知道，什么時候是真人在服務(wù)，什么時候是機(jī)器人在服務(wù)。這么做的好處是，控制用戶的預(yù)期，以避免用戶跑到設(shè)計的Domain以外去了；不好的地方是，你可能“聽上去"沒有那么酷。所以，當(dāng)我說“存在即為被感知"的時候，強(qiáng)調(diào)的是對價值的感知；而不是對“像人一樣"的感知?！皩υ捴悄艿暮诵膬r值：在內(nèi)容，不在交互"多年前，還在英國讀書的時候，我曾經(jīng)在一個非常有名歷史悠久的秘密結(jié)社里工作。我對當(dāng)時的那位照顧會員需求的大管家印象深刻。你可以想象她好像是“美國運(yùn)通黑卡服務(wù)"的超級禮賓，她有兩個超能力：1.Resourceful，會員的奇葩需求都能想盡辦法的實現(xiàn)：一個身在法蘭克福的會員半夜里遇到急事，臨時想盡快回倫敦，半夜沒有航班了，打電話找到大管家求助。后大管家找到另一個會員的朋友借了私人飛機(jī)，送他一程，凌晨回到了倫敦。2.Mind-reading，會員想要什么，無需多言：“Oliver，我想喝點東西…"“當(dāng)然沒問題，我待會給你送過來。"她也不需要問喝什么，或者送到哪里。人人都想要一個這樣的管家。**俠需要Alfred；鋼鐵俠需要Javis；西奧多需要Her（盡管這哥們后來走偏了）；iPhone需要Siri；這又回到了我們在Part1里提到的，AI的toC產(chǎn)品是智能助理。但是，人們需要這個助理的根本原因，是因為人們需要它的對話能力么？這個世界上已經(jīng)有70億個自然語言對話系統(tǒng)了（就是人），為什么我們還需要制造更多的對話系統(tǒng)？我們需要的是對話系統(tǒng)后面的思考能力，解決問題的能力。而對話，只是這個思考能力的交互方式（ConversationalUserInterface）。如果真能足夠聰明的把問題提前解決了，用戶甚至連話都不想說。我們來看個例子。我知道很多產(chǎn)品經(jīng)理已經(jīng)把這個iPhone初代發(fā)布的東西講爛了。但是，在這兒確實是一個非常好的例子：我們來探討一下iPhone用虛擬鍵盤代替實體鍵盤的原因。普通用戶，從直觀的視角，能得出結(jié)論：這樣屏幕更大！需要鍵盤的時候就出現(xiàn)，不需要的時候就消失。而且還把看上去挺復(fù)雜的產(chǎn)品設(shè)計給簡化了，更好看了。甚至很多產(chǎn)品經(jīng)理也是這么想的。實際上，這根本不是硬件設(shè)計的問題。原因見下圖。其實喬布斯在當(dāng)時也講的很清楚：物理鍵盤的核心問題是，（作為交互UI）你不能改變它。物理交互方式（鍵盤）不會根據(jù)不同的軟件發(fā)生改變。如果要在手機(jī)上加載各種各樣的內(nèi)容，如果要創(chuàng)造各種各樣的軟件生態(tài)，這些不同的軟件都會有自己不同的UI，但是交互方式都得依賴同一種（物理鍵盤無法改變），這就行不通了。所以，實際代替這些物理鍵盤的，不是虛擬鍵盤，而是整個觸摸屏。因為iPhone（當(dāng)時的）將來會搭載豐富的生態(tài)軟件內(nèi)容，就必須要有能與這些還沒出現(xiàn)的想法兼容的交互方式。在我看來，上述一切都是為了豐富的內(nèi)容服務(wù)。再一次的，交互本身不是核心，它背后搭載的內(nèi)容才是。但是在當(dāng)初看這個發(fā)布會的時候，我是真的沒有g(shù)et到這個點。那個時候真的難以想象，整個移動互聯(lián)時代會誕生的那么多APP，都有各自不同的UI，來搭載各式各樣的服務(wù)。你想想，如果以上面這些實體鍵盤，讓你來操作大眾點評、打開地圖、Instagram或者其他你熟悉的APP，是一種怎樣的體驗？更有可能的是，只要是這樣的交互方式，根本設(shè)計不出剛才提到的那些APP。與之同時，這也引申出一個問題：如果設(shè)備上，并沒有多樣的軟件和內(nèi)容生態(tài)，那還應(yīng)該把實體鍵設(shè)計成觸摸和虛擬的方式么？比如，一個挖掘機(jī)的交互方式，應(yīng)該使用觸屏么？甚至對話界面？“對話智能解決重復(fù)思考"同樣的，對話智能的產(chǎn)品的核心價值，應(yīng)該在解決問題的能力上，而不是停留在交互這個表面。這個“內(nèi)容"或者“解決問題的能力"是怎么體現(xiàn)的呢？工業(yè)革命給人類帶來的巨大價值在于解決“重復(fù)體力勞動"這件事。經(jīng)濟(jì)學(xué)家TylerCowen認(rèn)為，“什么行業(yè)的就業(yè)人越多，這個工種就會創(chuàng)造更大的商業(yè)價值。"他在AverageIsOver這本書里描述到：“20世紀(jì)初，美國就業(yè)人口多的是農(nóng)民；二戰(zhàn)后的工業(yè)化、第三產(chǎn)業(yè)的發(fā)展，再加上婦女解放運(yùn)動，就業(yè)人工多的工種變成**商業(yè)的文字工作者比如秘書助理呼叫中心（文員，信息輸入）。1980/90年代的個人計算機(jī)，以及Office的普及，大量秘書，助理類工作消失。"這里提及的工作，都是需要大量重復(fù)的工作。而且不停的演變，從重復(fù)的體力，逐步到重復(fù)的腦力。從這個角度出發(fā)，對一個場景背后的“思考能力"沒有把控的AI產(chǎn)品，會很快被代替掉。的，就是典型意義上的智能客服。在市場上，有很多這樣的智能客服的團(tuán)隊，他們能夠做對話系統(tǒng)（詳見Part2），但是對這各領(lǐng)域的思考，卻不甚了解。我把“智能客服"稱為“前臺**姐"——無意冒犯，但是前臺**姐的主要工作和技能并沒有關(guān)系。他們重要的技能就是對話，準(zhǔn)確點說是用對話來“路由"——了解用戶什么需求，把不合適的需求過濾掉，再把需求轉(zhuǎn)給專家去解決。但是對于一個企業(yè)而言，客服是只嘴和耳，而專家才是腦，才是內(nèi)容，才是價值?？头卸嗖缓诵?？想想大量被外包出去的呼叫中心，就知道了。與這類客服機(jī)器人產(chǎn)品對應(yīng)的，就是專家機(jī)器人。一個專家，必定有識別用戶需求的能力，反之不亦然。你可以想象一個企業(yè)支付給一個客服多少薪資，又支付給一個專家多少薪資？一個專家需要多少時間培訓(xùn)和準(zhǔn)備才能上崗，客服**姐呢？于此同時，能力是這個機(jī)構(gòu)的核心，而客服不是。正因為如此，很多人認(rèn)為，人工的呼叫中心，以后會被AI呼叫中心代替掉；而我認(rèn)為，用AI做呼叫中心的工作，是一個非常短暫的過渡型方案。很快代替人工呼叫中心的，甚至代替AI呼叫中心，是具備交互能力的專家AI中心。在這兒，“專家"的意義大于“呼叫"。在經(jīng)歷過工具化帶來的產(chǎn)能爬坡和規(guī)模效應(yīng)之后，他們成本差不多，但是卻很多。比如他直接鏈接后端的供給系統(tǒng)的同時，還具備領(lǐng)域的推理能力，也能與用戶直接交互。NLP在對話系統(tǒng)里解決的是交互的問題。在人工智能產(chǎn)品領(lǐng)域里，給與一定時間，掌握技能的團(tuán)隊一定能對話系統(tǒng)；而掌握對話系統(tǒng)的團(tuán)隊則很難掌握技能。試想一下在幾年前，移動互聯(lián)剛剛出現(xiàn)的時候，會做app的，去幫銀行做app；而幾年之后銀行都會自己開發(fā)app，而干不了銀行的事。在這個例子里，做AI產(chǎn)品定義的朋友，你的產(chǎn)品**是要代替（或者**）某個領(lǐng)域?qū)＜?；而不要瞄?zhǔn)那些過渡性崗位，比如客服。從這個角度出發(fā)，對話智能類的產(chǎn)品核心的價值，是進(jìn)一步的代替用戶的重復(fù)思考。Workonthemindnotthemouth.哪怕已經(jīng)是在解決腦袋的問題，也盡量去代替用戶系統(tǒng)2的工作，而不只是系統(tǒng)1的工作。在你的產(chǎn)品中，加入級的推理；幫助用戶進(jìn)行抽象概念與具象細(xì)節(jié)之間的轉(zhuǎn)化；幫助用戶去判斷那些出現(xiàn)在他的模型中，但是他口頭還沒有提及的問題；考慮他當(dāng)前的環(huán)境模型、發(fā)起對話時所處的物理時空、過去的經(jīng)歷；推測他的心態(tài)，他的世界模型。先解決思考的問題，再盡可能的轉(zhuǎn)化成語言。Part5AIPM“缺了什么？"2018年10月底，我在慕尼黑為企業(yè)客戶做onsitesupport。期間與客戶的各個BU、市場老板們以及自身的研發(fā)團(tuán)隊交流對話AI的應(yīng)用。作為的汽車品牌之一，他們也在積極尋求AI在自身產(chǎn)品和服務(wù)上的應(yīng)用。不缺技術(shù)人才。盡管作為傳統(tǒng)行業(yè)的大象，可能會被外界視為不擅長AI，其實他們自身并不缺少NLP的研發(fā)。當(dāng)我跟他們的NLP團(tuán)隊交流時，發(fā)現(xiàn)基本都有世界名校的PHD。而且，在閉門的供應(yīng)商大會上，基本所有的科技大廠和咨詢公司都在場了。就算實在搞不了，也大有人排著隊的想幫他們搞。創(chuàng)新的意愿強(qiáng)烈。在我接觸過的大企業(yè)當(dāng)中，特別是傳統(tǒng)世界當(dāng)中中，這個企業(yè)是非常重視創(chuàng)新的。經(jīng)過移動互聯(lián)時代，丟掉的陣地，他們是真心想一點點搶回來，并試圖所在的行業(yè)，而不是follow別人的做法。不僅僅是像“傳統(tǒng)的大企業(yè)創(chuàng)新"那樣做一些不痛不癢的POC，來完成創(chuàng)新部門的KPI。他們則真的很積極地推進(jìn)AI的商業(yè)化，而且勇于嘗試改變過去和Techprovider之間的關(guān)系。這點讓我印象深刻，限于保密條款，在此略過細(xì)節(jié)。（關(guān)于國際巨型企業(yè)借新技術(shù)的初創(chuàng)團(tuán)隊之手來做式創(chuàng)新，也是一個很有意思的話題，以后新開一個Topic。）數(shù)據(jù)更多。那么傳統(tǒng)的優(yōu)勢就在于，真正擁有業(yè)務(wù)場景和實際的數(shù)據(jù)。賣出去的每一臺產(chǎn)品都是他們的終端，而且開始全面聯(lián)網(wǎng)和智能化。再加上，各種線下的渠道、海量的客服，其實他們有能力和空間來搜集更完整的用戶生命周期數(shù)據(jù)。當(dāng)然，作為硬幣的另一面，百年品牌也自然會有嚴(yán)重的歷史牽絆。機(jī)構(gòu)內(nèi)部的合規(guī)、采購流程、數(shù)據(jù)的管控、BU之間的數(shù)據(jù)和行政壁壘也是跑不掉的。這些環(huán)節(jié)的Tradeoff確實大大的影響了對上述優(yōu)勢的利用。但是缺少的還是產(chǎn)品定義能力。如果對話智能的產(chǎn)品定義失敗，后面的執(zhí)行就算是的，出來的效果也是智障。有些銀行的AI機(jī)器人就是例子：立項用半年，競標(biāo)用半年，開發(fā)用一年，然后上線跑一個月就因為太蠢下線了。但這其實并不是傳統(tǒng)行業(yè)的特點，而是目前所有玩家的問題——互聯(lián)網(wǎng)或科技公司的對話AI產(chǎn)品也逃不掉?？赡芑ヂ?lián)網(wǎng)企業(yè)還自我感覺良好，在這產(chǎn)品設(shè)計部分，人才不缺了——畢竟“人人都是產(chǎn)品經(jīng)理"嘛。但在目前，咱們看到的互聯(lián)網(wǎng)公司出來的產(chǎn)品也都是差不多的效果，具體情況咱們在Part2里已經(jīng)介紹足夠多了。我們來看看難點在哪里。AI產(chǎn)品該怎么做定義呢？也就是，需要怎樣的產(chǎn)品才能實現(xiàn)商業(yè)需求。技術(shù)部門往往主要關(guān)注技術(shù)實現(xiàn)，而不背商業(yè)結(jié)果KPI；而業(yè)務(wù)部門的同事對AI的理解又很有限，也就容易提出不合適的需求。關(guān)鍵是，在做產(chǎn)品定義時，你想要描述“我想要一個這樣的AI，它可以說…"的時候你會發(fā)現(xiàn)，因為是對話界面，你根本無法窮盡這個產(chǎn)品的可能性。其中一個具體細(xì)節(jié)就是，產(chǎn)品文檔該怎么寫，這就足夠挑戰(zhàn)了?！皩υ扐I產(chǎn)品的管理方法"先給結(jié)論：如果還想沿用管理GUI產(chǎn)品的方來管理對話智能產(chǎn)品，這是不可能的。從行業(yè)角度來看，沒有大量成功案例，就不會有流水線；沒有流水線，就沒有基于流水線的項目管理。也就是說，從1886年開始**輛現(xiàn)代汽車出現(xiàn)，到1913年才出現(xiàn)**條流水線——中間有27年的跨度。再到后來豐田提出TheToyotaWay，以精益管理(LeanManagement)來快速迭代（類似敏捷開發(fā)）以盡量避免浪費(fèi)，即Kaizen(改善)，這已經(jīng)是2001年的事情了。這兩天和其他也在給大企業(yè)做對話的同行交流的時候，聽到很多不太成功的產(chǎn)品案例，歸結(jié)起來幾乎都是因為“產(chǎn)品Scope定義不明"，導(dǎo)致項目開展到后面根本收不了尾。而且因為功能之間的耦合緊密，連線都上不了（遇到上下文對話依賴的任務(wù)時，中間環(huán)節(jié)一但有缺失，根本走不通流程）。這些都是行業(yè)早期不成熟的標(biāo)志?！皩υ扐I產(chǎn)品的DesignPrinciple尚未出現(xiàn)"對話智能領(lǐng)域相對視覺類的產(chǎn)品，有幾個特性上的差異：1）是產(chǎn)品化遠(yuǎn)不如視覺類AI成熟；2）深度學(xué)習(xí)在整個系統(tǒng)里扮演的角色雖然重要，但是還是很少，遠(yuǎn)不夠撐起來有價值的對話系統(tǒng)；3）產(chǎn)品都是黑箱，目前在行業(yè)中尚無比較共同認(rèn)可的設(shè)計標(biāo)準(zhǔn)。APP發(fā)展到后面，隨著用戶的使用習(xí)慣的形成，和業(yè)界內(nèi)成功案例的“互相交流"，逐步形成了一些設(shè)計上的共識，比如下面這一排，右邊紅圈里的“我"：但是，從2007年iPhone發(fā)布，到這些移動產(chǎn)品的設(shè)計規(guī)范逐步形成，也花了近6、7年時間，且不提這是圖形化界面。到如今，這類移動設(shè)備上的產(chǎn)品設(shè)計標(biāo)準(zhǔn)已經(jīng)成熟到，如果在設(shè)計師不遵循一些設(shè)計思路，反而會引起用戶的不習(xí)慣。只是對話系統(tǒng)的設(shè)計規(guī)范，現(xiàn)在談還為時尚早。到這里，結(jié)合上述兩個點（對話AI產(chǎn)品的管理方法、設(shè)計規(guī)范都不成熟），也就可以解釋為什么智能音箱都不智能。因為智能音箱的背后都是一套“技能打造框架"，給，希望能用這套框架來制作各種“技能"。而“對話技能類平臺"在目前根本走不通。任何場景一旦涉及到明文識別以外的，需要對特定的任務(wù)和功能進(jìn)行建模，然后再融合進(jìn)多輪對話管理里的場景，以現(xiàn)在的產(chǎn)品成熟程度，都無法抽象成有效的設(shè)計規(guī)范?，F(xiàn)在能抽象出來的，都是非常簡單的上下文管理（還記得Part2里的“填表"么？）。我就舉一個例子，絕大部分的技能平臺，根本就沒有“用戶生命周期管理"的概念。這和服務(wù)流程是兩碼事，也是很多機(jī)器人智障的諸多原因之一。因為涉及到太細(xì)節(jié)和的部分，咱們暫且不展開。也有例外的情況：技能全部是語音控制型，比如“關(guān)燈開燈"“開空調(diào)25度"。這類主要依賴明文識別的技能，也確實能用框架實現(xiàn)比較好的效果。但這樣的問題在于，開放給沒有意義：這類技能既不需要多樣的產(chǎn)品化；從這類開發(fā)中也根本賺不到錢——幾乎沒有商業(yè)價值。另一個例外是大廠做MLaaS類平臺，這還是很有價值的。能解決對深度學(xué)習(xí)的需求，比如意圖識別、分詞、實體提取等**層的需求。但整個識別部分，就如我在Part3&4里提到的，只應(yīng)占到任務(wù)對話系統(tǒng)的10%，也而已。剩下的90%的工作，也是真正決定產(chǎn)品價值的工作，都得自己搞。他們會經(jīng)歷些什么？我隨便舉幾個簡單的例子（行業(yè)外的朋友可以忽略）：如果你需要訓(xùn)練一個意圖，要生成1000句話來做素材，那么“找100個人，每人寫10句"的訓(xùn)練效果要遠(yuǎn)好于“找10個人，每人寫100句"；是用場景來分意圖、用語義來分意圖和用謂語來拆分意圖，怎么選？這不僅影響機(jī)器人是否能高效支持“任務(wù)"之間的跳轉(zhuǎn)，還影響訓(xùn)練效率、開發(fā)成本；有時候意圖的訓(xùn)練出錯，是訓(xùn)練者把自己腦補(bǔ)的內(nèi)容放進(jìn)去了；話術(shù)的重要性，不僅影響用戶看著舒不舒服，更決定了他的回復(fù)的可能性——以及回復(fù)的回復(fù)的可能性——畢竟他說的每一句后面的話，都需要被識別后，再回復(fù)；如果你要給一個電影院做產(chǎn)品，**用圖形化界面，而不要用語言來選座位：“現(xiàn)在空著的座位有，**排的1，2，3，4…."這些方面的經(jīng)驗和技巧數(shù)都數(shù)不完，而且還是淺顯、皮毛的部分。你可以想象，對話智能的設(shè)計規(guī)范還有多少路要走——記得，每個產(chǎn)品還是黑箱，就算出了好效果，也看不到里面是怎么設(shè)計的。“一個合適的AIPM"當(dāng)真正的人工智能實現(xiàn)之后，所有產(chǎn)品經(jīng)理所需要做的思考，都會被AI代替。所以，真正的人工智能也許是人類后的一個發(fā)明。在那一天之前，對話智能產(chǎn)品經(jīng)理的工作，是使用各種力量來創(chuàng)造智能給人的感覺。AIPM一定要在心中非常明確“AI的歸AI，產(chǎn)品的歸產(chǎn)品"。做工具的和用工具的，出發(fā)點是不同。應(yīng)該是帶著做產(chǎn)品的目的，來使用AI；千萬不要出現(xiàn)“AIPM是來實現(xiàn)AI的"這樣的幻覺。我們都熟悉，PM需要站在“人文和技術(shù)的十字路口"來設(shè)計產(chǎn)品。那么對話智能的AIPM可能在這方面可能人格分裂的情況更，以至于甚至需要2個人來做配合成緊密的產(chǎn)品小組——我認(rèn)為一個優(yōu)秀的對話智能產(chǎn)品經(jīng)理，需要在這三個表現(xiàn)優(yōu)秀：1.懂商業(yè)：就是理解價值對話產(chǎn)品的價值一定不在對話上，而是通過對話這種交互方式（CUI）來完成背后的任務(wù)或者解決具體問題。一個本來就很強(qiáng)的APP，就不要想著去用對話重新做一遍。反而是一些APP/WEB還沒有能很好解決的問題，可以多花點時間研究看看。這方面在Part4里的對話智能的核心價值部分，當(dāng)中有詳細(xì)闡述，在這里就不重復(fù)了。2.懂技術(shù)：理解手中的工具（深度學(xué)習(xí)GOFAI）一個大廚，應(yīng)該熟悉食材的特性；一個音樂家，應(yīng)該熟悉樂器的特征；一個雕塑家，應(yīng)該熟悉手中的鑿子。大家工具都差不多，成果如何，取決于藝術(shù)家?，F(xiàn)在，AIPM手中有深度學(xué)習(xí)，那么就應(yīng)該了解它擅長什么和不擅長什么。以避免提出太過于荒謬的需求，導(dǎo)致開發(fā)的同學(xué)向你發(fā)起攻擊。了解深度學(xué)習(xí)的特性，會直接幫助我們判斷哪些產(chǎn)品方向更容易出效果。比如，做一個推薦餐廳的AI，就比做一個下圍棋的AI難太多了。下圍棋的產(chǎn)品成功，并不需要人類理解這個過程，接受這個結(jié)果就行。而推薦一個餐廳給用戶，則必須要去模擬人的思維后，再投其所好。人們在想要推薦餐廳的時候，通過對話，了解他的需求（不能問太多，特別是顯而易見的問題，比如他在5點的時候，你問他要定幾點的餐廳）對于圍棋而言，每次（單次）輸入的可能性只有不超過棋盤上19x19=361種可能性；一局棋的過程盡管千變?nèi)f化，我們可以交給深度學(xué)習(xí)的黑箱；后決定所需要的信息，全部呈現(xiàn)在棋盤上的落子上，盡管量大，但與落子以外的信息毫無關(guān)系，全在黑箱里，只是這個黑箱很大。后，輸出的結(jié)果的可能性只有兩種：輸或者贏。對于推薦餐廳。每次輸入的信息，實際并不包含決策所需要的全部信息（無法用語言表達(dá)所有相關(guān)的影響因素，參考Part3里世界模型部分）；而且輸出的結(jié)果是開放的，因為推薦的餐廳，既不可被量化，更不存在的對錯。了解CUI的特性后，不該用對話的就不要強(qiáng)上對話交互；有些使用對話成本非常高，又很不Robustic的環(huán)節(jié)，同時用戶價值和使用頻次又很低的，就要考慮規(guī)避——咱們是做產(chǎn)品的，不是實現(xiàn)真正的AI的，要分清楚。3.懂人：心理和語言這可能是當(dāng)前對話類產(chǎn)品重要的地方，也是拉開和其他產(chǎn)品設(shè)計的核心部分。也可能是中年人做產(chǎn)品的第二春。對心理的理解，指的是當(dāng)用戶在說話的時候，對他腦中的模型的理解。英文中“Readtheroom"就是指講話之前，先觀察一下了解周圍聽眾的情況，揣摩一下他們的心理，再恰當(dāng)?shù)恼f話。比如，講話的時候，是否聽眾開始反復(fù)的看表？這會讓直接影響對話的進(jìn)程。你有遇到過和某人對話起來感覺很舒服的么？這個人，不僅僅是語言組織能力強(qiáng)，更重要的則是他對你腦中的對話進(jìn)程的把握，以及場景模型，甚至對你的世界模型有把握。他還知道怎么措辭，會更容易讓你接受，甚至引導(dǎo)（Manipulate）你對一些話題的放棄，或者是加強(qiáng)。對話系統(tǒng)的設(shè)計也是一樣的。哪些要點在上文中說過？哪些類型的指代可以去模擬？如果是文字界面，用戶會不會拉回去看之前的內(nèi)容？如果是語音界面，用戶腦中還記不記得??？如果記得住，還強(qiáng)調(diào)，會感覺重復(fù)；如果記不住，又不重復(fù)，會感覺困惑。對語言的理解，則是指對口語特性的理解。我知道FrederickJelinek說的“每當(dāng)我開除一個語言學(xué)家，Speech識別的準(zhǔn)確率就會增高"。只是，現(xiàn)在根本沒有真正意義上的自然語言生成（NLG），因為沒有真正的思維生成。所以，任務(wù)類的對話的內(nèi)容，系統(tǒng)不會自然產(chǎn)生，也無法用深度學(xué)習(xí)生成。對于AIPM而言，要考慮的還是有很多語言上的具體問題。一個回復(fù)里，內(nèi)容會不會太長？要點該有幾個？謂語是否明確，用戶是否清晰被告知要做什么？條件又是什么？這樣的回復(fù)，能引發(fā)多少種可能的問詢？內(nèi)容措辭是否容易引起誤解（比如因為聽眾的背景不同，可能會有不同的解讀）？從這個角度而言，一個好的對話系統(tǒng)，必定出自一個很能溝通的人或者團(tuán)隊之手。能為他人考慮，心思細(xì)膩，使用語言的能力高效，深諳人們的心理變化。對業(yè)務(wù)熟悉，能洞察到用戶的Context的變化，而其格調(diào)又幫助用戶控制對話的節(jié)奏，以終解決具體問題。Part6可見的未來是現(xiàn)狀的延續(xù)“過渡技術(shù)"在幾周前，我與行業(yè)里另一家做對話的CEO討論行業(yè)的將來。當(dāng)我聊到“深度學(xué)習(xí)做對話還遠(yuǎn)達(dá)不到效果"的態(tài)度時，他問我：“如果是悲觀的，那么怎么給團(tuán)隊希望繼續(xù)往前進(jìn)呢？"其實我并不是悲觀的，可能只是更客觀一點。既然深度學(xué)習(xí)在本質(zhì)上搞不定對話，那么現(xiàn)在做對話AI的實現(xiàn)方式，是不是個過渡技術(shù)？這是一個好問題。我認(rèn)為，用現(xiàn)在的技術(shù)用來制作AI的產(chǎn)品，還會持續(xù)很長時間，直到真正智能的到來。如果是個即將被替代或者的技術(shù)，那就不應(yīng)該加碼投入。如果可以預(yù)見未來，沒人想在數(shù)碼相機(jī)崛起的前期，加入柯達(dá)；或者在LED電視普及之前，重金投入在背投電視的研發(fā)上。而且難以預(yù)測的不僅僅是技術(shù)，還有市場的發(fā)展趨勢。比如在中國，作為無現(xiàn)金支付方式，還沒來得及覆蓋足夠多的支付場景，就被移動支付斷了后路。而現(xiàn)在的對話智能所使用的技術(shù)，還遠(yuǎn)沒到這個階段。ClaytonM.Christensen在《創(chuàng)新者的窘境》里描述了每個技術(shù)的三個階段：**個階段，緩步爬坡；第二個階段開始迅猛發(fā)展，但是到接近發(fā)展的高地（進(jìn)步減速）的時候，另一個式技術(shù)可能已經(jīng)悄悄萌芽，并重復(fù)著**個技術(shù)的發(fā)展歷程；第三個階段，則進(jìn)入發(fā)展瓶頸，并終被新技術(shù)下圖黑色部分，為書中原圖：而當(dāng)前對話AI的技術(shù)，還在**階段（藍(lán)色旗幟位置）稱不上是高速發(fā)展，還處于探索的早期。黑箱的情況，會使得這個周期（**階段）可能比移動時代更長。以當(dāng)前的技術(shù)發(fā)展方向，結(jié)合學(xué)術(shù)界與工業(yè)界的進(jìn)展來看，第二個技術(shù)還沒有出現(xiàn)的影子。但是同樣因為深度學(xué)習(xí)在對話系統(tǒng)中，只扮演的一小部分角色，所以大部分的空間，也是留給大家探索和成長的空間。換句話來講，還有很多發(fā)展的潛力。前提是，我們在討論對話類的產(chǎn)品，而不是實現(xiàn)AI本身。只是，這個階段的對話AI，還不會達(dá)到人們在電影里看到的那樣，能自如的用人類語言溝通。2）服務(wù)提供者崛起的機(jī)會因為上述的技術(shù)發(fā)展特點，在短期的將來，數(shù)據(jù)和設(shè)計是對話智能類產(chǎn)品的壁壘，技術(shù)不是。只是這里說的數(shù)據(jù)，不是指的用來訓(xùn)練的數(shù)據(jù)。而是供給端能完成服務(wù)的數(shù)據(jù)；能夠照顧用戶整個生命周期的數(shù)據(jù)；是當(dāng)對話發(fā)生的時候，用戶的明文以外的數(shù)據(jù)這些數(shù)據(jù)；影響用戶腦中的環(huán)境模型、影響對任務(wù)執(zhí)行相關(guān)的常識推理數(shù)據(jù)，等等。而隨著IOT的發(fā)展，服務(wù)提供者，作為與用戶在線下直接打交道的一方，是有可能掌握這些數(shù)據(jù)。他們能在各個Touchpoint去部署這些IOT設(shè)備，來搜集環(huán)境數(shù)據(jù)。并且，由他們決定要不要提供這些數(shù)據(jù)給平臺方。但是，往往這些行業(yè)里的玩家都是歷史悠久、行動緩慢。其組織機(jī)構(gòu)龐大，而且是組織結(jié)構(gòu)并不是為了創(chuàng)新而設(shè)計，而是圍繞著如何能讓龐大的軀干不用思考，高速執(zhí)行。而這也正是互聯(lián)網(wǎng)企業(yè)和創(chuàng)業(yè)企業(yè)的機(jī)會。3）超級終端與入口之爭對話智能類的產(chǎn)品必須搭載在硬件終端上。很多相關(guān)的硬件嘗試，都是在賭哪個設(shè)備能夠成為繼手機(jī)之后的下一個超級終端。就好像智能手機(jī)作為計算設(shè)備，代替了PC的地位一樣。畢竟，在移動時代，搶到了超級終端，就搶到了用戶獲取服務(wù)的入口。在入口的基礎(chǔ)之上，才是各個應(yīng)用。如果對話智能發(fā)展到足夠好的體驗，并能覆蓋更多的服務(wù)領(lǐng)域時，哪一個終端更有可能成為下一個超級終端呢？智能音箱、帶屏幕的音箱、車載設(shè)備甚至車機(jī)、穿戴設(shè)備等等都可以搭載對話智能。在5G的時代，更多的計算交給云端，在本地設(shè)備上留下能耗較低的OS和基礎(chǔ)設(shè)施，I/O交給麥克風(fēng)和音頻播放就完成了。credit:Pixabay因此任意一個聯(lián)網(wǎng)設(shè)備，都可能具備交互和傳遞服務(wù)的能力，進(jìn)一步削弱超級終端的存在。也就是說，作為個人用戶，在任意一個聯(lián)網(wǎng)設(shè)備上，只要具備語音交互和聯(lián)網(wǎng)能力，都可能獲得服務(wù)。特別是一些場景依賴的商業(yè)服務(wù)，如酒店、**、辦公室等等。隨著這些入口的出現(xiàn)，在移動時代的以流量為中心的商業(yè)模式，可能將不再成立。而新的模式可能誕生，想象一下，每一個企業(yè)，每一個品牌都會有自己的AI。一個或是多個，根據(jù)不同的業(yè)務(wù)而產(chǎn)生；對內(nèi)部員工服務(wù)或者協(xié)助其工作，同時也接待外部的客服，管理整個生命周期從注冊成這家企業(yè)的用戶開始，到后（不幸地）中斷服務(wù)為止。只是這個發(fā)展順序是，先有服務(wù)，再有對話系統(tǒng)——就好像人，是有腦袋里的想法，再用對話來表達(dá)。結(jié)語在本文中，所有與技術(shù)和產(chǎn)品相關(guān)的討論，都是在強(qiáng)調(diào)一個觀點：一個產(chǎn)品是由很多技術(shù)組合而成。我不希望傳達(dá)錯誤的想法，類似“深度學(xué)習(xí)不重要"之類的；相反，我是希望每一類技術(shù)都得到正確的認(rèn)識，畢竟我們離真正的人工智能還有距離，能用上的都有價值。作為AI從業(yè)者，心中也會留有非理性的希望，能早日見證到人造的智能的到來。畢竟，如果真正的智能出現(xiàn)了，可能產(chǎn)品經(jīng)理（以及其他很多崗位）就解放了（或者被摧毀了）。這或許就是人類的后一個發(fā)明。本文開始于慕尼黑，終成稿于北京，斷斷續(xù)續(xù)耗時接近3個月。期間與很多大企業(yè)，行業(yè)內(nèi)的創(chuàng)業(yè)者，還有一些資本的同學(xué)溝通交流。在此表示感謝，就不一一點名啦。