9 月 28 日,Google 在 Research Blog 中介紹其神經網絡機器翻譯系統(GNMT)進展,譯文質量的大幅提升引發業內極大關注。據稱,在雙語評估者的幫助下,通過對維基百科和新聞網站的例句測定,在多個樣本的翻譯中谷歌神經網絡機器翻譯系統將錯誤降低了 55-85%甚至更多。

翻譯質量對比,來自 Google Research Blog
即便如此,網友發現其翻譯效果雖有顯著提升,但仍未避免將「我想下班」翻譯為「I want to work」等低級錯誤(第二天已被修復)。
事實上百度的在線翻譯系統,一年前就應用了基于神經網絡的翻譯方法(NMT)。去年百度曾在 ACL 會議上發表論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術解決多語言翻譯及語料稀疏的問題。該論文得到業內研究人員的極大關注,并被 ACL2016 的 NMT Tutorial 列為研究方向。Google 和 Bengio 的研究團隊都在此論文的基礎上進一步擴展了研究。
為此,機器之心專訪百度自然語言處理部技術負責人吳華、高級總監吳甜,就神經網絡機器翻譯系統的優缺點、如何獲得高質量訓練數據及百度翻譯目前進展展開話題。同時也借此機會了解百度自然語言處理部及其開展的 NLP 技術研發工作。以下為采訪內容整理,以饗讀者。
NMT、SMT 的優與缺
機器之心:能請您先介紹一下百度 NLP 部門嗎?
答:百度 NLP 部門在公司內部是具有較長歷史的部門,從最初搜索誕生時,就已經有 NLP 方面的工作。2010年初,百度正式成立自然語言處理部。現在,這個團隊人員構成非常多元,有自然語言處理、機器學習、信息檢索、數據挖掘、機器翻譯等多領域的專業性人才,擅長工程實踐和擅長科學研究的人才都能夠在團隊中發揮重要作用。同時,架構開發、前端開發、客戶端等軟件開發和硬件開發工程師,產品設計及語言學專業人才也是團隊的重要組成部分。
整個部門的大方向有幾個。第一是為百度的眾多產品提供最基礎的、NLP 模型算法,包括百度所有產品都在用的分詞算法、專名識別、詞性分析、語義理解、篇章理解等等一些基礎的一些工具。目前 NLP 部門為整個公司提供一個大型平臺 NLP 云,未來這個平臺也會對公司外有所開放,目前(這個平臺)每天都有千億量級的調動量。還有貼近應用的一些大型的應用系統,比如說深度問答系統。NLP 開發的深度問答系統在百度的搜索產品上,會有一些直接展示。比如在搜索引擎中提出一個問題,用戶可以不需要打開網頁,直觀的得到答案。
第二大方向是語義理解,實際上從最初期開始,NLP 就一直在致力于這樣的一個方向。在原來的搜索時代,會分析用戶的搜索 Query 含義是什么。到今天新的產品形態產生之后,已經不僅僅是分析搜索的意圖。越來越多的用戶會開始嘗試有上下文的、更積極的交互方式,這就需要有上下文的理解。
第三個方向是對話系統。對話系統就是讓機器能像人一樣,和用戶有對話性質的交互。NLP 過去幾年一直在積累相應的技術,通過對話引導讓用戶和機器人能一句一句的交流下去。這部分實際上已經應用在百度的度秘產品中。
第四個就是機器翻譯。百度在機器翻譯上已有 6 年的積累,每天有大量用戶使用線上機器翻譯產品,翻譯 API 也有很多外部的企業開發者在使用。從 2014 年開始,百度嘗試做基于神經網絡的翻譯系統,正式上線發布時間要早于 Google 一年。并且我們在發布的同時,還開發了離線版本,可以在手機上使用。
還有一些是更前瞻的探索。比如小度機器人。機器人能看、能寫、能聽,和人相比它還需要一個特別重要的能力就是思考。思考的前提,是先能聽得懂語言。所以從 NLP 角度來說,更多的是希望機器人能懂語言、理解語言,然后能夠跟人交流。那這款小度機器人,過去的幾年也有頻繁的亮相。

領導百度 NLP 工作的百度副總裁王海峰博士,已于近日當選 ACL Fellow
機器之心:谷歌最近發布了神經網絡翻譯系統,我們怎么看這個系統?
答:Google 發布的系統綜合了 NMT(Neural Machine Translation,神經機器翻譯)領域近年來的研究成果。其所使用的 Seq2Seq 翻譯模型、Attention 機制、以及深層 LSTM,在此前已有 Bengio 團隊等多篇論文提及,從 Google 發布的論文的參考文獻中可以看到。
此外,Google 針對大數據和深層模型的訓練,進行了諸多工程方面的優化。例如,其使用了自身研發的針對深度學習的計算機器—TPU,加速了訓練和解碼。
機器之心:那么百度是否有相關的研究?
答:百度在這方面的研究起步很早,成果也非常多。而且,我們的神經網絡翻譯系統早在 2015 年 5 月就正式上線發布了。
我們從 2014 年開始便嘗試做基于神經網絡的翻譯系統,2015 年發布在線翻譯系統的時,BLEU(Bilingual Evaluation Understudy)指標已經比傳統的 SMT(統計機器翻譯)系統高六、七個點。我們同時還開發了離線版本,可以在手機上使用,
當時學術界對于深度學習的翻譯方法到底是否實用還有一番爭論,我們很早就發現基于 Attention 機制的 Seq2Seq 深度學習模型是有用的,經過多次實驗驗證,在很多集合上超過了傳統方法。同時,針對 NMT 本身存在的一些問題,進行了技術攻關,短短 3 個月的時間便完成了開發和上線。當大家還在討論 Attention 機制時,我們已經結合了原有的統計方法上線。可以說,百度翻譯是全球首個互聯網神經網絡翻譯系統。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。