具有深遠意義的“一帶一路”戰略構想涉及俄羅斯、印度、泰國等超過六十個國家,近四十億人口,四十多種語言,將極大的促進沿線各國的深度合作和交流。
提到合作與交流,首先擺在我們面前的便是語言問題。如何跨越語言障礙,實現各國互聯互通呢?全球一體化時代,單靠人力顯然是不能完成這樣的艱巨任務。好在科技的進步給我們提供了解決方案,以機器取代人,讓機器扮演翻譯這一重要角色,不僅具有很強的戰略意義,在實際經濟和文化生活中也舉足輕重。
顯然,這并不是一項輕松的工作,機器翻譯需要凝聚計算機、認知科學、語言學、信息論等學科的知識,是人工智能的終極目標之一。國內外的一些行業巨擘都在這一領域發力,努力研發出具備高度可用性的機器翻譯技術。百度也是這一領域的佼佼者,聯合了國內頂級學術機構展開研究,中國科學院自動化研究所、浙江大學、哈爾濱工業大學、中國科學院計算技術研究所和清華大學等悉數在列。
爆發式增長的數據規模給機器翻譯帶來新的想象空間,百度依托得天獨厚的大數據優勢,取得了機器翻譯核心技術的多項突破。
先進的機器翻譯背后蘊含著怎樣的高科技呢?下面我們一探究竟。
互聯網學霸:
高質量翻譯知識獲取技術
蹣跚學步是新生兒必須經歷的過程,當一個人接觸到翻譯這個工作的時候, 熟悉和掌握大量的雙語詞句就是這個學步的過程。只有了解了大量語句的常用翻譯方法,才可以舉一反三,融會貫通。我們可以將這個過程理解為“背誦例句”的過程。作為個人,要背誦成百上千的例句就頗為不易,挑燈夜戰,痛苦不堪,往往還需要反復背誦以加深記憶。
百度機器翻譯同樣有著這樣“背誦例句”的過程,所不同的是,它的背誦能力超出了大多數人的想象。
百度研發了基于互聯網大數據的高質量翻譯知識獲取技術,突破了傳統翻譯知識獲取規模小、成本高的瓶頸。互聯網就是百度機器翻譯的語料庫的來源,而基于網頁自主拓撲結構和內容互譯計算的語料獲取方法,也解決了互聯網翻譯知識質量控制的難題。
百度機器翻譯“背誦例句”的規模有多大,通過一個數據可以窺豹一斑:“例句”的數量如果按照字數換算成《大英百科全書》,翻譯系統在一周內學習的內容相當于千萬部《大英百科全書》。
即便是最強悍的人類學霸,在這種規模的語料學習前也將一敗涂地。
翻譯方法的突破:
基于互聯網大數據的翻譯方法
如果將互聯網大數據比喻為浩瀚的大海,傳統方法猶如一葉扁舟,難以應對互聯網大數據帶來的沖擊。要想顯著的提高翻譯質量,必須打破傳統方法的束縛,打造能夠乘風破浪的翻譯航空母艦。
百度翻譯提出了基于互聯網大數據的機器翻譯模型,融合了多種翻譯策略,并實現了機器翻譯云平臺與算法的充分優化與融合。一天之內即可完成全網超過2000億網頁雙語資源的模型訓練,穩定響應每天近億次的翻譯請求。
舉一反三 融會貫通:
樞軸語言機器翻譯技術
盡管互聯網帶來了數據量的激增,但是數據量是不均衡的。對于很多小語種而言,互聯網上的數據仍然非常匱乏,比如哈薩克語、斯洛文尼亞語、泰語等。俗話說“巧婦難為無米之炊“,如何開發高質量的小語種翻譯系統,是一個世界級難題。
百度提出了樞軸語言機器翻譯技術,攻克了機器翻譯語種覆蓋度受限的難題,使得資源稀缺的小語種翻譯成為可能。以樞軸語言為橋梁,充分挖掘“源語言-樞軸語言”以及“樞軸語言-目標語言”之間潛在的對應關系,構建大規模高質量翻譯模型。例如,開發高質量的“中-泰”翻譯系統,可以以英語作為樞軸語言,通過“中-英”“英-泰“的豐富資源建立”中-泰“翻譯模型。
通過以上技術,在小語種資源匱乏的情況下,降低了新語種資源獲取和新翻譯方向開發的成本,平均11天部署1個新語種。而如果是讓人類從零開始掌握一門語言,11天無疑是天方夜譚,即便是對于傳統的機器翻譯技術來說,新語言部署周期動輒需要數月或數年的時間。
百度翻譯助力一帶一路騰飛
機器翻譯一直被公認為是人工智能領域最難的課題之一。讓機器理解語言,進而實現不同語言之間的翻譯,是人類一直以來的夢想。
互聯網大數據給機器翻譯研究帶來新的機遇和挑戰,使得海量翻譯知識的自動獲取和實時更新成為可能,百度翻譯在機器翻譯系統框架、翻譯模型與算法、多語種翻譯技術等方面取得重大突破,自主研發了基于互聯網大數據的機器翻譯系統,使我國掌握了使我國掌握了互聯網機器翻譯的核心技術,占據了該領域的技術制高點。
目前,百度翻譯覆蓋了全球超過5億用戶,每日響應近億次的翻譯請求,百度翻譯開放平臺為上萬個第三方應用提供免費服務,即幫助普通用戶跨語言獲取信息和服務,自由溝通和交流,也促進了國際貿易、跨境經濟文化合作。
習近平主席對一帶一路有一個形象的比喻:如果將“一帶一路”比喻為亞洲騰飛的兩只翅膀,那么互聯互通就是兩只翅膀的血脈經絡。而我們相信,百度翻譯將給這對翅膀提供飛翔的動力。
□ 本報記者 向 陽