機器學(xué)習(xí)已能翻譯失傳已久的語言

來源：期刊VIP網(wǎng)所屬分類：業(yè)內(nèi)新聞時間：瀏覽：次

　　對失傳已久的語言進行破譯，一直是考古學(xué)家和語言學(xué)家關(guān)注的焦點和難點。隨著大型注釋庫的應(yīng)用以及機器學(xué)習(xí)技術(shù)的發(fā)展，人們開始思考，機器能否幫助破譯失傳已久的語言。近日，美國麻省理工學(xué)院的羅家明和雷吉娜·巴茲雷以及加州山景城谷歌人工智能實驗室的曹元團隊發(fā)明了能夠破譯失傳語言的機器學(xué)習(xí)系統(tǒng)，并用它破譯了線形文字B。

　　1886年，英國考古學(xué)家阿瑟·埃文斯在地中海的克里特島發(fā)現(xiàn)了刻著奇特未知語言銘文的古老石頭。而石頭上所刻的正是線形文字A和線形文字B。

　　線形文字A可追溯到公元前1800年至1400年間，當(dāng)時該島被青銅時代的米諾斯文明統(tǒng)治。線形文字B在公元前1400年后出現(xiàn)，當(dāng)時該島被來自希臘大陸的邁錫尼人征服。多年來，考古學(xué)家一直試圖破譯這些古老的文字，但都失敗了。直到1953年，業(yè)余語言學(xué)家邁克爾·文特里斯破譯了線形文字B。

　　但破譯更古老的線形文字A至今仍是語言學(xué)中令人矚目的難題。

　　羅家明等人發(fā)明的破譯失傳語言的機器學(xué)習(xí)系統(tǒng)，通過破譯線形文字B證實了這一系統(tǒng)的有效性——這是首次機器完成自動破譯，其實現(xiàn)方式與機器翻譯技術(shù)不同。

　　機器在不知其意的情況下，是如何實現(xiàn)翻譯的呢?

　　無論機器翻譯哪種語言，原理都是從目的語中尋找與源語詞匯相對應(yīng)的單詞，因而首先要將特定語言的對應(yīng)關(guān)系映射出來。這一過程需要龐大的文本數(shù)據(jù)庫。機器通過搜索該文本庫，得出每個單詞和每個與它相鄰單詞出現(xiàn)的頻率。每個單詞可以看做多維參數(shù)空間中的一個向量，該向量作為約束條件，限制了對應(yīng)單詞出現(xiàn)在機器翻譯中的形式，并且這些向量會遵循一些簡單的數(shù)學(xué)法則。

　　機器翻譯的關(guān)鍵是，不同語言中的單詞在各自參數(shù)空間內(nèi)占據(jù)著相同的“點”。這使得從一種語言一對一映射到另一種語言成為可能。因此，翻譯句子的過程變成了在這些空間中尋找相似軌跡的過程。機器甚至無需“知道”這些句子的含義。

　　羅家明等人研發(fā)的機器學(xué)習(xí)系統(tǒng)，其約束條件與語言發(fā)展方式息息相關(guān)。該原理是任何語言只能以特定的方式改變——比如，對應(yīng)語言中的符號以相似的分布出現(xiàn)，對應(yīng)單詞以相同的字符順序排列，以此類推。有了這些規(guī)則約束機器，只要知道源語言，就可以輕松破譯。

　　為了更好地測試該技術(shù)，羅家明等人使用了兩種消失的語言——線形文字B和烏加里特語。線形文字B記錄了古希臘的早期形式，而發(fā)現(xiàn)于1929年的烏加里特語則是希伯來語的早期形式。

　　試驗證明，羅家明等人研究的機器學(xué)習(xí)系統(tǒng)能非常準(zhǔn)確地翻譯這兩種語言。“在破譯過程中，我們能準(zhǔn)確地將67.3%的線形文字B的同源詞翻譯成對應(yīng)的希臘語。”他們說，“我們的實驗是機器自動破譯線形文字B的首次嘗試。”

　　然而他們卻沒有提到線形文字A的破譯，眾多語言學(xué)家都認(rèn)為線形文字A的研究意義重大。所以，在機器能夠破譯線形文字A之前，仍需取得重大的研究突破。

　　雖然沒有源語，新技術(shù)也行不通，但機器翻譯的最大優(yōu)點是，它可以不知疲倦地快速檢測一種又一種語言。因此，羅家明和他的團隊很可能會使用粗略近似法破譯線形文字A，試圖把它破譯成機器翻譯已在使用的每種語言。

上一篇：五類智庫成果蘭州發(fā)布

下一篇：科學(xué)家定位到水稻中一個新的葉形調(diào)控基因

av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

機器學(xué)習(xí)已能翻譯失傳已久的語言

查看北核目錄大全及期刊首頁

更多業(yè)內(nèi)新聞文章推薦

專題專項服務(wù)