av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

機器學習已能翻譯失傳已久的語言

來源:期刊VIP網所屬分類:業內新聞時間:瀏覽:

  對失傳已久的語言進行破譯,一直是考古學家和語言學家關注的焦點和難點。隨著大型注釋庫的應用以及機器學習技術的發展,人們開始思考,機器能否幫助破譯失傳已久的語言。近日,美國麻省理工學院的羅家明和雷吉娜·巴茲雷以及加州山景城谷歌人工智能實驗室的曹元團隊發明了能夠破譯失傳語言的機器學習系統,并用它破譯了線形文字B。

  1886年,英國考古學家阿瑟·埃文斯在地中海的克里特島發現了刻著奇特未知語言銘文的古老石頭。而石頭上所刻的正是線形文字A和線形文字B。

  線形文字A可追溯到公元前1800年至1400年間,當時該島被青銅時代的米諾斯文明統治。線形文字B在公元前1400年后出現,當時該島被來自希臘大陸的邁錫尼人征服。多年來,考古學家一直試圖破譯這些古老的文字,但都失敗了。直到1953年,業余語言學家邁克爾·文特里斯破譯了線形文字B。

  但破譯更古老的線形文字A至今仍是語言學中令人矚目的難題。

  羅家明等人發明的破譯失傳語言的機器學習系統,通過破譯線形文字B證實了這一系統的有效性——這是首次機器完成自動破譯,其實現方式與機器翻譯技術不同。

  機器在不知其意的情況下,是如何實現翻譯的呢?

  無論機器翻譯哪種語言,原理都是從目的語中尋找與源語詞匯相對應的單詞,因而首先要將特定語言的對應關系映射出來。這一過程需要龐大的文本數據庫。機器通過搜索該文本庫,得出每個單詞和每個與它相鄰單詞出現的頻率。每個單詞可以看做多維參數空間中的一個向量,該向量作為約束條件,限制了對應單詞出現在機器翻譯中的形式,并且這些向量會遵循一些簡單的數學法則。

  機器翻譯的關鍵是,不同語言中的單詞在各自參數空間內占據著相同的“點”。這使得從一種語言一對一映射到另一種語言成為可能。因此,翻譯句子的過程變成了在這些空間中尋找相似軌跡的過程。機器甚至無需“知道”這些句子的含義。

  羅家明等人研發的機器學習系統,其約束條件與語言發展方式息息相關。該原理是任何語言只能以特定的方式改變——比如,對應語言中的符號以相似的分布出現,對應單詞以相同的字符順序排列,以此類推。有了這些規則約束機器,只要知道源語言,就可以輕松破譯。

  為了更好地測試該技術,羅家明等人使用了兩種消失的語言——線形文字B和烏加里特語。線形文字B記錄了古希臘的早期形式,而發現于1929年的烏加里特語則是希伯來語的早期形式。

  試驗證明,羅家明等人研究的機器學習系統能非常準確地翻譯這兩種語言。“在破譯過程中,我們能準確地將67.3%的線形文字B的同源詞翻譯成對應的希臘語。”他們說,“我們的實驗是機器自動破譯線形文字B的首次嘗試。”

  然而他們卻沒有提到線形文字A的破譯,眾多語言學家都認為線形文字A的研究意義重大。所以,在機器能夠破譯線形文字A之前,仍需取得重大的研究突破。

  雖然沒有源語,新技術也行不通,但機器翻譯的最大優點是,它可以不知疲倦地快速檢測一種又一種語言。因此,羅家明和他的團隊很可能會使用粗略近似法破譯線形文字A,試圖把它破譯成機器翻譯已在使用的每種語言。

主站蜘蛛池模板: 陆丰市| 璧山县| 旬邑县| 平遥县| 交城县| 日土县| 阿图什市| 岢岚县| 绥宁县| 汨罗市| 玛沁县| 金沙县| 马山县| 准格尔旗| 鹤壁市| 鹤峰县| 防城港市| 龙陵县| 南昌县| 清流县| 新郑市| 垣曲县| 遂昌县| 通渭县| 五华县| 三门峡市| 左权县| 湖南省| 丹阳市| 龙泉市| 新民市| 乌拉特后旗| 阿合奇县| 龙井市| 冀州市| 岐山县| 定西市| 克什克腾旗| 留坝县| 泾川县| 买车|