av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

機器學(xué)習(xí)已能翻譯失傳已久的語言

來源:期刊VIP網(wǎng)所屬分類:業(yè)內(nèi)新聞時間:瀏覽:

  對失傳已久的語言進行破譯,一直是考古學(xué)家和語言學(xué)家關(guān)注的焦點和難點。隨著大型注釋庫的應(yīng)用以及機器學(xué)習(xí)技術(shù)的發(fā)展,人們開始思考,機器能否幫助破譯失傳已久的語言。近日,美國麻省理工學(xué)院的羅家明和雷吉娜·巴茲雷以及加州山景城谷歌人工智能實驗室的曹元團隊發(fā)明了能夠破譯失傳語言的機器學(xué)習(xí)系統(tǒng),并用它破譯了線形文字B。

  1886年,英國考古學(xué)家阿瑟·埃文斯在地中海的克里特島發(fā)現(xiàn)了刻著奇特未知語言銘文的古老石頭。而石頭上所刻的正是線形文字A和線形文字B。

  線形文字A可追溯到公元前1800年至1400年間,當(dāng)時該島被青銅時代的米諾斯文明統(tǒng)治。線形文字B在公元前1400年后出現(xiàn),當(dāng)時該島被來自希臘大陸的邁錫尼人征服。多年來,考古學(xué)家一直試圖破譯這些古老的文字,但都失敗了。直到1953年,業(yè)余語言學(xué)家邁克爾·文特里斯破譯了線形文字B。

  但破譯更古老的線形文字A至今仍是語言學(xué)中令人矚目的難題。

  羅家明等人發(fā)明的破譯失傳語言的機器學(xué)習(xí)系統(tǒng),通過破譯線形文字B證實了這一系統(tǒng)的有效性——這是首次機器完成自動破譯,其實現(xiàn)方式與機器翻譯技術(shù)不同。

  機器在不知其意的情況下,是如何實現(xiàn)翻譯的呢?

  無論機器翻譯哪種語言,原理都是從目的語中尋找與源語詞匯相對應(yīng)的單詞,因而首先要將特定語言的對應(yīng)關(guān)系映射出來。這一過程需要龐大的文本數(shù)據(jù)庫。機器通過搜索該文本庫,得出每個單詞和每個與它相鄰單詞出現(xiàn)的頻率。每個單詞可以看做多維參數(shù)空間中的一個向量,該向量作為約束條件,限制了對應(yīng)單詞出現(xiàn)在機器翻譯中的形式,并且這些向量會遵循一些簡單的數(shù)學(xué)法則。

  機器翻譯的關(guān)鍵是,不同語言中的單詞在各自參數(shù)空間內(nèi)占據(jù)著相同的“點”。這使得從一種語言一對一映射到另一種語言成為可能。因此,翻譯句子的過程變成了在這些空間中尋找相似軌跡的過程。機器甚至無需“知道”這些句子的含義。

  羅家明等人研發(fā)的機器學(xué)習(xí)系統(tǒng),其約束條件與語言發(fā)展方式息息相關(guān)。該原理是任何語言只能以特定的方式改變——比如,對應(yīng)語言中的符號以相似的分布出現(xiàn),對應(yīng)單詞以相同的字符順序排列,以此類推。有了這些規(guī)則約束機器,只要知道源語言,就可以輕松破譯。

  為了更好地測試該技術(shù),羅家明等人使用了兩種消失的語言——線形文字B和烏加里特語。線形文字B記錄了古希臘的早期形式,而發(fā)現(xiàn)于1929年的烏加里特語則是希伯來語的早期形式。

  試驗證明,羅家明等人研究的機器學(xué)習(xí)系統(tǒng)能非常準(zhǔn)確地翻譯這兩種語言。“在破譯過程中,我們能準(zhǔn)確地將67.3%的線形文字B的同源詞翻譯成對應(yīng)的希臘語。”他們說,“我們的實驗是機器自動破譯線形文字B的首次嘗試。”

  然而他們卻沒有提到線形文字A的破譯,眾多語言學(xué)家都認(rèn)為線形文字A的研究意義重大。所以,在機器能夠破譯線形文字A之前,仍需取得重大的研究突破。

  雖然沒有源語,新技術(shù)也行不通,但機器翻譯的最大優(yōu)點是,它可以不知疲倦地快速檢測一種又一種語言。因此,羅家明和他的團隊很可能會使用粗略近似法破譯線形文字A,試圖把它破譯成機器翻譯已在使用的每種語言。

主站蜘蛛池模板: 陆河县| 涿鹿县| 卢湾区| 淅川县| 澳门| 汪清县| 东乌珠穆沁旗| 义马市| 三门县| 独山县| 铁岭县| 湘阴县| 阳西县| 平原县| 沭阳县| 峨山| 晋江市| 普兰县| 南京市| 获嘉县| 容城县| 阜平县| 无棣县| 北流市| 东乡族自治县| 莱芜市| 边坝县| 白沙| 衡东县| 辛集市| 秦皇岛市| 中宁县| 福清市| 大城县| 姜堰市| 大洼县| 方城县| 禹州市| 含山县| 石景山区| 郁南县|