期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒有后顧之憂
來源:期刊VIP網(wǎng)所屬分類:漢語言時間:瀏覽:次
基金項目:國家自然科學(xué)基金面上項目“面向跨語言觀點摘要的領(lǐng)域知識表示與融合模型研究”(項目編號:71974202)。
作者:余傳明
摘 要:[目的/意義]從跨語言視角探究如何更好地解決低資源語言的實體抽取問題。[方法/過程]以英語為源語言,西班牙語和荷蘭語為目標(biāo)語言,借助遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,提出一種結(jié)合自學(xué)習(xí)和GRU-LSTM-CRF網(wǎng)絡(luò)的無監(jiān)督跨語言實體抽取方法。[結(jié)果/結(jié)論]與有監(jiān)督的跨語言實體抽取方法相比,本文提出的無監(jiān)督跨語言實體抽取方法可以取得更好的效果,在西班牙語上,F(xiàn)1值為0.6419,在荷蘭語上,F(xiàn)1值為0.6557。利用跨語言知識在源語言和目標(biāo)語言間建立橋梁,提升低資源語言實體抽取的效果。
關(guān)鍵詞:知識獲取;實體抽取;跨語言;深度學(xué)習(xí);標(biāo)簽映射
實體抽取(Entity Extraction,EE),又稱為命名實體識別(Name Entity Recognition,NER),是指識別文本中具有特定意義的實體[1],包括人名[2]、地名[3]、機構(gòu)名[4]和專有名詞[5-7]等。實體抽取在信息抽取的總體任務(wù)中起著至關(guān)重要的作用,有效識別命名實體,不僅是關(guān)系抽取[8-9]和構(gòu)建知識圖譜[10]的基礎(chǔ),而且可以顯著提高問答系統(tǒng)[11]和文本挖掘[12]等應(yīng)用的性能。隨著大數(shù)據(jù)的迅速發(fā)展,各種語料在不同語言中的分散化和多樣化日益嚴(yán)峻,跨語言情境下的實體抽取任務(wù)受到越來越多的關(guān)注。實體抽取任務(wù)在中文和英文等語言情境中,存在較為豐富的標(biāo)注語料,與此相關(guān)的實體抽取模型相對簡單;而在阿拉伯語和維吾爾語等語言情境中,標(biāo)注語料相對稀缺,存在標(biāo)簽語料很少和手工標(biāo)注標(biāo)簽昂貴且費時等問題,與此相關(guān)的實體抽取模型相對復(fù)雜,面臨更多挑戰(zhàn)。在標(biāo)注語料豐富的源語言和標(biāo)注語料稀缺的目標(biāo)語言之間建立橋梁,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言,以豐富目標(biāo)語言的標(biāo)簽數(shù)據(jù),通過建立跨語言的命名實體識別模型,提升低資源語言實體識別模型的效果,成為一個亟待解決的研究問題。
機器翻譯研究的發(fā)展在一定程度上緩解了目標(biāo)語言語料稀缺的問題,但采用機器翻譯來解決跨語言實體抽取仍面臨一些挑戰(zhàn)。首先,在源語言翻譯成目標(biāo)語言的過程中,即便在機器翻譯達到很高準(zhǔn)確率(即源語言文本與目標(biāo)語言文本具有很好的語義一致性)的情況下,由于在目標(biāo)語言中詞匯語序被調(diào)整,且存在對源語言詞匯進行拆分(源語言詞匯與目標(biāo)語言詞匯之間為一對多的關(guān)系)或合并(源語言詞匯與目標(biāo)語言詞匯之間為多對一的關(guān)系)的情況,很難準(zhǔn)確地建立詞匯標(biāo)簽(如B、I、O等)從源語言到目標(biāo)語言之間的一一對應(yīng)關(guān)系,如何在機器翻譯基礎(chǔ)上自動化地構(gòu)建目標(biāo)語言的語料標(biāo)簽仍然是一個嚴(yán)峻的問題。其次,目前應(yīng)用較為廣泛的免費在線翻譯系統(tǒng)(如谷歌和百度翻譯等)并不支持所有語言,針對稀缺資源語種(如蒙古語和維吾爾語等),如何在沒有機器翻譯的情況下自動化地構(gòu)建目標(biāo)語言的文本(并在此基礎(chǔ)上自動化地構(gòu)建標(biāo)簽)也是一大挑戰(zhàn)。
為解決上述問題,本文將自動化的雙語詞典構(gòu)建應(yīng)用到跨語言實體抽取任務(wù)中,利用遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,開展跨語言實體抽取的實證研究。
1 相關(guān)研究現(xiàn)狀
1.1 實體抽取的傳統(tǒng)模型
實體抽取的傳統(tǒng)模型包括早期基于規(guī)則的方法、統(tǒng)計機器學(xué)習(xí)的方法以及近年來基于深度學(xué)習(xí)的方法,其效果不斷得以提升。
1.1.1 基于規(guī)則的實體抽取
基于規(guī)則的實體抽取方法是指人工構(gòu)造規(guī)則或者借助機器自動生成規(guī)則,然后從文本中找出匹配規(guī)則的字符串。為了解決烏爾都語實體標(biāo)注語料稀缺的問題,Riaz K[13]提出一種基于規(guī)則的命名實體識別方法,首先從Becker-Riaz語料庫中選取200篇文檔,人工為時間、地名、機構(gòu)名等6個實體標(biāo)簽制定規(guī)則;并選出2 262篇文檔進行實驗,該方法的召回率為90.7%,準(zhǔn)確率為91.5%,F(xiàn)1值為91.1%。由于人工構(gòu)造規(guī)則需要消耗較多的人力和物力,所以研究者們嘗試借助機器自動生成規(guī)則的方法。Collins M等[14]先構(gòu)造種子規(guī)則,再根據(jù)語料對該種子規(guī)則進行無監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則,將這些規(guī)則用于實體抽取,該方法在人名、地名和機構(gòu)名3種實體抽取任務(wù)中取得很好的效果。周昆[15]提出一種基于規(guī)則匹配的命名實體識別方法,首先,將中文人名、知識按照不同類別和不同層次進行組織,可提高知識庫的可維護性;然后分別制定20種人名識別規(guī)則和9種地名識別規(guī)則;最后構(gòu)建具有自主學(xué)習(xí)能力的實體識別系統(tǒng),能在識別實體的基礎(chǔ)上,產(chǎn)生新的規(guī)則反饋給規(guī)則庫,該方法有效提高了實體抽取的準(zhǔn)確率和召回率。基于規(guī)則的實體抽取方法在小規(guī)模語料庫上,訓(xùn)練速度快且模型效果好,但需要制定大量的規(guī)則,導(dǎo)致該類方法的可移植性較差。
1.1.2 基于統(tǒng)計機器學(xué)習(xí)的實體抽取
在基于統(tǒng)計機器的方法中,實體抽取被視為序列標(biāo)注問題。序列標(biāo)注問題中當(dāng)前的預(yù)測標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測標(biāo)簽相關(guān),預(yù)測標(biāo)簽序列之間具有強相互依賴關(guān)系。目前常用的統(tǒng)計機器學(xué)習(xí)方法有:隱馬爾克夫模型(HMM)、最大熵隱馬模型(MEMM)、條件隨機場模型(CRF)等。CRF是計算整個標(biāo)記序列的聯(lián)合分布概率,在全局范圍內(nèi)進行歸一化處理,不僅克服HMM輸出的獨立性假設(shè)問題,而且有效避免了MEMM的標(biāo)記偏置問題。如馮艷紅等[16]提出一種基于詞向量和條件隨機場的領(lǐng)域術(shù)語識別方法,將領(lǐng)域詞語的語義特征和領(lǐng)域特征融入CRF模型中,在漁業(yè)領(lǐng)域語料、通用語料和混合語料上進行實驗,該方法均取得較好效果。李想等[17]將農(nóng)作物、病蟲害和農(nóng)藥名稱的詞性、偏旁部首、左右指界詞、附近數(shù)量詞等特征融入CRF模型,建立特征與命名實體類別和詞位間的關(guān)聯(lián)關(guān)系,從而識別出命名實體,對農(nóng)作物、病蟲害、農(nóng)藥命名實體識別的準(zhǔn)確度分別達97.72%、87.63%、98.05%。基于統(tǒng)計機器學(xué)習(xí)的實體抽取獲得了較好的結(jié)果,但是該方法需要人工選擇的特征作為模型輸入,實體抽取的效果嚴(yán)重依賴特征選取,且模型的泛化能力不強。
1.1.3 基于深度學(xué)習(xí)的實體抽取
深度學(xué)習(xí)技術(shù)成為研究命名實體識別問題的熱點方法,能夠有效地解決人工選擇特征的不足和高維向量空間帶來的數(shù)據(jù)稀疏問題。近年來,基于深度學(xué)習(xí)的實體抽取主要思路是,首先采用字粒度、詞粒度或者混合粒度將文本進行向量表示,然后用長短期記憶網(wǎng)絡(luò)(LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等網(wǎng)絡(luò)進行文本的語言特征提取,最后用條件隨機場(CRF)輸出最優(yōu)標(biāo)簽序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名實體識別模型,與基線方法相比,該方法具有較強的魯棒性,對詞語特征工程的依賴性較小。在此基礎(chǔ)上,Lample G等[19]提出兩種命名實體識別模型:一種是基于雙向LSTM和CRF的命名實體識別模型,一種是基于轉(zhuǎn)移的命名實體識別模型,在沒有人工處理特征和地名錄的前提下,英語、荷蘭語、德語和西班牙語數(shù)據(jù)集上均取得較好的結(jié)果。Zhang Y等[20]提出基于Lattice LSTM的中文命名實體識別模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息,與基于詞的方法相比,Lattice LSTM不會出現(xiàn)分詞錯誤。在多個數(shù)據(jù)集上證明Lattice LSTM方法優(yōu)于基于詞和基于字符的LSTM命名實體識別方法。目前,大部分神經(jīng)網(wǎng)絡(luò)都是使用Word2Vec和Glove工具訓(xùn)練詞向量,所得到的詞向量沒有考慮詞序?qū)υ~義的影響,Google在2018年10月發(fā)布BERT語言表示模型,在各項自然語言處理任務(wù)中都取得了最先進的結(jié)果。王子牛等[21]提出基于BERT的中文命名實體方法,首先用BERT訓(xùn)練大量未標(biāo)注語料,得到抽象的語義特征,然后結(jié)合LSTM-CRF神經(jīng)網(wǎng)絡(luò),該方法在《人民日報》數(shù)據(jù)集上的F1值達到94.86%。此外,深度學(xué)習(xí)方法還被廣泛應(yīng)用于歷史事件名抽取[22]、電子病歷實體抽取[23]、商業(yè)領(lǐng)域?qū)嶓w抽取[24]、在線醫(yī)療實體抽取[25]等應(yīng)用場景。值得說明的是,基于深度學(xué)習(xí)的實體抽取方法,在英語和中文等高資源語言中取得很好的效果;對于維吾爾語、蒙古語等低資源語言,實體抽取的效果有待提高。
推薦閱讀:小語種語言研究論文怎么發(fā)表