期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要:文章簡要介紹了自動術語提取任務的定義、主要方法和評價指標。針對傳統的自動術語提取方法,以互信息、t值、tf-idf、C/NC-value為例介紹了單元度和術語度的概念;針對自動術語標注方法,主要介紹了基于序列標注的建模思想。從提取效果來看,現有自動術語提取技術距離期望仍有差距,文章也嘗試給出了一些值得探索的方向。
關鍵詞:自動術語提取;自動術語標注;單元度;術語度;機器學習
引言
術語(term)是“各門學科的專門用語,在專業范圍內表示單一的專門概念”[1]。術語處在專業知識體系構建的基石位置,術語的獲取、整理和規范不僅對專業知識體系的構建和發展有重要作用,也會對專業領域之外的其他許多行業產生影響。
傳統上,術語的收集整理主要依靠領域專家進行,這種工作方式的優點是質量高,缺點也很明顯,成本高,速度慢,難以適應當今科技高速發展中術語大量急速涌現的現狀。20世紀90年代前后,伴隨著語料庫建設的進步,利用信息技術和自然語言處理技術進行術語快速獲取——自動術語提取(automatic term extraction,ATE)的想法就應運而生并成為一個重要的研究議題[2]。
術語自動提取有著不言而喻的重要意義。如果擁有可靠的術語自動提取技術,科技術語整理、審定與專業詞典編纂的工作效率和質量就會得到極大提高。術語作為一種特殊詞匯,在語言實踐中,常有與普通語言詞匯不同的處理策略和規律,可靠的術語自動提取技術也會對許多語言文字工作帶來積極影響,例如,在翻譯、教育等很多行業,及時、規范、全面的術語資源都是非常寶貴的資源。術語提取和識別還是專業自然語言理解的基礎技術,對于自然語言處理而言,術語通常都是未登錄詞(out of vocabulary,OOV),術語自動提取技術的進步有助于改善自然語言處理系統未登錄詞的處理能力,有助于推動專業文本機器理解技術的發展。
經過研究人員近三十年的努力,自動術語提取技術取得了許多進展,也出現了一些術語提取工具。例如,在許多機器輔助翻譯平臺中都有相應的自動術語管理和提取工具,譬如在著名的機器輔助翻譯平臺SDL-Trados中就配備了術語提取組件SDL MultiTerm Extract,可用于輔助翻譯工作者定位專業文檔及翻譯記憶庫中潛在的單語或者雙語術語,從而輔助翻譯工作者改進術語翻譯質量。不過,自動術語提取也是一個有挑戰性的研究任務,總的看來,自動術語提取技術的性能還不能令人滿意,還需要研究人員的持續攻關和努力。
1 自動術語提取的任務定義
自動術語提取研究從特定專業文本中提取術語的自動技術和方法。自動術語提取系統的輸入是特定領域的專業文本,任務是通過對這些文本的自動分析和處理,提取其中的術語條目并以列表的形式輸出。例如,從給定計算語言學文本中,提取其中的計算語言學術語。盡管自動術語提取系統在應用時面向特定的目標領域,但現有自動提取技術基本上是通用的,并不因為所處理的領域不同采用不同的方法。為了指稱的統一,在本文中,我們把自動術語提取所處理的特定領域文本統稱為目標領域文本,即自動術語提取系統的輸入是目標領域文本,輸出是目標領域文本中所使用的目標領域術語條目。
文獻中,除了術語自動提取這個名稱外,還有一些其他說法也指向術語提取或相關研究,例如,自動術語識別(automatic term recognition或automatic term identification)、自動術語檢測(automatic term detection)、自動術語挖掘(automatic term mining)等。許多文獻不加區別地使用這些術語,含義都是從目標領域文本中提取相應的術語條目。
不過,這里也想特別指出,針對目標領域文本中的術語,從語型(type)和語例(token)兩個處理角度,實際上可以構思出兩種既相互聯系又相互區別的處理任務。在語型處理層面,旨在提取目標領域文本中的術語條目,而不關心精確標記術語條目在目標領域文本中的每個使用實例。與之不同,我們還可以界定一種語例層面的自動術語處理任務,即在目標領域文本中精確標記所有的術語實例。傳統上所說的自動術語提取主要指語型層面的處理,我們在本文中稱之為自動術語提取。為了與之區別,在本文中,我們把上述語例層面的術語處理任務統一稱作自動術語標注(automatic term labelling,ATL)任務。二者區別如下:
a) 目標領域文本→自動術語提取ATE→術語表
b) 目標領域文本→自動術語標注ATL→標注了術語的目標領域文本
自動術語標注和提取可以獨立研究,但也可以結合進行。事實上,可以將自動術語標注看作自動術語提取的前驅任務,如果可以成功識別并標記目標領域文本中的術語,那么只要將這些標記好的術語提取出來并進行去重操作就可以得到相應的術語條目列表,從而實現術語提取的目的。
這里之所以對自動術語提取和自動術語標注區別對待,除了自動術語標注可以作為術語提取的實現技術之外,更為重要的是,從專業文本機器理解這個更為一般的角度出發,自動術語標注更具基礎意義,在許多專業文本的機器理解任務中,更加需要語例層級的術語標注處理,因此自動術語標注技術除可以用以支持術語提取外,也是專業文本機器理解的基礎技術。
2 術語的組成和統計特性
要想利用計算機自動標注或提取目標領域文本中的術語,就需要研究和總結術語在組成和分布方面的形式特征。作為一種特殊的語言表達,術語有著與普通詞語和短語不同的區別性特征。
從術語的組成來看,術語通常由一個或多個單詞組成。由一個單詞組成的術語通常稱作簡單術語(simple term)或單詞術語(single-word term),由不止一個單詞組成的術語通常稱作復雜術語(complex term)或多詞術語(multi-word term)。僅從組成單詞的數量上看,術語與普通短語并沒有區別。但術語與普通短語具有性質上的差異,術語是指稱領域概念的,所指通常固定明確。即便是復雜術語,本質上仍是詞匯層面的語言單位[3]。術語與普通短語在性質上的不同決定了術語必然具有不同于普通短語的特殊組成模式和特殊統計特性。
(1) 從語言學角度看,術語大多是名詞或者名詞短語,這是由術語是對概念的指稱這一特點決定的。例如,根據文獻[3]對四個領域術語的抽樣調查,名詞短語在英語術語中所占比例很高,在所調查的四個領域中比例介于92.5%和99.0%之間。
(2) 術語意義一般不是其組成單詞意義的簡單疊加,在使用中,變化有限。不具有一般短語所具有的(修飾詞)省略、變化、替換甚至增添等靈活變化現象[3]。術語形式變化,通常會導致所指的變化,也會造成歧義,所以同一術語在使用中形式基本不發生變化。
(3) 術語組成模式相對有限。例如,根據文獻[3]對四個領域中多詞術語的調查,僅由名詞、形容詞和介詞組成的名詞短語型術語占比在99%以上,僅由名詞和形容詞組成的名詞短語型術語占比可達97%,并認為英語術語的組成可用正則表達式描述如下[3]:
((A|N)+(A|N)*(NP)?(A|N)*)N
這里A、N、P分別代表形容詞、名詞和介詞。AN、NN、AAN、ANN、NAN、NNN、NPN等常見的英語術語組成模式都可以由該表達式所生成并覆蓋。
(4) 在目標領域文本中,術語通常具有較高的出現頻率。而且與普通短語不同,術語在領域文本和一般文本中有較大的分布差異,集中出現在所屬領域的文本中,而在其他領域文本中則較少出現。
(5) 復雜術語的組成單詞之間結合緊密穩定,形成領域文本中的特有固定搭配。從統計學的角度看,復雜術語各組件的共現頻度通常會顯著超過一般預期。
(6) 在專業文本中,術語的上下文語境也有一定封閉性,尤其是與術語共現的實詞往往因領域不同而不同。
術語的組成和統計特性是利用計算機識別和提取術語的主要依據,大多數術語自動提取方法是根據和利用上述術語特點而設計的。例如,利用術語的語言學特點,將目標領域文本中符合特定模式的名詞短語視作潛在的術語候選,或者利用術語的統計特性設計不同的度量指標衡量單詞和多詞組合作為術語的可能性。
3 單元度和術語度
從計算機的角度出發,目標領域文本中任何一個單詞或者連續幾個單詞的組合都有成為術語的可能。在本文中,我們把目標領域文本中任意一個由n個單詞組成的連續片段稱作n元組(n≥1)。理論上,任何一個長度小于術語最大長度的n元組都有成為術語的可能,我們把這些n元組稱作術語候選(term candidate),計算機需要逐一評價這些術語候選,計算它們作為術語的可能性。
衡量一個n元組是否構成術語通常被歸結為計算兩個指標的問題,即計算單元度和術語度[4]的問題。
單元度(unithood)是針對復雜術語而言的,一個包含多個單詞的n元組要成為一個術語,前提是它們需要構成一個固定搭配,組成單詞間需要結合緊密并整體構成一個語言單位。單元度就是衡量一個多詞n元組中詞與詞之間關聯強度的指標。但組合緊密穩定的多詞組合未必就是術語,術語需要具有領域性,術語度(termhood)就是用來衡量一個n元組與特定領域關聯程度的度量指標。
因此,對于目標領域文本中的某個n元組是否構成術語,可以分別計算該n元組的單元度和術語度分值,如果單元度和術語度得分都高的話,那么這個n元組很可能是一個術語。
多年來,研究人員先后設計和使用了很多計算單元度和術語度的具體方法,這些方法形式各不相同,但原理上都是利用術語的形式和分布特點。
3.1 單元度計算
常見的單元度計算方法包括t值、χ2值、對數似然比、點式互信息、Dice系數等多種方法。一一羅列和介紹這些方法并無必要,我們這里只介紹其中兩個計算指標,分別是點式互信息和t值。選擇這兩個指標,主要是因為點式互信息比較常見,而t值可以作為一類方法的代表。