期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要:社區問答系統作為一種新興的知識分享平臺,在幫助用戶獲取有用信息方面取得了相當大的成功。將用戶提出的問題推薦給感興趣的回答者依然是社區問答平臺面臨的一個問題。針對興趣度,已提出了多個表示模型,但這些模型沒有考慮興趣的時間維度。本文提出用TOT主題模型建立備選回答者興趣的動態變化模型,找出備選回答者的當前興趣,然后進行問題推薦。實驗表明本文提出的方法是有效的。
關鍵詞:社區問答系統;問題推薦;興趣度;Topics Over Time主題模型
《中國科技信息》雜志1989年10月于北京創刊,是由中國科學技術協會主管,中國科技新聞學會主辦的一家國家級科技綜合類半月刊。
0 引 言
作為一種新興的知識分享平臺,社區問答系統(Commu-nity Question Answering,以下簡稱CQA)以問題和答案的形式供用戶交流信息、共享知識[1-3]。典型的CQA有Yahoo!Answers、Stack Exchange系列網站、百度知道和知乎等。CQA開放、交互的社會化屬性吸引了越來越多的用戶參與其中。僅在2012年,Yahoo!Answers平均每小時產生7000個問題和21000個答案[4]。
雖然CQA在幫助用戶獲取有用信息方面取得了相當大的成功,但也存在不少亟待解決的問題。其中一個重要的問題就是如何讓用戶提出的問題得到快速有效的解答。一項研究表明,用戶提出的問題中有超過80%的問題不能在48小時內得到滿意的回答[5,6]。另外,由于新產生的問題數量龐大,有能力回答問題的用戶又很難找到自己感興趣且擅長領域的問題來進行解答。
對于上述問題,一個有效的解決方法就是將新問題推薦給合適的回答者,使之能獲得快速高質量的回答,即所謂的“問題推薦”(Question Routing)[7,8]。合適的回答者需要滿足以下三個條件:
(1)對新問題感興趣,用興趣度(Interest)衡量;
(2)對新問題能提供高質量的回答,用權威度(Autho-rity)衡量;
(3)能及時地回答新問題,用在線可能性(Availability)衡量。
問題推薦的關鍵在于為這三個參數建立合適的表示模型。對于這三個參數,不少學者提出了自己的模型。
對于興趣度,最基本的模型是QLLM模型[9],其基本思想是將新問題看作查詢,將潛在回答者的資料(比如潛在回答者的歷史回答問題集合)看作文檔,通過語言模型計算新問題的生成概率。文獻[10]提出了LDALM模型,該模型融合了詞語和主題兩個層次的問題生成概率。文獻[11]提出了TCS-LM模型,該模型在計算問題的生成概率時引入了問題的類別信息。文獻[12]提出了CBLM模型,該模型引入問答系統的結構信息,以問題及其答案為基本單元來計算問題的生成概率,文獻[10]為了解決QLLM、TCS-LM和CBLM中存在的詞不匹配問題提出了ITR模型。
對于權威度,最準確的度量方法需要依據潛在回答者的答案質量,但是目前精確評判答案的質量相當困難,一般采用間接方法估算權威度。最常用的方法是基于鏈接分析的方法,如PageRank和HITS及其衍生方法,這些方法將回答行為看作一個鏈接。另外,還有采用機器學習的方法間接評判答案的質量,例如,文獻[13]采用邏輯回歸的方法計算某個答案為一個“好”答案的概率,在回歸中使用的特征包括答案的長度、問題與答案的長度比和問題的答案總數等。
對于在線可能性,這方面開展的研究工作相對較少。文獻[13]把在線可能性度量問題看作一個時間序列趨勢預測問題,具體過程是根據潛在回答者在某個時刻之前的歷史回答行為采用自動回歸的方法預測潛在回答者在該時刻之后一段時間內有回答行為的可能性。文獻[10]提出了一個相對簡單的計算方法,該方法僅考慮潛在回答者最近的一次回答行為。
如前所述,針對興趣度已提出了多個表示模型,實驗證明這些模型也取得了不錯的效果。但這些模型都存在一個共同的問題,就是沒有考慮用戶興趣的時間維度。用戶的興趣是動態變化的。經驗表明,用戶更愿意回答當前興趣范圍內的問題。本文提出用TOT主題模型[14]建立備選回答者興趣的動態變化模型,找出備選回答者的當前興趣,然后進行問題推薦。實驗表明本文提出的方法是有效的。
4 結 論
針對目前已提出的興趣度模型沒有考慮興趣的時間維度,且經驗表明人們一定程度上傾向于回答與當前興趣相關的問題,本文提出了基于當前興趣的問題推薦模型,利用TOT主題模型挖掘用戶的當前興趣,然后進行問題推薦。實驗結果表明,挖掘用戶的當前興趣有助于問題的推薦。本文下一步的研究方向是將基于當前興趣的問題推薦模型與其他基于興趣度的問題推薦模型進行融合。本文采用的數據集規模略顯不足,可能會導致TOT的訓練不夠充分,對挖掘用戶當前興趣的準確性有一定影響,下一步將在更大規模的數據集上進行測試。另外,時間步長的選取也需要進一步的優化。
參考文獻:
[1] 曹艷蓉.基于中文社區的智能問答系統的設計與研究 [D].南京:南京郵電大學,2018.
[2] 張力.社區問答系統中答案排序和問題檢索算法研究與應用 [D].合肥:中國科學技術大學,2018
[3] 劉曉鳴.社區問答系統中的專家發現方法研究 [D].大連:大連理工大學,2013.
[4] 劉淵杰.社區問答系統最佳回答機制的研究 [D].上海:上海交通大學,2010.
[5] 路遙.用戶交互式問答系統中問題推薦機制的研究 [D].合肥:中國科學技術大學,2012.
[6] 林鴻飛,王健,熊大平,等.基于類別參與度的社區問答專家發現方法 [J].計算機工程與設計,2014,35(1):333-338.
[7] 戴秋敏.互動問答平臺專家發現及問題推薦機制的研究 [D].上海:華東師范大學,2014.
[8] 馬澤鋒.基于機器學習的問答推薦系統問題推薦模型研究 [D].廣州:中山大學,2013.
[9] Zhou G,Liu K,Zhao J. Joint Relevance and Answer Quality Learning for Question Routing in Community QA [C]. Hawaii:International Conference on Information and Knowledge Management,2012:1492-1496.
[10] 劉明榮.協作式問答系統關鍵技術研究 [D].北京:中國科學院研究生院,2010.
[11] Li B,King I,Lyu M R. Question routing in community question answering:Putting category in its place [C]. Glasgow:Proceedings of the 20th ACM Conference on Information and Knowledge Management,2011:2041-2044
[12] Zhou Y,Cong G,Cui B,et al. Routing Questions to the Right Users in Online Communities [C]. Data Engineering,2009. ICDE '09. IEEE 25th International Conference on. S.l.:s.n.,2009:700-711.
[13] Li B,King I. Routing questions to appropriate answerers in Community Question Answering services [C]. Toronto:Proceedings of the 19th ACM international conference on Information and knowledge management,2010:1585-1588.
[14] Wang X,McCallum A.Topics over Time:A Non-Markov Continuous-Time Model of Topical Trends [C]. Philadelphia:Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006:44-54.