av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

一種基于語料庫的網(wǎng)絡群體事件情感傾向分析模型

來源:期刊VIP網(wǎng)所屬分類:計算機網(wǎng)絡時間:瀏覽:

  摘要:介紹了一種基于語料庫的群體情感傾向度分析模型,該模型基于傾向性語料庫中的極性詞匯對集合中每一份素材文本進行分詞,統(tǒng)計并計算素材文本中出現(xiàn)的極性詞匯的強度值,得到整篇素材文本的傾向度,對集合中所有素材文本的傾向度進行統(tǒng)計并歸一化,帶入分段條件函數(shù)中進行傾向度判斷,得到網(wǎng)絡群體對該事件的情感傾向。通過對巴以沖突和中國空間站2個近期熱點事件的對照測試,驗證了模型的正確性。

  關(guān)鍵詞:極性詞匯;語料庫;情感傾向度;向量分析

  引言

  國家管理者在決策活動中必然會涉及關(guān)乎民眾利益的社會客觀情況,以及民眾在認知、情感和意識的基礎上對社會客觀事件的態(tài)度(民意)[1]。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,民眾越來越多地通過微博、論壇、微信等手段對公共事件或熱點事件發(fā)表意見、觀點、言論和態(tài)度,如何及時識別網(wǎng)民這一群體對某一事件的情感傾向,成為網(wǎng)絡輿情管理的重要研究課題[2-3],而不同群體情感傾向的偏差研究,是解決輿情群體情感傾向差異分析的重點[4]。本文提出了一種基于語料庫的網(wǎng)絡群體對事件的情感傾向分析模型,用于分析網(wǎng)絡上的群體對某個事件的情感傾向。該模型以網(wǎng)絡上某事件相關(guān)的微博、帖子等文本為素材集合,基于傾向性語料庫中的極性詞匯對集合中每一份素材文本進行分詞,統(tǒng)計并計算素材文本中出現(xiàn)的極性詞匯的強度值,得到整篇素材文本的傾向度,再對集合中所有素材文本的傾向度進行統(tǒng)計并歸一化,帶入分段條件函數(shù)中進行傾向度判斷,得到當前網(wǎng)絡群體對該事件的情感傾向是正面的、中立的還是負面的,從而及時采取相應的輿情管控手段加以引導。

  1定義

  1.1群體認知

  群體是指按某種特征結(jié)合在一起的多個個體,群體與個體相對,是個體的集合。群體對事件的認知是指某個特定群體對事件的看法或態(tài)度。對一個事件的群體認知數(shù)據(jù)主要來源于個人微博、Twitter、QQ空間、朋友圈、論壇和貼吧等個人社交軟件產(chǎn)生的信息。

  1.2情感傾向度

  群體對事件的情感傾向即廣大個體對于特定事件的公眾認知。事件可以來自線上傳播,也可以來自媒體報道,事件傳播途徑多是通過互聯(lián)網(wǎng)上的各類社交媒體軟件、論壇和貼吧等。互聯(lián)網(wǎng)是一個任何人均可以發(fā)聲的大平臺,信息傳播是一種松散的網(wǎng)狀結(jié)構(gòu),存在于社會各個階層的網(wǎng)民是構(gòu)成這個網(wǎng)的節(jié)點,他們掌握的或多或少的碎片化信息在節(jié)點間流動,雖然虛擬環(huán)境中仍然存在意見領(lǐng)袖和沉默螺旋效應,但缺少了社會群體中的監(jiān)督機制和自我約束,導致群體情感傾向帶有更多的情緒和不理智因素。同時,群體對事件的情感傾向也不都以文字的形式體現(xiàn),很多人并不直接發(fā)聲,而是對贊同的觀點點贊。同時,群體在使用社交媒體軟件時,經(jīng)常會使用表情符號表達自己的情感,而有時表情符號會傳達出比文字更強烈的傾向性。

  2模型應用

  2.1模型原理

  群體對某個事件的情感傾向性可歸類為正面、中立和負面。以一定平臺上的素材為基礎,事先構(gòu)建傾向性語料庫,采集目標群體對特定事件的相關(guān)文本,利用自然語言處理技術(shù)提取文本中的詞匯和表情符號,基于語料庫進行分析計算得到對事件的傾向度,從而判斷目標群體對該事件的傾向性。群體傾向性分析流程如圖1所示。

  (1)構(gòu)建傾向性語料庫

  使用網(wǎng)絡爬蟲從互聯(lián)網(wǎng)上采集近期常見的傾向性詞匯和表情符號,經(jīng)過人工對詞匯和表情進行分類并設置權(quán)重后,再為詞匯和表情建立倒排索引,形成語料庫。

  (2)提取事件相關(guān)文本的傾向性屬性

  收集目標群體針對某事件的相關(guān)文本素材形成原始素材集合,為每一份文本素材構(gòu)建情感傾向性屬性向量。

  (3)計算事件的傾向度

  對于包含傾向性屬性向量的文本素材,根據(jù)其傾向性屬性向量,結(jié)合語料庫中詞匯和表情符號的權(quán)重值計算每篇文本素材的傾向度。

  (4)分析群體對事件的傾向性

  遍歷原始素材集合中的所有素材,對集合內(nèi)所有素材的傾向度進行帶符號累加求和后做歸一化處理,求出被分析群體對該事件的傾向度。

  2.2模型設計

  2.2.1構(gòu)建傾向性語料庫

  傾向性詞匯即包含情感傾向的詞匯,可以是形容詞或者副詞,比如幸福、漂亮、卑鄙、愚蠢等;也可以是動詞,比如支持、點贊、反對、作弊等;也可以是介詞短語,比如干的漂亮、有意境等。這些具有傾向性的詞匯出現(xiàn)在語句中,通常會表達出個體對事件的情感傾向是正面積極的,還是負面消極的。向傾向性語料庫中插入詞匯時,除了要包含正統(tǒng)詞匯外,還應盡可能多地包含網(wǎng)絡流行用語。每一個進入語料庫的詞匯除了要進行正面、負面分類外,還要對其情感強度進行評估,并預置一個強度值。

  在社交媒體軟件中,比如新浪微博、微信、QQ等,表情符號也被用戶廣泛使用。用戶在表達具有情感傾向的觀點時,經(jīng)常會在文本中附加表情符號,它近似刻畫了用戶的表情,能夠簡單、直觀地展現(xiàn)出用戶的情感傾向。根據(jù)表情符號的不同可以歸類到不同的傾向中,比如:笑臉符號可以歸類到正面傾向中;憤怒或哭泣的符號可以歸類到負面傾向中。而不同的符號傳達的情感強度也不相同,應當為其預置不同的強度值,比如:大笑符號的情感強度應當大于微笑符號。

主站蜘蛛池模板: 仙桃市| 井陉县| 永清县| 永泰县| 工布江达县| 翁牛特旗| 深州市| 丹东市| 婺源县| 玛沁县| 延长县| 拉萨市| 汝南县| 大埔区| 清水河县| 成武县| 临武县| 施秉县| 吴江市| 沙河市| 枣阳市| 浦城县| 仙居县| 如东县| 赤城县| 江永县| 天水市| 治县。| 区。| 津市市| 博罗县| 衡南县| 翁牛特旗| 营口市| 柘城县| 甘南县| 理塘县| 秦安县| 玉田县| 伊金霍洛旗| 五寨县|