期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要:傳統機器學習的自然語言處理系統特別依賴人工手動標記的特征,極其耗時且容易出現維度爆炸等難以解決的問題。本文采用基于卷積神經網絡(CNN)的深度學習技術來解決這一問題。通過收集校園熱點話題進行預處理以及運用Word2vec模型生成詞向量后,運用卷積神經網絡提取其中的特征并進行情感傾向分類。通過實驗數據的比較,基于卷積神經網絡(CNN)的情感傾向分類獲得了89.76%的準確率,較傳統的支持向量機(SVM)提高了7.3%,獲得更好的分類性能。本文的研究對高校治理能力和治理體系現代化建設具有積極作用。
關鍵詞:自然語言處理;卷積神經網絡;情感傾向分析;輿情分析
1 引言(Introduction)
隨著信息技術的迅速發展和自媒體的普及,網絡對大學生的思維方式、思想觀念、人際交往和學習生活產生了深刻影響,各個高校校園文化的展示不再局限于校園內部,各種虛擬網絡平臺也成為校園文化交流和展示的平臺。借助自媒體平臺,學生們可以隨時隨地在社交網絡上發表自己的觀點和見解,而且這些觀點和見解往往是帶有明顯的情感傾向的,在一定程度上,這些正面或負面的高校網絡輿情也客觀地反映出校園文化的健康程度。如何在海量的數據中捕獲到用戶的情感傾向信息,挖掘出帶有情緒和喜惡的主觀信息,是情感傾向分類要做的主要工作。情感傾向分類可以對文本所表達的帶有主觀情感色彩的信息進行處理、挖掘,并分析其中包含的積極或消極信息,通過判斷信息的情緒極性進行輿情態勢感知和預警,有助于對極端情緒的檢測與控制。總之,在現代高校管理中,充分挖掘師生對熱點輿情事件的情感傾向,分析其所表達價值取向或者事件產生的深層次原因,對開展校園網絡輿情研究和進行有針對性的學生思想引導工作是至關重要的,對推動網絡空間的科學治理也起到促進作用。
2 基于深度學習的高校網絡輿情分析系統(University network public opinion analysis system based on deep learning)
情感分類算法研究是網絡輿情分析的一個重要研究領域,對于輿情分析有著重要的意義。近年來,國內高校網絡輿情突發事件頻繁發生,比如2020 年的“山西作弊大學生墜亡”“疫情期間高校施行‘相對封閉式管理’”等。這些事件所爆發出的網絡輿論給相關高校造成了極大的困擾。因此,在網絡空間科學治理工程的背景下,分析和研究高校網絡輿情發展和傳播規律,探索如何在高校師生中開展有效的網絡輿情管理和引導已成為需要深入研究思考的問題。作為高校,面對現下日益復雜以及多元化的網絡環境,要做好網絡輿情的預警工作,運用計算機輔助技術實時收集網絡輿情數據,對其中的熱點話題數據進行分析研判,精確地發現引發輿情危機的節點,在短時間內制定有針對性的處置策略,不給輿情危機發酵的時間和空間[1]。因此,若能對網絡熱點話題或事件進行搜索和分析,并總結出其中正面信息和負面信息的比例,進而對一些學生關注度高的問題及時進行解決以及疏導,這對于完善高校治理無疑是非常有用的。
在國內,基于深度學習的文本情感分類研究起步較晚,但發展迅猛,目前已經有很多研究成果涌現出來。劉龍飛等人[2]使用CNN方法對微博文本的情感進行研究,其中原始特征由字向量與詞向量同時構成,在COAE2014上取得不錯的效果。劉智鵬等人[3]構造與設計了CNN與RNN模型,并進行了有效的融合,利用各自對短文本的處理優勢進行商品的評價分類,獲得了較好的文本情感識別性能。周錦峰等人[4]通過堆疊多個卷積層,提取不同窗口的局部語義特征以及基于全局最大池化層構建分類模塊,獲得了較快的文本情感分類速度。蔡慶平等人[5]設計了基于Word2vec和CNN的產品評論細粒度情感分析模型,有效地發現用戶對產品特征的關注度和滿意度。
本文運用基于深度學習的情感分析技術手段,分析和研判網絡中高校熱點話題評論中所蘊含的情感傾向信息,并進行網絡輿情監測。網絡輿情分析分為輿情信息采集、文本數據預處理、詞向量化、輿情數據學習及分析、輿情預警(結果可視化)五個步驟。首先利用網絡爬蟲技術完成數據的收集;接著對數據進行中文分詞、去停用詞操作,保留語句中的關鍵信息;再運用詞向量工具將詞轉換成詞向量,以便可以被卷積神經網絡學習,通過網絡的學習,提取其中的特征,最終可被用于情感極向的分類,如圖1所示。可視化模塊則用于顯示分類結果,負面評論達到一定比例時,需要對相關問題進行疏導。
2.1 數據采集模塊
為了能夠快速地獲取最新的網絡輿情數據,本文利用分布式網絡爬蟲對指定網站進行數據爬取,簡單清洗之后,作為系統實驗數據來源。首先將數據收集任務分解成多個子任務,分配給多個爬蟲線程來共同完成;接著通過向網站的服務器發送請求,獲取網頁源代碼并進行數據清洗、去重去噪,將一些標簽、CSS代碼內容、空格字符、腳本標簽等內容處理掉,使冗余的網頁數據變得結構清晰[6];最終將這些信息存儲為純文本數據,為接下來的數據處理和分析提供基礎。
2.2 數據預處理
通過網絡爬蟲獲取的純文本數據需要轉化為適合于表示和分類的干凈的詞序列。由于中文句子中的詞語之間沒有明確的分隔符且存在一定的噪音信息,因此在預處理階段要對句子進行分詞、去除停用詞等操作。
(1)分詞。中文分詞是文本處理的一個基礎步驟,由于中文句子不像英文句子那樣詞與詞之間有明顯的分隔符,因此需要利用中文分詞技術將詞語切分開。成熟的中文分詞算法能夠達到更好的自然語言處理效果,幫助計算機理解復雜的中文句子。本文采用基于詞典分詞的jieba分詞器,它運用有向無環圖的查找算法,通過動態規劃,從后至前使得詞的切割組合聯合概率最大。對于不在詞典里的詞再使用HMM算法來進行二次分詞,采用分詞中的序列標注方法,使用模型識別詞每個位置的狀態值[7]。
(2)去停用詞。通過分詞可以把句子分出很多詞語,但是其中有些詞未包含實際含義,如“的”“了”“著”等,還有一些英文字符、數字、標點符號等。這些詞普遍存在,又未包含具體含義,同時記錄它們需要較大的空間。本文根據網上現有資源,對“哈工大停用詞詞庫”“百度停用詞表”等多種停用詞表合并整理后,生成了一個共有1,598 個停用詞的停用詞表。在分詞過程中,判斷得到的每個中文詞是否是停用詞,如果是停用詞則直接刪除,以便降低特征的維度,提高關鍵詞密度。
2.3 文本的分布式表示
預處理后的文本是一種計算機無法直接處理的非結構化數據,需要轉換成結構化數據——向量。本文采用Word2vec詞向量工具將文本轉換成詞向量,以便于網絡學習。Word2vec是MIKOLOV等人[8]提出來的一種文本分布式表示方法,由此詞嵌入的思想開始應用到自然處理的領域。它是一款將詞表征為實數值向量的高效工具,背后的模型是CBOW或者Skip-gram,使用了Hierarchical Softmax或者Negative Sampling的優化方法[9]。Word2vec能夠將每個詞映射成一個K維的實數向量,精確地度量詞與詞之間的關系,挖掘詞與詞之間的聯系。
本次實驗采用CBOW模型進行詞向量表示,通過輸入特征詞的上下文相關詞對應的詞向量來預測輸出特征詞的詞向量。用CBOW模型訓練詞向量,首先需要根據語料建立一張詞匯表,并給表中的每個詞語生成隨機的詞向量;然后將特定詞的上下文詞向量輸入CBOW,再由隱含層進行累加,到第三層中的哈夫曼樹,沿著特定的路徑到達葉子節點,從而完成對特定詞語的預測,訓練結束后就可以從詞匯表中得到每一個詞語所對應的詞向量。
2.4 深度學習情感分類模型
本文采用卷積神經網絡模型來解決中文情感傾向分析問題,將由Word2vec轉化后的詞向量矩陣作為卷積神經網絡的輸入;然后通過卷積層進行特征提取,再用最大池化法降低每條評論特征向量的維度;最后在全連接層由ReLU函數做出分類輸出,將評論信息分成積極和消極兩種。卷積神經網絡是一種多層的監督學習神經網絡,由輸入層(Input Layer)、卷積層(Convolution Layer)、池化層(Pooling Layer)、全連接層(Fully Connected Layer)和輸出層(Output Layer)組成,其中卷積層和池化層是實現特征提取功能的核心模塊,結構如圖2所示。
卷積層:在第一層卷積層中對輸入的詞向量矩陣進行卷積運算后,可以得到對應的特征圖。卷積運算使原信號特征增強的同時,還可以降低噪音,提取輸入樣本中的不同特征。同時,一個卷積層中可以有多個不同的卷積核,每一個卷積核都對應一個特征圖,如圖3所示。
池化層:經過卷積運算后的特征矩陣尺寸往往比較大,運用池化(Pooling)操作可以減小卷積層產生的詞向量矩陣的維度,使得參數的數量和計算量下降。本實驗采用最大池化法來降維,將卷積運算后的特征矩陣劃分為若干個矩形區域,輸出每個子區域最大值,減小數據的空間大小,如圖4所示。通過降低特征矩陣的維度,使得特征表示對輸入詞向量的位置變化具有更好的穩健性,還在一定程度上預防過擬合。