av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

基于貝葉斯網絡對全國PM2.5濃度影響因素分析

來源:期刊VIP網所屬分類:綜合論文時間:瀏覽:

  摘 要:為能更有針對性的控制PM2.5濃度,對2000-2017年間全國31個省市PM2.5濃度數值和由專家先驗得出的影響PM2.5的六種人為因素分別建立了基于BIC評分函數、K2評分函數進行結構學習的兩種貝葉斯網絡模型、支持向量機模型、K-近鄰模型進行分析。利用5-折交叉驗證對四種模型進行評估。發現在樣本量不太大的情況下,貝葉斯網絡表現出更好地穩健性與優越性,而基于K2評分函數進行結構學習的貝葉斯網絡模型具有更好地分類性能。為政府相關部門對我國PM2.5濃度更加有效的控制,以及采取更加具有針對性的治理方案提供了思路與方案。

  關鍵詞:PM2.5;貝葉斯網絡;結構學習;參數學習;模型評估

科技論文發表

  引言

  近幾年,隨著我國不斷發展,城市化的程度不斷提高,在有了越來越多的機遇同時,也面臨著環境的巨大挑戰。我國PM2.5數值頻繁“爆表”,長期的霧霾天不僅嚴重影響了我國正常的生產進程,還影響了人們正常的生活。因此,對PM2.5的影響因素進行分析,就顯得十分迫切,但是PM2.5濃度的變化是一個不確定的、復雜的過程,這也增加了建模過程以及分析的難度。近年來,許多專家學者致力于對PM2.5影響因素進行分析。國內學者解蕾等[1]使用二元定距變量的相關分析,分析了兩兩變量之間的關聯程度,最終得出結論PM2.5與SO2,PM2.5與CO,PM2.5與PM10之間都存在著較強的相關性,之后建立PM2.5與PM10的線性回歸方程,進一步分析二者之間的線性關系。學者盧德彬等[2]采用Theil-Sen median趨勢分析,Mann-Kendall、R/S和相關分析方法,分析了PM2.5的時空格局、空間變化特征、污染來源。學者羅毅等[3]將BP神經網絡與支持向量機相結合,構建了PM2.5濃度組合的模擬模型,分析了PM2.5污染規律和趨勢。學者王娟[4]利用灰色關聯度分析,找到了主要影響因素,建立主要影響因素與PM2.5的二次多元回歸方程,綜合考慮了各因素的影響。雖然上述模型均取得了不錯的結果,然而,利用上述方法在對PM2.5進行分析時仍存在著一些不足:(1)將所有可能影響因素拆分開來單獨分析,僅考慮單因素的影響,而忽略了多因素之間的交互作用;(2)相關分析只能反映出兩個或者多個因素之間的線性相關程度,而不能得出具體的因果關系;(3)由于PM2.5濃度變化的復雜性,各因素與其之間的關系是不確定的,多元回歸模型可能并不能反映出其變化的真實規律;(4)大多文獻

  側重于對影響PM2.5濃度的自然因素進行分析,而簡化了對人為源的分析。基于此,本文利用已有的專家先驗知識,找出影響我國PM2.5濃度的6個主要人為因素,分別建立基于K2評分進行結構學習的貝葉斯網絡以及根據BIC評分進行結構學習的兩種貝葉斯網絡模型,對在各因素共同作用下,PM2.5數值是否能達到我國二級標準進行判斷,同時建立支持向量機(SVM)、K-近鄰(KNN)模型,利用5-折交叉驗證對四種模型的分類精度進行對比,考察四種模型在樣本數目不太大的情況下的分類精度,找出更為有效的單一分類模型。通過分析影響PM2.5濃度的直接因素、間接因素或無關因素,據此可以為政府相關部門控制PM2.5濃度提供更加有針對性,更為有效的建議方法。

  貝葉斯網絡是由節點以及有向邊組成的概率圖模型,是一種在不確定、不完整的因素影響下,進行推理的一種有效的工具。貝葉斯網絡提供了一種展示變量之間的因果關系的框架結構。[5]目前貝葉斯網絡被廣泛應用于故障分析以及相關領域。例如,在故障分析領域,李爽等[6]基于BN-ELM方法對煤礦瓦斯安全態勢進行研究;熊宇峰等[7]借助樹形貝葉斯網絡,實現對配電網故障的快速災情推斷,Hu[8]等借助貝葉斯網絡對地震液化勢進行預測。在金融領域,嚴冠等[9]等利用貝葉斯方法建立銀行同業借貸網絡,對其中的系統風險進行分析研究。

  1 研究區域與數據來源

  本文面向我國31個省市,收集了2000-2017年相關數據558條。其中,我國2000-2017年的PM2.5值年度數據,由全國城市空氣質量實時發布平臺獲得。根據專家知識,得到影響PM2.5濃度的6個人為因素,包括:城市化水平(Urbanize)、產業結構(IS)、能源結構(ES)、外商直接投資額(Open)、人均生產總值(GRP)、政府治理(PT)。本文使用城鎮居民的消費水平與居民消費水平的比值表示城市化水平;產業結構用當地第二產業增加值占該地區生產總值的比重來表示;用該地區煤炭消耗量與該地區生產總值的比值反映能源結構,外商直接投資額以外商投資企業進出口總額與地區生產總值的比值來衡量;由政府治理廢氣項目完成投資占工業污染治理完成投資的比重來衡量政府治理的力度。相關數據來自《中國統計年鑒》。對數據的統計描述如圖1。

  從圖中可以看出,地區人均生產總值存在較多離群點,且各點之間差距較大,這也從側面反映出我國的經濟發展仍然是不均衡的,地區之間的經濟水平差異較大。此外,可以看到外商直接投資也存在較多離群點,根據我們的認識,經濟水平更高、地理位置更優越的地區可以吸引更多的外商投資,因此造成了該樣本值分布不均、差異較大。為了更加真實的反應各因素對PM2.5濃度的影響,本文將離群點全部保留。

  2 研究方法

  本文根據歷史數據以及專家知識,利用5-折交叉檢驗方法,對兩種貝葉斯網絡、SVM模型、K-近鄰,四種分類模型進行訓練與檢驗,并對四種模型在樣本數目不太大情況下的分類的準確性進行比較,得出更有效的分類模型。

  2.1 貝葉斯網絡

  一個完整的貝葉斯網絡模型由貝葉斯網絡結構、條件概率表兩部分組成。其網絡結構是一個有向無環圖,[10]其不同節點代表了不同的變量,節點之間的有向弧由父節點指向子節點,表示子節點的取值會受到父節點取值的直接影響。

  2.1.1 概率推理

  與傳統的概率派直接根據樣本數據建模分析不同,貝葉斯派為了更加充分利用先驗信息,首先引入參數先驗分布,再根據樣本數據,計算得到參數的后驗概率,從而加深對先驗信息的認識,在不斷迭代,重復上述方法的過程中,不斷得到新的先驗概率,再將更新修正后的先驗信息繼續用于求參數的后驗概率,從而實現更加準確的推斷。通過樣本數據,可以對一個給出節點的位置與其條件概率分布的貝葉斯網絡重新估計其變量的概率分布,其公式基礎便是如下貝葉斯公式與乘法公式:

  其中,P(X)為先驗概率,P(Y)為邊際分布,P(Y|X)是由樣本數據得到的似然概率。由于貝葉斯網絡的聯合分布具有馬爾可夫性,即變量只與其父節點取值有關,因此公式(2)可以寫成(3)的形式,π(xi)是變量xi的父節點概率。

  2.1.2 數據處理

  由于貝葉斯網絡對于處理離散數據具有更強的穩健性,因此先對數據進行離散化處理。按照PM2.5的濃度是否達到我國二級標準,即年均值是否小于35μg/m3。將均值小于等于35μg/m3賦值1,否則賦值為0。由于外商直接投資額、政府治理兩個因素含有大量缺失數據,因此本文將這兩個因素中的缺失數據賦值為0,非缺失數據賦值為1,以考察這兩個因素的有無對于PM2.5濃度能否達標的影響。對于其他變量的缺失值,本文用插補法進行插補,之后利用k均值的方法將變量人均生產總值、能源結構、產業結構、城市化水平進行聚類,其聚類中心如表1:

  表1 變量聚類中心

  離散化后的結果如表2所示。

  2.1.3 結構學習

  貝葉斯網絡進行結構學習的方法主要分為兩大類:(1)基于約束的結構學習法。這類方法的核心思想是:首先對訓練數據集進行條件獨立性測試等統計測試,[11]從而找出變量間的條件獨立關系。DAG圖就是按照盡可能多地覆蓋條件獨立性關系的原則所構造出來的。[12](2)基于評分搜索的結構學習方法。一種直接的想法是,希望能夠遍歷DAG結構中的每一種情況,根據某種評價準則,去對每一種可能情況進行評分,選擇該標準下的最優結構模型。然而隨著貝葉斯網絡結構模型中節點數的增加,DAG結構的數量將會大幅增加,Robinson曾給出一個計算DAG結構數量的計算公式:

  由公式可以看出,隨著節點數增加,DAG結構的數目的增加速度是指數級別的,因此,在節點數比較多的情況下,想要遍歷每一種結構形式在有限的時間內是很難完成的。為了解決這一問題,許多學者便提出了利用評分函數的方法,例如爬山算法,面向完全數據模型的K2算法、以及面向含有少量缺失數據的EM算法以及馬爾可夫-蒙特卡洛(MCMC)算法,用評分函數作為準則,對各結構進行打分,進而選擇出得分最高的結構,該結構即為該準則下最優。評分函數主要分為兩大類,一類是包括BDeu評分、K2評分等的貝葉斯評分函數。假設網絡拓撲結構G的先驗概率為P(G) ,針對給定樣本集D,根據貝葉斯公式,網絡結構G的后驗概率可以表示為:

  由于P(D)為樣本的函數,與拓撲結構無關,因此對式(5)求極值等價于對其分子P(G)P(D|G)求極值,使得分子達到最大的G,即為所求的,具有最大后驗概率的網絡結構。為了計算的方便,定義

  logP(G,D)=log(P(G)P(D|G))=logP(G)+logP(D|G)(6)

  為網絡結構的貝葉斯評分,即為MAP測度。[13]另一類是基于信息論的評分函數,BIC評分、MDL評分以及AIC評分等都是使用頻率較高的評分函數。爬山算法是貪婪算法的一種,通過不斷迭代最大程度提高分數,一旦找到局部最大值,搜索將終止,并返回相應的局部最優的結果。本文以爬山算法作為搜索策略,分別選擇貝葉斯評分函數中的K2評分函數,基于信息論的BIC評分函數對模型進行打分,結合專家先驗知識確定出兩個局部最優的DAG網絡結構。為了表述的方便,下文分別將基于K2評分函數的貝葉斯網絡模型與基于BIC評分的貝葉斯網絡結構模型記為BN-K2模型與BN-BIC模型。

  推薦閱讀:科技核心投稿論文要求有基金嗎

主站蜘蛛池模板: 竹北市| 双辽市| 遵义市| 安阳县| 屯留县| 郎溪县| 徐闻县| 阜阳市| 元氏县| 黄浦区| 高雄县| 大关县| 北宁市| 嘉禾县| 铁岭市| 亳州市| 英山县| 富民县| 红桥区| 古田县| 黎川县| 蓬莱市| 乐平市| 翼城县| 呼玛县| 淮北市| 怀仁县| 泾川县| 文昌市| 靖宇县| 喜德县| 喀喇沁旗| 张家口市| 湘潭县| 勃利县| 南汇区| 大关县| 堆龙德庆县| 松阳县| 义马市| 得荣县|