期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要: 圖書館讀者的數量大、借閱行為復雜多變,而傳統圖書館讀者借閱行為分析方法精度不高,且工作效率極低,無法滿足現代圖書館管理的要求。為了更好地刻畫圖書館讀者借閱行為,提高圖書館讀者借閱行為分析的準確性,設計了大數據背景下的圖書館讀者借閱行為分析方法。首先,分析圖書館讀者借閱行為的研究現狀,對圖書館讀者借閱行為分析數據進行聚類分析,并提取圖書館讀者借閱行為分析特征;然后,采用大數據分析技術——最小二乘支持向量機對圖書館讀者借閱行為變化特點進行擬合,構建圖書館讀者借閱行為分析模型;最后進行圖書館讀者借閱行為分析實例驗證。結果表明,大數據背景下的圖書館讀者借閱行為分析精度超過93%,而當前其他分析方法的精度均小于90%,同時,減少了圖書館讀者借閱行為分析時間,所提方法分析速度明顯加快,具有顯著的優勢。
關鍵詞: 借閱行為分析; 圖書館讀者; 聚類分析; 特點擬合; 分析模型構建; 實例驗證
0 引 言
圖書館是人們獲取知識的重要場所,其對高校的教學質量、科研起著重要的作用,全國各地的高校均建立了自己的圖書館管理系統,大幅度提高了圖書館的管理水平,也減輕了圖書管理員的工作量[1?3]。圖書館管理系統經過多年運營,積累了大量的歷史數據,如圖書數據、讀者數據等,對這些數據進行深度挖掘,掌握讀者的借閱行為習慣和規律,可以為讀者提供更優的服務,因此,對圖書館讀者的借閱行為進行研究,對于提高圖書館的管理水平具有十分重要的意義[4?5]。
最初由于圖書館讀者借閱行為的歷史數據較少,通常采用人工方式對圖書館讀者借閱行為進行簡單的統計與分析,難以充分找到圖書館讀者借閱行為的規律,館藏資源利用率低[6]。隨著自動化技術、信息處理技術的不斷發展,出現了許多基于數據挖掘技術的圖書館讀者借閱行為分析方法[7],如基于時間序列分析法的圖書館讀者借閱行為分析方法[8],根據時間前后采集圖書館讀者借閱行為,但是其無法全面、客觀地描述圖書館讀者借閱行為變化特點,使得圖書館讀者借閱行為分析結果不可靠[9];基于關聯規則算法的圖書館讀者借閱行為分析方法,反映了圖書館讀者與借閱活動之間的聯系[10],但是其屬于線性分析技術,而圖書館讀者與借閱活動之間的聯系具有隨機性,即非線性,因此圖書館讀者借閱行為分析誤差大[11];有學者提出了基于流通日志的高校學生圖書借閱行為分析方法[12],從流量日志找到讀者圖書借閱行為變化規律,但是由于當前流通日志數據量相當大,其圖書館讀者借閱行為分析時間長,效率低[13?15]。
為了更好地描述圖書館讀者借閱行為變化特點,獲得高精度的圖書館讀者借閱行為分析結果,提出大數據背景下的圖書館讀者借閱行為分析方法,并通過實例分析本文圖書館讀者借閱行為分析方法的有效性和優越性。
1 大數據背景下的圖書館讀者借閱行為分析方法
1.1 聚類分析算法
對于[n]個圖書館讀者借閱行為分析數據[X={x1,x2,…,xi,…,xn}],設有[k]個聚類,即有[k]個類別的圖書館讀者借閱行為,聚類分析算法的工作原理為:從[n]個圖書館讀者借閱行為數據中隨機選擇[k]個圖書館讀者借閱行為數據為初始聚類中心,其他圖書館讀者借閱行為數據根據其與聚類中心距離分別分配到最相似的類別中。
1) [cj]表示第[j]類的圖書館讀者借閱行為類的中心,那么[xi]和[cj]的距離為:
[d(xi,cj)=(xi1-cj1)2+(xi2-cj2)2+…+(xid-cjd)2] (1)
[xi]和[cj]之間的相似度計算公式為:
[s(xi,cj)=1d(xi,cj)] (2)
2) 對所有聚類中心進行更新,第[j]個類別的圖書館讀者借閱行為分析樣本集合為[{xj1,xj2,…,xjnj}],相應聚類中心為[cj=(c1j,c2j,…,ckj,…,cdj)],[ckj]為[cj]的第[k]個屬性,具體如下:
[ckj=xkj1+xkj2+…+xkjnjnj] (3)
3) 不斷重復上述步驟,直到更新后的類中心和更新前一致為止,采用均方差作為測度標準,即:
[J=i=1kj=1ni(xij-ci)2(n-1)] (4)
通過上述步驟,就可以得到一個圖書館讀者借閱行為分析樣本的相似歷史樣本數量,不用選擇所有的圖書館讀者借閱行為歷史樣本進行建模,減少了圖書館讀者借閱行為分析樣本數量,可以提高圖書館讀者借閱行為分析效率。
1.2 提取圖書館讀者借閱行為分析特征
每個圖書館讀者借閱行為有自己的特征,可以根據這些特征來識別相應的圖書館讀者借閱行為。本文從3個方面提取讀者借閱行為特征:
1) 讀者借閱圖書的月時間、周時間和時段;
2) 讀者專業、讀者學歷、讀者的職業、讀者的年齡段;
3) 讀者借閱書籍類型、讀者借閱書籍數量。
1.3 圖書館讀者借閱行為分析算法
由于圖書館讀者的數量大、借閱行為復雜多變,結合該特點,本文采用大數據分析技術——最小二乘支持向量機對圖書館讀者借閱行為變化特點進行擬合,構建圖書館讀者借閱行為分析模型。給定[M]個圖書館讀者借閱行為分析數據[{xi,yi}],[i=1,2,…,n],構造最優圖書館讀者借閱行為分析數據決策函數:
[f(x)=wTφ(x)+b] (5)
式中:[b]為偏置量;[w]為權值向量。
根據現代統計學理論得到滿足式(5)的條件為:
[yi-wTφ(x)+b≤εmin J=12wTw] (6)
根據最小二乘支持向量機的工作原理將式(6)轉換為:
[minw,b,eJ(w,e)=12wTw+12γi=1ne2is.t. yi=wTφ(xi)+b+ei] (7)
式中[γ]表示控制誤差的懲罰程度。
引入拉格朗日乘子法解決式(7),建立拉格朗日函數:
[L(w,b,e,α,γ)=12wTw+12γi=1ne2i-i=1nαi(wTφ(xi)-b+ei-yi)] (8)
式中[αi]表示拉格朗日乘子。
根據優化條件[?L?w=0,?L?b=0,?L?ei=0,?L?αi=0],消除[w]和[e],定義核函數[K(xi,xj)=φT(xi)φ(xj)],得到圖書館讀者借閱行為分析模型為:
[yi=i=1nαiK(xi,xj)+b ] (9)
1.4 大數據背景下的圖書館讀者借閱行為分析原理
推薦閱讀:大數據挖掘的論文投刊指導