av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

數據挖掘的主要方法及軟件

來源:期刊VIP網所屬分類:綜合論文時間:瀏覽:

  目前,國內對于圖書館數據挖掘在資源建設、個性化信息服務、圖書館管理等方面的研究均有不少成果。但是,國內對圖書館數據挖掘的研究仍處于初級階段,需作進一步深入研究。本篇圖書館學論文對國內圖書館應用領域的數據挖掘應用展開研究,認為數據挖掘具有廣泛的應用前景,需要增大數據挖掘項目研究經費,培育引進數據挖掘方面的人才。

  推薦期刊:《中國圖書館學報》(雙月刊)曾用刊名:(圖書館學通訊;圖書館)創刊于1957年。50多年來,她緊跟時代步伐,適應時代要求,肩負讀者重托,為繁榮中國圖書情報學研究,為推動圖書館事業發展,做出了很大貢獻,被業內專家和學者譽為“中國圖書館學第一刊”。以廣大圖書情報工作者和圖書館學情報學專業師生為主要讀者對象,以開展圖書情報學學術研究和交流為宗旨,是發表學術研究成果、交流學術思想的專業學術性刊物。其任務是在“百花齊放,百家爭鳴”方針指引下,開展學術討論,提高學術水平,促進中國圖書情報事業發展。

中國圖書館學報

  關鍵詞:數據挖掘;圖書館;應用;綜述

  隨著數據庫技術應用的快速普及,圖書館信息的種類和形式越來越豐富,需要存儲和傳播的信息資源數量日益龐大,數據量呈現“爆發式”增長的趨勢[1]。然而,面對海量數據的處理,圖書館傳統的信息化管理模式和手段卻顯得無能為力,有些圖書館不由自主地陷入了“數據豐富,知識貧乏”的局面[2]。在這種情況下,如果將數據挖掘技術應用于圖書館服務之中,就可從大量圖書館數據中篩選出隱藏的、有用的數據,發掘表面上復雜無序信息的內在聯系,找出有價值的信息知識,實現“數據→信息→知識→價值”的轉變。

  目前,作為數據庫研究、應用與開發最活躍的分支之一[4],數據挖掘技術正在帶動學術研究進步,并推動產業界的不斷發展,數據挖掘也成為圖書館應用研究的一項重要課題,不斷地吸引著國內外圖書館界的專家學者們的極大關注[5]。筆者嘗試對檢索文獻進行整理歸納,綜述數據挖掘在國內圖書館領域應用研究的現狀及熱點,分析當前研究存在的不足,以為進一步的研究應用指引方向。

  1 國外數據挖掘在圖書館應用的研究現狀

  國外最早以數據挖掘在圖書館中的應用為主題的論文出現在1997年,自此之后,國外許多專家學者開始關注數據挖掘在圖書館領域的應用[6]。圍繞面向圖書館的數據挖掘技術,不少學者還提出了應用理論及實現方法[7]。從發文量來看,據統計,SCI收錄數據挖掘技術方面的文章呈現出逐年遞增的趨勢,其目前收錄的圖書館領域有關數據挖掘技術應用的文獻將近30篇[8]。尤其是近幾年來,歐洲和北美地區對數據挖掘技術在圖書館的理論與應用方面取得豐碩的成果。例如,美國加州大學Michael cooper教授利用數據挖掘對加州大學數字圖書館使用記錄進行分析,得出了不同類型用戶的逗留時間規律,他還構建了數學模型,應用時間序列以及聚類等分析方法研究圖書館用戶的行為規律,并對未來的趨向進行了科學預測[9]。芝加哥大學圖書館的Swansan開發了Arrowsmith 軟件系統[10]。該系統可以對數據庫文獻信息進行深度挖掘,探索文獻中信息之間的內在聯系,挖掘有價值的信息知識,這一成果吸引了該領域專家學者的廣泛關注[11]。Papatheodorou等人提出數據挖掘技術可用于圖書館數字化數據分析,其結果可成為圖書館管理者制定科學館藏和管理策略的重要依據。

  2 數據挖掘在圖書館應用的研究熱點

  2.1 數據挖掘在數字圖書館的應用

  目前,數據挖掘技術主要應用于數字圖書館讀者分析研究、資源建設優化,以及多媒體數字資源挖掘等幾個方面。關于讀者分析研究,大部分專家學者采用聚類分析方法對讀者類別進行劃分,而后再進一步進行關聯規則分析,以對每一類讀者的借閱特征進行深入挖掘,精確地掌握讀者信息,更好地實現為讀者提供服務;也有學者引入“讀者信息域的概念”,運用數據倉庫技術,對讀者信息進行全面挖掘,確保能對讀者特征進行準確的分析。還有學者將數據挖掘應用到讀者主觀感受的研究之中,例如,徐原青[12]在數字圖書館總體規劃的早期就引入了數據挖掘技術,通過構建數據倉庫,利用Analysis Services 2000數據處理機制,對基于讀者滿意度的數據挖掘在數字圖書館中的應用進行了研究。在圖書館資源建設優化方面,潘小楓[13]從數據應用數字圖書館管理系統建設、館藏的深層次加工,以及網絡信息資源挖掘等方面提出了推進數字圖書館發展策略;有的學者提出了應用基于數據挖掘的數字圖書館館藏建設評價方法,通過評價為優化館藏策略提供參考;還有學者立足于對數字圖書館借閱數據進行挖掘分析,對圖書館信息資源的利用情況進行評價等角度開展研究。對于多媒體數字資源挖掘研究,李默[14]提出使用Web挖掘等技術構建多媒體資源用戶行為分析的原型系統,采用頻繁模式樹算法對用戶信息進行分析的方法。

  2.2 數據挖掘在高校圖書館的應用

  國內圖書情報學的專家學者圍繞數據挖掘在高校圖書館的應用開展研究[15]。比如,趙衛軍[16]就數據挖掘在高校圖書館資源優化、智能化服務、信息自動化處理等方面的應用展開了討論;王慧敏等[17]利用SPSS和MATLAB軟件作為數據挖掘工具,以西安工程大學圖書館自動化管理系統的館藏數據作為基本數據源,對西安工程大學圖書館的入庫比例以及各學院借閱量排名進行對比細分,探討數據挖掘技術在圖書館中的應用;孫健波[18]在碩士論文中,利用 k-means 算法實現了對讀者和圖書的聚類分析,根據聚類結果指導圖書館管理和對讀者個性化服務;同時,他還對Apriori 算法進行了改進,采用關聯規則挖掘對讀者數據和圖書數據進行挖掘,探索那些隱藏在數據中的潛在規律。金瑤[19]對數據挖掘在高校圖書館的資源管理、信息服務,以及圖書館工作管理進行了探討;楊光和張學潮[20]提出了利用數據挖掘技術,對圖書館信息系統中隱藏的用戶相關的知識進行發掘,并以山西大學為例,對圖書館用戶行為進行了分析。此外,有的學者提出了基于數據挖掘的高校圖書館圖書采購計劃輔助決策方法;有的學者提出利用數據挖掘構建web學科導航系統,對圖書館信息資源系統進行豐富;還有學者提出了基于數據挖掘技術的圖書館信息系統建設策略。

  2.3 數據挖掘在圖書館個性化服務中的應用

  除了將數據挖掘用于高校圖書館之外,不少專家針對數據挖掘在圖書館個性化服務方面進行了積極的探索。國內對數據挖掘在圖書館個性化服務的應用研究包括以下幾個方面:個性化服務模型構建,個性化服務軟件開發。吳一平[21]提出了基于智能聚合技術的圖書館個性化信息服務方法;史艷梅通過對CMPS系統模型的設計,實現對用戶興趣的獲取;柳炳祥等探討了粗糙集和模糊聚類算法應用到圖書館個性化服務中的方法;張英等提出了適合圖書館多媒體數據挖掘的系統框架,并且給出了對音頻、圖像以及視頻等多媒體進行挖掘的方法;在個性參考咨詢研究方面,楊亞華提出了把知識管理、知識挖掘和參考咨詢服務有機結合的參考咨詢服務結構;關于圖書館個性化服務軟件開發,中國人民大學等高等學府率先開發了KBDL個性化服務系統,沈陽東軟軟件股份有限公司推出的東軟 Internet/Intranet應用構架平臺(Neusoft Web)等軟件系統,為圖書館個性化服務提供了豐富的特色應用。

  2.4 數據挖掘的主要方法及軟件

  綜合數據挖掘在圖書館應用領域文獻,可以把圖書館數據挖掘方法歸納為概念描述、分類和預測、聚類分析、關聯規則和偏差檢測。從現有文獻進行分析,用于圖書館數據挖掘的技術主要包括人工神經網絡和統計分析、模糊數學、歸納學習、仿生學、公式法、可視化手段等。而在圖書館應用軟件方面,數據挖掘包括通用型工具、綜合數據挖掘工具,以及面向特定應用工具。

  2.4.1 通用型工具

  通用型工具目前應用最為廣泛,其所占市場也最大,技術手段最成熟。通用的數據挖掘工具不區分具體數據的含義,所以一般采用通用的挖掘算法,處理常見的數據類型,其中包括的主要工具有IBM公司Almaden研究中心開發的QUEST系統,SGI公司開發的MineSet系統,加拿大Simon Fraser大學開發的DBMiner系統、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等軟件。

  2.4.2 綜合數據挖掘工具

  綜合數據挖掘工具反映了商業對具有多功能的決策支持工具的真實和迫切的需求。商業要求該工具能提供管理報告、在線分析處理和普通結構中的數據挖掘能力。這些綜合工具包括Cognos Scenario和Business Objects等。

  2.4.3 面向特定應用工具

  這一部分工具正在快速發展,在這一領域的廠商設法通過提供商業方案而不是尋求方案的一種技術來區分自己和別的領域的廠商。這些工具是縱向的、貫穿這一領域的方方面面,其常用工具有重點應用在零售業的KD1、主要應用在保險業的Option&Choices和針對欺詐行為探查開發的HNC軟件。

  3 存在的問題

  3.1 理論研究不深入

  自20世紀90年代后期以來,國外圖書情報學的專家學者們就開始致力于圖書館數據挖掘相關理論研究,就圖書館的數據挖掘技術、應用理論及方法而言,不少學者具有自己獨到的見解。較為典型的有:Nicholson提出了書目挖掘(Biblio mining)的概念;May Chau構建了圖書館數據挖掘理論模型,并研發了圖書館網上信息數據挖掘系統;Kyle Baner-jee對數據挖掘技術應于圖書館的各種方式進行了理論探討。可以說,關于數據挖掘理論與算法研究,國外圖書館領域已形成較為成熟的理論體系。相比之下,國內圖書館界對于數據挖掘的理論研究起步較晚,從現有的研究文獻來看,大約76%的文獻只是介紹數據挖掘的方法,以及該方法在圖書館實踐的應用,有的作者甚至只對其它學科文獻的理論研究成果進行簡單的移植,對數據挖掘在圖書館領域的理論基礎及運用實踐缺乏個人分析研究。總體來看,這些文章偏重于對數據挖掘技術在圖書館領域應用的定性分析,對于數據挖掘在圖書館方面的應用缺乏必要的理論研究,文章作者也并未應用計算機仿真等定量研究手段對方法使用的可行性進行分析,并且,國內圖書館界目前還沒有提出具有影響力的數據挖掘模型。中國知網中僅一篇《數字圖書館數據挖掘的基礎研究》對數據挖掘技術在圖書館應用的理論基礎進行了簡要的分析。總之,數據挖掘技術在圖書館的應用尚屬于起步階段,迄今為止,還沒有形成較為系統、成熟的理論體系,國內尚未正式出版一本有關圖書館數據挖掘方面的專著,因而,對數據挖掘理論在圖書館應用方面的探討將是長期而艱巨的任務。

  3.2 應用研究不全面

  數據挖掘是計算機、統計學、可視化、人工智能和機器學習等多學科相結合的產物,并已成功應用于金融、醫療、互聯網、學校教育和遙感等領域。對圖書館而言,數據挖掘主要應用于圖書館個性服務、圖書館知識發現、圖書館文獻資源建設、數字圖書館建設、圖書館內部工作流程優化、圖書館用戶挖掘、圖書館用戶行為分析等方方面面。

  縱觀國內數據挖掘在圖書館領域的應用研究,從發文量上看,盡管在2007年之后,國內相關文獻的總量達到一個高潮,然而,發表在圖書情報學中文核心期刊的比例不高,質量較高的論文并不多見;從發文作者的分布來看,論文研究作者大都來自高校圖書館系統,來自公共圖書館和高職院校圖書館的作者為數不多;從作者發文數量來看,發表論文數量3篇以上的作者只有6 人,發表論文數量2篇的作者33人,由此可見,高產作者數量不多;從論文主題進行分析,關于數據挖掘在高職院校圖書館應用的文獻不到10篇,大約有98% 的研究文獻是以大學圖書館為背景,很難看到有科學圖書館和公共圖書館的作者的研究成果。所有這些現象都說明國內目前對公共圖書館和高職院校圖書館的數據挖掘研究并未引起足夠廣泛的重視。從方法應用來看,現有文獻在方法應用研究方面缺乏針對性,研究者們通常局限于將常用的貝葉斯分析、聚類分析和關聯分析應用到圖書館借閱、采訪等業務之中,而沒有著眼于圖書館的實際業務進行針對性的分析,有的放矢,目前尚未發現粗糙集與關聯規則聯合數據挖掘、時空數據挖掘,以及粗糙集理論和神經網絡結合的數據挖掘等方法應用于圖書館領域的研究,現有的方法在原理上缺乏創新性;另一方面,隨著“云計算”和移動互聯網技術的發展成熟,人類迎來了大數據時代,然而,從研究選題情況進行分析,雖然在2011年就有專家學者提出了數據挖掘技術在移動圖書館和云圖書館中應用是未來的發展趨勢,但當前只有周艷在《現代情報》發表的《基于云平臺的圖書館數據挖掘技術研究》一文對數據挖掘技術在“云圖書館”的應用進行了探討[23];針對手機讀者的需求,重慶大學圖書館與國家圖書館等率先推出手機圖書館WAP網站,滿足移動用戶需要,但是,從中國知網現有的數據來看,只有聶飛霞在《基于數據挖掘的移動圖書館個性化圖書推薦服務》一文中[24]提出了應用數據挖掘技術的移動圖書館個性化圖書推薦服務模式。關于大數據和云計算相結合的數據挖掘在圖書館領域的應用研究,目前國內尚未見到相關的文獻報道。

  3.3 研究項目和經費支持少

  在所有檢索的文獻中,明確標注有支持項目和支持經費的只有14篇。其中,國家863計劃資助項目資助的只有一篇,國家自然科學基金和國家社會科學基金資助的論文6篇,總體來看,論文基金資助率僅為3.47%,明顯低于其它領域的資助水平。相對其它研究領域,此類項目支持經費不高。而科學研究與推進需要經費的支持,尤其是數據挖掘技術門檻較高,既需要具有人工智能數理統計學、計算機、數據庫等專業知識和技能,同時也需要更多的經費支持,為它進一步的研究創造條件。

  3.4 研究成果與圖書館管理信息系統開發聯系不緊密

  圖外圖書館將數據挖掘的研究結合到圖書館信息系統建設之中,目前已開發出具有數據挖掘功能的圖書館管理信息系統,如新西蘭克萊斯特徹奇教育學院圖書館的MyLibrary-Christ church College of Education,華盛頓大學圖書館的My Gateway-University of Washington Libraries,以及康奈爾大學的圖書館My Library Cornell University Library等等,這些系統的構建都是基于數據挖掘的思想,并且在實踐中發揮了巨大的作用。相比而言,由國內圖書館開發的真正可操作性強、易于實現、能夠指導實際業務的成熟產品卻為數不多,僅有包括中國人民大學在內的少數幾所大學圖書館自行研發了圖書館個性化服務系統——KBDL系統。現有的文獻中,大多偏重于數據挖掘理論的研究,對數據挖掘應用于圖書館信息系統及算法測試的研究較少,大部分的研究僅是局限于聚類分析、關聯規則等方法,對圖書館采訪數據進行相應的研究,極個別的研究者將研究的成果應用于該館實際運作管理。從圖書館數據挖掘軟件開發來看,大部分圖書館還是通過使用Intelligent Miner、SPSS Clementine、SAS Enterprise Miner、Orange、KNIME、Weka等數據挖掘軟件對圖書館的數據進行分析、處理和挖掘,很少用于圖書館領域的專用的數據挖掘軟件,現有的成果并不能有效地指導圖書館信息系統開發建設的實踐,圖書館復雜數據類型挖掘(Web,Text,音頻、圖形圖像、視頻等)軟件的研究在國內尚屬空白。

  4 結語

  圖書館數據挖掘綜合了可視化技術、智能圖書館系統和數據挖掘等方面的知識和技術,它是一個新興的研究領域。本文通過對數據挖掘在圖書館中應用研究的回顧,從高校圖書館、數字圖書館、圖書館個性化服務[25],及數字挖掘的主要方法及軟件研究等多個方面歸納總結了國內數據挖掘在圖書館領域應用的研究現狀。可以看出,國內圖書情報學的專家學者為數據挖掘在圖書館領域的應用做了大量的研究工作,取得了豐碩的成果。但同時也應看到:目前在該領域的研究,仍存在理論研究不夠深入、應用研究不全面、研究成果與圖書館管理信息系統開發聯系不緊密等問題。因此,為了能使數據挖掘更好地應用到圖書館和各項實踐,將來應在理論研究上下功夫,在實踐研究上求突破,同時,還要加速“一專多能”的人才培養,加大科研經費的投入力度,進一步推動研究成果向實踐應用的轉化。

主站蜘蛛池模板: 商丘市| 延庆县| 德州市| 汝州市| 阳原县| 兴安县| 桃源县| 曲麻莱县| 沙湾县| 司法| 鸡泽县| 肥西县| 平原县| 额济纳旗| 安泽县| 芒康县| 营山县| 得荣县| 探索| 白城市| 红原县| 兰西县| 介休市| 泾源县| 湟源县| 大理市| 陇西县| 蓝山县| 西乌珠穆沁旗| 达日县| 高尔夫| 凤城市| 留坝县| 灌云县| 辽源市| 都江堰市| 建德市| 井研县| 昌吉市| 昆明市| 阿克陶县|