期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
[摘 要]大數據和大數據技術推動下,智能文獻采訪將成為圖書館文獻采訪的發展方向和趨勢。結合大數據技術和圖書館文獻采訪的業務工作,研究文獻采訪大數據的組成和相互關系,探索基于大數據技術的智能文獻采訪模式及具體方法。同時,指出實現文獻智能采訪需要培育的幾個方面的內容。
[關鍵詞]大數據;大數據技術;智能文獻采訪;模式
基于云計算機、物聯網等基礎的大數據技術發展和應用逐漸深入到各行業。大數據所涉及的信息量規模巨大,在合理時間內達到擷取、管理、處理、整理成類并能夠解讀的數據資訊,根據應用動態分配資源。大數據及其相關技術,讓圖書館、讀者、供應商和大數據企業間的智能文獻采訪成為可能[1]。利用大數據及其技術,能方便獲取讀者閱讀需求、供應商、出版商以及網絡信息數據來智能分析、管理和預測讀者需求、文獻動態和采訪細節,并以智能虛擬化的方式為圖書館采訪員、讀者用戶間構建實現智能文獻采訪,從而提高采訪的質量、準確性,降低采購成本、管理成本,提升文獻采訪效率。
1 大數據、大數據技術概述
大數據(Bib Data)是指所涉及的規模巨大的數據,于2011年由麥肯錫提出。大數據是無法用現有軟件工具提取、存儲、搜索、共享、分析和處理的、海量的、復雜的數據集合,是需要使用新的處理模式才能具有更強的決策力、洞察力、優化能力的海量資產。大數據基本包括大交易數據、大交互數據。大交易數據是指財務數據、用戶數據、經銷商數據、員工數據等。大交互數據是指微博、微聊天數據、移動終端數據、地理位置等數據。這兩部分數據共同融合成為全面大數據。2012年美國啟動大數據研究,隨后日本、歐盟、法國、澳大利亞陸續進行大數據研究。2013年我國啟動大數據建設,至2015年越來越多的政府和企業建立大數據產業園和創業平臺。如百度、淘寶、京東等企業建立了商品大數據[2]。
大數據具有“4V”特征,即數據巨大、數據類型多樣、處理速度快、價值密度低。大數據是動態的、開放性的、多樣化的。隨著海量的大數據產生,對數據處理的實時性、有效性提出了更高要求。然而傳統的常規技術手段根本無法應付。在這種情況下,大數據技術應運而生。這些技術主要包括分布式緩存、基于MPP的分布式數據庫、分布式文件系統、各種NoSQL分布式存儲方案等。NoSQL數據庫技術主要實現搜索、實時統計分析、簡單事務等[2]。Hadoop數據分析技術主要實現用戶積累、數據整合和分析處理等方位的服務。隨著數據挖掘技術、聚類分析、可視分析、預測分析和數據管理等大數據技術的不斷發展和完善,逐漸實現數據的多維度采集、整理、分析、預測和管理信息源,挖掘出有價值的信息及隱藏在數據背后的信息,進而揭示事物的本質及其發展規律。
2 大數據技術給文獻采訪帶來的影響
隨著人工智能、專家系統技術、云計算、大數據、物聯網等的發展應用,智能采購系統的數據挖掘、預測、分析等技術已取得重大進展。大數據驅動采購變革已開始,不斷把數據拿出來分析和關聯,進行合理的預測和數據推送。已有人嘗試將部分技術運用于圖書館文獻采訪工作的理論與實踐。隨著大數據技術進一步完善,為智能文獻采訪實現提供技術支持,這也是人工智能整體發展的必然趨勢。大數據技術支持下,智能文獻采訪不再高度依賴采購員的主觀經驗,而是根據大數據挖掘、個性化文獻需求,自動生成采購推薦清單,高度智能地完成文獻采訪工作。智能文獻采訪系統通過對讀者用戶各方面數據、館藏數據、書目數據、文獻價值、經費分配、風險等等進行全面分析、比較、判斷、評價,最后做出科學的文獻采訪。同時,通過挖掘數據價值、發現規律和知識為文獻采訪決策和優化提供有利依據,指導文獻采訪和管理的改進,最終改善文獻采訪的運營,實現便捷、高效及環保的文獻采購[3—4]。
3 文獻采訪大數據的構成
在大數據技術和環境下,聯系文獻采訪業務技術流程,可將文獻采訪大數據分為讀者數據、圖書館數據、供應商數據、企業大數據四個部分[1]。
3.1 讀者數據
讀者數據分為讀者用戶身份數據和讀者交互數據。讀者交互數據是指讀者的行為數據,主要是指讀者點擊、瀏覽、停留記錄、檢索、閱讀、借閱、購買等信息數據,也包含讀者與供應商和其他網絡平臺進行溝通聯系產生的一切數據。讀者身份數據是用于在大數據間進行溝通的數據,如身份信息。
3.2 圖書館數據
圖書館數據是指館藏文獻數據、采訪員數據、讀者基本信息。該數據也存在讀者用戶訪問圖書館網站、微信、微博等信息的讀者交互數據。
3.3 供應商數據
供應商數據是指文獻資源數據、讀者交互數據。文獻資源數據主要是文獻出版信息、文獻采購信息、采購交易等數據。這里的讀者交互數據是指讀者參與圖書供應商瀏覽、自主采購或推薦等信息。
3.4 企業大數據
企業大數據是指圖書館、供應商、讀者共同依靠的互聯企業所提供的有關文獻資源、大眾讀者以及閱讀、交易等信息。如百度、騰訊、阿里開放數據庫等。企業大數據是最廣泛數據,也是文獻采訪挖掘、預測、精確采購的數據集合。文獻采訪大數據相互間的結構關系如圖1所示。
4 基于大數據庫技術的智能文獻采訪模式分析
4.1 文獻采訪數據的收集
在大數據環境下,通過大數據搜集讀者信息,利用大數據準確了解每位讀者的文獻需求。這些讀者數據的搜集主要通過圖書館、供應商和大數據企業,還包括通過進行數據分析后獲得的決策數據。供應商開放的文獻采訪平臺擁有文獻資源數據。企業大數據依靠的是互聯網企業所提供的有關文獻資源、大眾讀者以及閱讀、交易等信息。這些數據為供應商營銷和圖書館文獻采訪提供參考、預測數據。接下來需要將這些數據進行整合。其具體辦法可找到一關鍵字段把兩個或多個數據進行連接,如讀者通過身份證號碼在圖書館網站、供應商平臺和互聯網大數據企業間進行連接。通過這種方式,可以對讀者的基本資料、行業特征和交易記錄形成全方面了解。整理完讀者數據之后按一定的邏輯給讀者打標簽。如這個讀者最近經常瀏覽孕婦服裝、奶粉,可以給讀者打上“孕婦”標簽。通過讀者數據來全方位地了解讀者,以便為下一步精準文獻采訪奠定基礎。當這些讀者數據越來越大,企業就將這些讀者數據進行存放,為文獻采訪、供應商的銷售提供科學、智能的預測。同時,圖書館館藏種類、數量和結構等通過圖書館采訪系統與供應商開放平臺互通連接[5]。
推薦閱讀:大數據挖掘的論文投刊指導
如果您現在遇到期刊選擇、論文內容改善、論文投稿周期長、難錄用、多次退修、多次被拒等問題,可以告訴學術顧問,解答疑問同時給出解決方案 。