期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要:[目的/意義]對美國政府大數據互操作性框架提出的背景、具體內容和主要特點進行分析與總結,以期為我國制定大數據參考框架、促進跨界合作提供有益的參考。[方法/過程]以內容分析法和文本分析法為主要研究方法,以從美國NIST官網獲得的公開政策、研究報告等作為主要數據來源,從數據層、框架層、角色層和應用層等方面分析總結美國大數據參考框架的特點。[結果/結論]分析發現:NIST構建了一個具有較強參考性與適用性的大數據概念框架,著重體現了大數據范式的前后變化并鼓勵挖掘大數據應用的可能性。啟示我國政府在制定大數據參考框架時,應當在理論層面達成共識的前提下,關注可參考價值與利益相關者的開發需求,同時在需求與價值之間構建起映射關系。
關鍵詞:大數據;政府;參考框架;概念模型;利益相關者
《大數據》的辦刊宗旨是“以開放、創新姿態,推動大數據技術的研究與應用,促進技術交流,推廣創新成果,服務大數據社會”。
大數據已成為推動經濟發展、完善社會治理、提升政府服務和監管能力的新動力和新途徑。各國在積極制定和實施大數據發展戰略的過程中,面臨一個重要挑戰就是如何處理好跨部門、跨領域的大數據管理問題從而發揮大數據的基礎性和戰略性價值。2016年5月,美國國家標準與技術研究院(National Institute of Standards and Technology,簡稱NIST)發布了大數據互操作性框架(NIST Big Data Interoperability Framework)并于2018年3月進行了更新[1],以適應新階段的發展要求。美國的NIST大數據互操作性框架針對的是跨部門大數據管理與應用問題,本文通過分析與研究該框架,對面臨同樣發展困境的我國大數據發展具有一定的參考價值。
以“大數據+互操作/參考框架/參考架構/標準/概念模型”為檢索關鍵詞,筆者在中國知網檢索到了87篇相關文獻,在Springer、Science Direct和EBSCO檢索到了323篇相關文獻。通過中外對比,發現在關鍵詞分布上國內外呈現出較為明顯的區別。國內文獻重點關注的是大數據指導標準的建立,譬如,肖筱華等[2]和張群[3]對當前國內大數據標準體系及標準研制情況的研究。相較而言,大數據參考架構和概念模型的研究成果不如標準多,但是也占據了較高的比例,譬如,鄭大慶等綜合了大數據治理的內部要素和外部應用特征構建了一個大數據治理參考框架[4]。
國外文獻相較于標準制定,更偏重于對參考架構的研究,Nadal S等遵循軟件工程原則細化了大數據系統的參考模型,并用它創建支持Semantic-aware大數據系統的軟件參考體系架構[5]。Pkknen P等認為將Twitter、LinkedIn和Facebook等大數據開發案例的方法抽取到統一概念模型上尚且存在研究空白,因此,對已公布大數據用例實現架構進行了分析,由此提出了大數據系統的技術獨立參考架構[6]。
筆者認為,國家標準和行業標準提供的是相對具體的指導,在大數據范式尚處于探索階段時,宏觀概念層次的參考架構可以為大數據領域的創新提供更多的空間,抽象化的體系也更加有利于不同技術、組織和資源的融合與交流,然而,國內對該主題的研究尚顯得較為薄弱,這為本文提供了研究空間。另外,筆者未發現以NIST大數據參考性框架為研究對象的文章,因此,本文以該框架作為介紹與分析的對象,具有一定的研究意義。
本文選擇美國NIST大數據互操作性框架作為研究對象的主要原因如下:
第一,該框架旨在促進政府各部門、學界與企業之間開展有效合作,所針對的問題是當前大數據發展過程中所有國家政府都需要面臨的問題,大數據的概念之所以成立,在于數據通過有機、大規模集合可達成量變引起質變,該特性決定了必須進行跨部門、跨界合作,而在合作過程中的優劣互補、利益協調等問題同樣困擾著我國政府部門。
第二,2016年10月,習近平在主持中央政治局第三十六次集體學習時指出:“以數據集中和共享為途徑,建設全國一體化國家大數據中心,推進技術融合、業務融合、數據融合,實現跨層級、跨地域、跨系統、跨部門、跨業務的協同管理和服務[7]”。該指導理念與美國政府“大數據研究和發展計劃”的核心原則有共通之處,都強調了對國家大數據開展工作進行集中指導與統一規劃。NIST大數據互操作性框架是美國“大數據研究和發展計劃”的政策產物,與我國自上而下的工作部署方向相一致,因此,可為我國的大數據戰略開展提供一定的參考。
第三,該計劃于2016年形成,截至目前已實施了兩年多的時間,在這期間并未廢止且在向第二階段推進,可見該框架具有較強的可行性;同時,該框架還對第三階段的工作重點提前進行了規劃,對于未來大數據的趨勢形成了一定的洞見,因此,也具有一定的前瞻性。
1 提出背景
1.1 大數據的潛在價值催生合作需求
早在2002年,為了對大容量的流數據進行實時數據分析,美國政府就開發大規模可拓展的集群基礎設施與IBM公司展開合作[8]。由此帶動IBM后續開發的IBM InfoSphere Stream和IBM Big Data等大數據產品受到了美國政府和企業的廣泛歡迎。2009年,美國政府Data.gov網站開始運行,大大推動了美國的政府信息公開和數據開放。所建設的數據倉庫整合了涵蓋交通、經濟、衛生保健、教育和人類服務等領域的數據以及多個應用的數據源[9]。
2010年,總統科學技術顧問委員會在其《設計數字化未來:聯邦資助的網絡和信息技術研究與開發(Designing a Digital Future:Federally Funded Research and Development in Networking and Information Technology)》報告中明確闡述了美國即將實施大數據戰略。2012年,奧巴馬政府啟動“大數據研究和發展計劃(Big Data Research and Development Initiative)”,總投資為2億美元,計劃涉及80多個合作項目,要求多個聯邦部門共同參與,包括白宮科技政策辦公室,國家科學基金會,國家衛生研究院,國防部,國防高級研究項目局,能源、健康和人類服務部以及美國地質調查局。該計劃明確要求產業界、研究型大學和非營利組織與聯邦政府合作,最大限度地利用大數據帶來的機遇[10]。
由上述發展趨勢及其政策要求可見,當前美國無論是政府部門、商業界,還是學術界,都已經充分認識到大數據在推動經濟社會發展和增進人類福祉等方面的潛在價值。美國已從總統層面開始推動各個部門之間積極開展合作,同時,美國政府也與IBM、Aamazon、Google等公司展開合作,從技術研發、產業應用等方面共同推動大數據的發展。因此,可以說,大數據的潛在價值已促使利益相關者之間廣泛構建和發展溝通。
1.2 大數據技術應用帶來挑戰和問題
盡管跨部門和跨界政策環境已經基本具備,但是在具體的實施過程中卻面臨著諸多問題與挑戰,主要表現為兩個方面:一是在大數據的幾大關鍵問題上尚未達成共識。NIST大數據公共工作小組(Big Data Public Working Group,NBD-PWG)認為,未達成共識的問題包括:1)哪些屬性可以用來界定大數據解決方案;2)大數據與傳統數據環境的應用流程有何區別;3)大數據環境的基本特征是什么;4)新環境如何與當前部署的體系結構進行集成;5)為加速部署強大的大數據解決方案,需要解決哪些核心科學、技術和標準化問題帶來的挑戰。
二是尚未形成足夠的大數據應用能力[11]。美國白宮科技政策辦公室前主任霍爾德倫(John P Holdren)認為:美國擁有大量善于生成數據的機構,但作為一個國家,還沒有充分發揮我們的能力來共享潛在競爭資源、協作分析與分享經驗[12]。不同于其他物質型的國家資產,他們所對應的實現場景和所具備的價值是清晰可見的,大數據屬于信息導向型資產,需要多元化的利益主體共同參與,通過持續的試驗與探索才可以發現其潛在的應用價值,因此,需要足夠的協作經驗與頂層指導為大數據戰略的開展保駕護航。
根據2012年“大數據研究和發展計劃”要求,NIST開始著手制定大數據互操作性框架,以促進大數據有關專業力量間的合作,進一步確保大數據的安全和有效應用。2013年1月15~17日,NIST舉辦了“云與大數據論壇”,專門成立了大數據公共工作組負責開發大數據互操作性框架。2016年5月11日,NIST正式發布了大數據互操作性框架1.0版本,將美國的大數據發展分為3個階段,不同階段的工作任務對應參考框架的特定環節。2018年3月23日,NIST又對大數據互操作性框架進行了更新,明確指出當前美國大數據的發展已步入第二階段[13]。
2 核心概念界定
要在大數據關鍵領域達成共識,確保利益相關者合作項目的順利開展,必然要進行核心概念的界定。因此,該框架的目標之一是形成基于共識的理論范式,為實際操作的交流消除誤區,同時也促進對大數據技術有更深刻的理解與認知,擴大其影響力。
盡管大數據具有很多特征,但是大體量(Volume)、多樣性(Variety)、時效性(Velocity)和可變性(Variability)的“4V”特征真正推動了新型數據密集型并行架構的產生,并且決定了對大數據系統的整體設計和大數據生命周期模型的構建。基于大數據的“4V”特征,NIST將大數據界定為:“大數據由大量數據集組成,主要集中在數量、種類、速度和/或可變性等特征上,這些數據集通過建設可擴展架構可實現高效的存儲、操作和分析。”
值得注意的是,NIST在概念界定中強調了各個特征之間的相互作用關系,同時重點關注了為了滿足所需性能和成本效率需求可以使系統架構變得可擴展。“系統架構可拓展”通常被描述為垂直或水平拓展兩種思路,垂直拓展意味著增加處理速度、存儲和內存的系統參數,以獲得更高的性能。這種方法受到物理能力的限制,其改進需要引入更復雜的元素(例如,硬件和軟件),無疑會增加現實過程中的時間和經濟成本。另一種方法是使用水平擴展,即利用集成的分布式單個資源作為單個系統,而這種橫向擴展才是大數據革命的核心。同時,NIST也將與大數據系統設計相關的子概念進行了界定,譬如,大數據范例(Big Data Paradigm)包括跨水平耦合的獨立資源分布數據系統,旨在提供有效處理大量數據集所需的可擴展性[14]。