期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒有后顧之憂
來源:期刊VIP網(wǎng)所屬分類:綜合論文時(shí)間:瀏覽:次
摘 要:在大數(shù)據(jù)的整個(gè)生命周期中,針對(duì)數(shù)據(jù)流通共享的過程,已經(jīng)有了一些安全技術(shù)進(jìn)行保障,如數(shù)據(jù)加密技術(shù)、數(shù)據(jù)脫敏技術(shù)。但是,由于數(shù)據(jù)的提供方和使用方通常并不在同一系統(tǒng)中進(jìn)行管理,存在數(shù)據(jù)資產(chǎn)跨域流通的情況。如何對(duì)跨域流通共享的數(shù)據(jù)資產(chǎn)進(jìn)行確權(quán),并對(duì)數(shù)據(jù)發(fā)生安全事件時(shí)進(jìn)行泄露溯源,是大數(shù)據(jù)流通共享過程中亟需解決的安全問題。文章通過將數(shù)據(jù)加密技術(shù)、數(shù)據(jù)脫敏技術(shù)、數(shù)字水印技術(shù)和區(qū)塊鏈技術(shù)等進(jìn)行結(jié)合,提出了一種體系化的安全的改進(jìn)方案,能夠解決在數(shù)據(jù)跨域傳輸后,確保數(shù)據(jù)被安全合規(guī)的使用。
關(guān)鍵詞:大數(shù)據(jù);區(qū)塊鏈;數(shù)據(jù)流通共享;模糊哈希;數(shù)據(jù)確權(quán)
1 引言
大數(shù)據(jù)時(shí)代背景下,由于供需方所有的數(shù)據(jù)資源的不均衡、數(shù)據(jù)算力的差異性,為減少數(shù)據(jù)孤島現(xiàn)象,將數(shù)據(jù)轉(zhuǎn)化為知識(shí)和價(jià)值,實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新和增值,需要進(jìn)行各方數(shù)據(jù)的流通和共享。但在此過程中,由于數(shù)據(jù)安全相關(guān)的法律法規(guī)的不健全[1]、企業(yè)數(shù)據(jù)安全風(fēng)險(xiǎn)意識(shí)缺乏和數(shù)據(jù)安全技術(shù)能力的不足,使得在進(jìn)行政府與政府之間、政府與企業(yè)之間、企業(yè)與企業(yè)之間的數(shù)據(jù)流通和共享過程中,可能發(fā)生數(shù)據(jù)泄漏、數(shù)據(jù)竊取和濫用等問題,危害了國家社會(huì)利益,侵犯了公民隱私[2,3]。
為從技術(shù)層面上保障數(shù)據(jù)安全的流通和共享,促進(jìn)大數(shù)據(jù)的合法合規(guī)使用,減少數(shù)據(jù)安全事件發(fā)生,傳統(tǒng)的數(shù)據(jù)脫敏和加解密技術(shù)的應(yīng)用,能夠在防止敏感信息泄漏和數(shù)據(jù)竊取方面起到一定作用[4,5],但并不能防止數(shù)據(jù)濫用和非法傳播。通過引入數(shù)字水印技術(shù),配合區(qū)塊鏈建設(shè)可信任的使用網(wǎng)絡(luò),形成體系化的數(shù)據(jù)安全解決方案,可明顯地保障數(shù)據(jù)的安全流通和共享。
2 大數(shù)據(jù)流通共享現(xiàn)狀
2.1 大數(shù)據(jù)流通共享定義
大數(shù)據(jù)流通共享是指將企業(yè)、政府等信息系統(tǒng)中存儲(chǔ)的大數(shù)據(jù)作為流通和共享對(duì)象,按照數(shù)據(jù)供需各方約定的規(guī)則、協(xié)議等,將數(shù)據(jù)從數(shù)據(jù)所有方向數(shù)據(jù)需求方提供分析使用的過程[6]。數(shù)據(jù)的流通共享可使數(shù)據(jù)脫離數(shù)據(jù)所有方,從其原有場(chǎng)景中進(jìn)入一個(gè)目的性更強(qiáng)的應(yīng)用場(chǎng)景,實(shí)現(xiàn)數(shù)據(jù)價(jià)值的變現(xiàn)。因此,數(shù)據(jù)的流通共享是創(chuàng)造數(shù)據(jù)價(jià)值關(guān)鍵的一環(huán),它通過變更數(shù)據(jù)原有的使用場(chǎng)景和使用目的,將數(shù)據(jù)從產(chǎn)生端轉(zhuǎn)移到使用端,實(shí)現(xiàn)了數(shù)據(jù)資源的優(yōu)化和數(shù)據(jù)價(jià)值的釋放。
2.2 大數(shù)據(jù)流通共享方式
本文定義的流通共享分為原始數(shù)據(jù)和結(jié)果數(shù)據(jù)的流通共享。設(shè)有數(shù)據(jù)提供方S和數(shù)據(jù)需求方A、B、C,如圖1所示。S從本地?cái)?shù)據(jù)倉庫抽取數(shù)據(jù)并傳至A、B、C對(duì)應(yīng)的數(shù)據(jù)服務(wù)器DB-Sa、DB-Sb、DB-Sc中。
方式一:S對(duì)A通過直接存儲(chǔ)對(duì)接的形式提供原始數(shù)據(jù),如通過FTP、HDFS,將原始數(shù)據(jù)從DB-Sa傳輸至DB-A。在此種方式下,數(shù)據(jù)通常以離線或批量的文件形式進(jìn)行傳輸,有時(shí)也可以是庫對(duì)庫的直接同步傳輸。
方式二:S對(duì)B提供數(shù)據(jù)資源目錄,如數(shù)據(jù)開放平臺(tái),B通過登錄訪問S的數(shù)據(jù)開放平臺(tái),選擇所需的原始數(shù)據(jù)資源,并進(jìn)行訪問獲取至DB-B。B獲取原始數(shù)據(jù)的方式可能是離線文件的形式,如CSV、XLS等文件,也可能是API調(diào)用的形式,查詢單條數(shù)據(jù)結(jié)果。
方式三:S對(duì)C不直接提供原始數(shù)據(jù)的傳輸,而是在內(nèi)部提供數(shù)據(jù)分析平臺(tái),由C通過數(shù)據(jù)分析平臺(tái)在S所控制的區(qū)域內(nèi),完成數(shù)據(jù)分析任務(wù)后,將分析結(jié)果取回至DB-C。
在三種數(shù)據(jù)流通方式中,方式三為結(jié)果數(shù)據(jù)的流通。對(duì)于結(jié)果數(shù)據(jù),一般認(rèn)為已脫離了原始數(shù)據(jù)所具有的表現(xiàn)形式,并且對(duì)特定數(shù)據(jù)需求方和特定應(yīng)用具有針對(duì)性,因此從數(shù)據(jù)資產(chǎn)的所有權(quán)上來講,結(jié)果數(shù)據(jù)的所有權(quán)應(yīng)屬于數(shù)據(jù)使用方。而方式一和方式二的情況,流通的數(shù)據(jù)為原始數(shù)據(jù),數(shù)據(jù)的所有權(quán)屬于數(shù)據(jù)提供方。
2.3 存在的安全性問題
由于數(shù)據(jù)資產(chǎn)不同于其他實(shí)物資產(chǎn),存在易于復(fù)制、易于傳播、易于加工等特性,從而造成了原始數(shù)據(jù)在流通共享過程中出現(xiàn)一些安全問題,包括數(shù)據(jù)資產(chǎn)確權(quán)的問題和數(shù)據(jù)泄露后溯源的問題。
(1)數(shù)據(jù)資產(chǎn)確權(quán)問題:由于數(shù)據(jù)采集源豐富、易于編輯的原因,使得在流通共享后無法清晰分辨數(shù)據(jù)的所有權(quán)。如S將其所有的原始數(shù)據(jù)傳輸給A后,A可以否認(rèn)原始數(shù)據(jù)來自S。即使S的本地留存有數(shù)據(jù)傳輸?shù)娜罩荆侵行幕挠涗洿嬖诒籗修改的可能,因此無法從完全合規(guī)的層面確認(rèn)數(shù)據(jù)資產(chǎn)的所有權(quán)。
(2)數(shù)據(jù)泄露溯源問題:按照供需雙方的協(xié)議約定,數(shù)據(jù)應(yīng)當(dāng)限制在一定范圍內(nèi)使用,并保證被有限次使用。但由于無法對(duì)需求方的使用進(jìn)行安全管控,因此可能存在數(shù)據(jù)被二次售賣的情況。如A可以違背協(xié)議,將S的數(shù)據(jù)轉(zhuǎn)售給其他廠商,造成數(shù)據(jù)無法追溯。
針對(duì)上述問題,閆樹[7]等人提出將區(qū)塊鏈技術(shù)應(yīng)用于數(shù)據(jù)共享,王海龍[8]等人也給出了一種基于區(qū)塊鏈的大數(shù)據(jù)確權(quán)方案,通過利用區(qū)塊鏈的防篡改特性,實(shí)現(xiàn)數(shù)據(jù)流通記錄的可信存證。吳健[9]等人提出通過結(jié)合區(qū)塊鏈和數(shù)字水印技術(shù),實(shí)現(xiàn)了一種在版權(quán)保護(hù)場(chǎng)景下的應(yīng)用。但是,上述方案都是基于數(shù)據(jù)的強(qiáng)密碼哈希的一致性保證的,一旦鏈下的數(shù)據(jù)發(fā)生微小改變,如增刪部分內(nèi)容的情況,則由于哈希值的變化將造成方案中鏈上鏈下無法對(duì)數(shù)據(jù)進(jìn)行追溯和確權(quán)的現(xiàn)象。
3 改進(jìn)的流通共享方案
3.1 模糊哈希
模糊哈希算法[10,11]是一種基于數(shù)據(jù)內(nèi)容的分片哈希算法(Context Trigger Piecewise Hash,CTPH),算法涉及到一個(gè)弱哈希算法和一個(gè)強(qiáng)哈希算法。弱哈希算法主要用于基于數(shù)據(jù)內(nèi)容計(jì)算分片的大小,然后由強(qiáng)哈希算法對(duì)指定分片的內(nèi)容進(jìn)行計(jì)算,再將每片數(shù)據(jù)內(nèi)容的哈希值中的部分?jǐn)?shù)據(jù)拼接后,與分片大小等條件共同構(gòu)成最終結(jié)果。本方案使用模糊哈希的一種實(shí)現(xiàn)—Ssdeep用于哈希值的計(jì)算和相似度判斷,表1為對(duì)含有10000條數(shù)據(jù)記錄的文件,分別進(jìn)行了以100條記錄為單位的順序改變、記錄增加和記錄刪除的情況下與原始數(shù)據(jù)進(jìn)行相似度對(duì)比的結(jié)果。
推薦閱讀:大數(shù)據(jù)時(shí)代金華市區(qū)域科技資源共享的路徑與實(shí)踐