av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

大數(shù)據(jù)技術(shù)在煙草數(shù)據(jù)中心的應(yīng)用

來(lái)源:期刊VIP網(wǎng)所屬分類:計(jì)算機(jī)信息管理時(shí)間:瀏覽:

  這篇煙草局職稱論文發(fā)表了大數(shù)據(jù)技術(shù)在煙草數(shù)據(jù)中心的應(yīng)用,很多企業(yè)都積累了海量的數(shù)據(jù),從而更好的為企業(yè)自身發(fā)展和客戶服務(wù)提供幫助,對(duì)于煙草中心這樣的企業(yè)來(lái)說,大數(shù)據(jù)同樣重要,通過大數(shù)據(jù)的使用,展現(xiàn)了大數(shù)據(jù)技術(shù)帶來(lái)的遠(yuǎn)超傳統(tǒng)技術(shù)平臺(tái)的靈活性以及對(duì)于大數(shù)據(jù)量查詢的快速響應(yīng)能力。

中國(guó)煙草科學(xué)

  關(guān)鍵詞:煙草局職稱論文,數(shù)據(jù)中心,大數(shù)據(jù)

  1.大數(shù)據(jù)技術(shù)現(xiàn)狀

  當(dāng)前許多企業(yè)都已基本實(shí)現(xiàn)了信息化建設(shè),企業(yè)積累了海量數(shù)據(jù)。同時(shí)企業(yè)間的競(jìng)爭(zhēng)日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準(zhǔn)確、快速和個(gè)性化地為客戶提供產(chǎn)品及服務(wù)。而大數(shù)據(jù)技術(shù)能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無(wú)法獲知的價(jià)值和模式,幫助企業(yè)更加迅速、科學(xué)、準(zhǔn)確地進(jìn)行決策和預(yù)測(cè)。

  1.1大數(shù)據(jù)技術(shù)現(xiàn)狀

  廣大企業(yè)的迫切需求反之也促進(jìn)了大數(shù)據(jù)技術(shù)的飛速發(fā)展,涌現(xiàn)出了諸如Hadoop、Spark等實(shí)用的架構(gòu)平臺(tái)。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,允許使用簡(jiǎn)單的編程模型進(jìn)行跨計(jì)算機(jī)集群的分布式大數(shù)據(jù)處理。通過使用專門為分布式計(jì)算設(shè)計(jì)的文件系統(tǒng)HDFS,計(jì)算的時(shí)候只需要將計(jì)算代碼推送到存儲(chǔ)節(jié)點(diǎn)上,即可在存儲(chǔ)節(jié)點(diǎn)上完成數(shù)據(jù)本地化計(jì)算。因此,Hadoop實(shí)現(xiàn)了高可靠性、高可拓展性、高容錯(cuò)性和高效性,可以輕松應(yīng)對(duì)PB級(jí)別的數(shù)據(jù)處理。

  1.2大數(shù)據(jù)技術(shù)對(duì)煙草數(shù)據(jù)中心建設(shè)的影響

  當(dāng)前,煙草企業(yè)基于多年的信息化建設(shè)已經(jīng)積累了海量數(shù)據(jù),同時(shí)每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下,需要在數(shù)據(jù)采集、存儲(chǔ)和運(yùn)算方面采用與以往完全不同的計(jì)算存儲(chǔ)模式,這就不可避免地需要采用大數(shù)據(jù)技術(shù)。同時(shí),除了購(gòu)進(jìn)單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外,還產(chǎn)生越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術(shù),對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理,可為人工判斷和機(jī)器學(xué)習(xí)大大縮減范圍。對(duì)海量數(shù)據(jù)以及非結(jié)構(gòu)化的信息進(jìn)行分析統(tǒng)計(jì),僅僅依靠傳統(tǒng)的技術(shù)手段很難實(shí)現(xiàn),只有引入大數(shù)據(jù)技術(shù)才能充分的將所有的數(shù)據(jù)資源利用起來(lái),成為企業(yè)決策的助力。

  2.江蘇煙草數(shù)據(jù)中心應(yīng)用現(xiàn)狀

  2.1江蘇煙草數(shù)據(jù)中心體系架構(gòu)

  目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個(gè)部分為核心,構(gòu)建了一套完整的數(shù)據(jù)中心架構(gòu)。一體化數(shù)據(jù)中心是整個(gè)數(shù)據(jù)中心最核心的部分。通過數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)存儲(chǔ)、ETL工具等組成部分,構(gòu)建了業(yè)務(wù)數(shù)據(jù)的收集、加工、存儲(chǔ)、分發(fā)的總體架構(gòu)。建立了按ODS(SODS、UODS)、DW、DM三層結(jié)構(gòu)設(shè)計(jì)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)。一體化數(shù)據(jù)管理通過主數(shù)據(jù)管理、信息代碼管理、ESB平臺(tái)構(gòu)建了企業(yè)主數(shù)據(jù)收集、標(biāo)準(zhǔn)化、同步分發(fā)過程。結(jié)合指標(biāo)管理,全面管控企業(yè)的公用基礎(chǔ)信息。通過數(shù)據(jù)質(zhì)量管理,全面有效管控?cái)?shù)據(jù)質(zhì)量。通過數(shù)據(jù)服務(wù)管理,有效提升數(shù)據(jù)中心的對(duì)外服務(wù)能力與水平。通過元數(shù)據(jù)管理來(lái)管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過構(gòu)建移動(dòng)信息、業(yè)務(wù)分析、數(shù)據(jù)挖掘三大模塊,針對(duì)性解決當(dāng)前不同人員的決策、管理以及操作需求,發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術(shù)、平臺(tái)優(yōu)勢(shì)。通過移動(dòng)信息模塊為各級(jí)領(lǐng)導(dǎo)提供決策支持;通過業(yè)務(wù)分析模塊為業(yè)務(wù)人員的日常工作提供支撐;通過數(shù)據(jù)挖掘模塊,發(fā)掘數(shù)據(jù)所蘊(yùn)含的隱性價(jià)值。基于上述一整套架構(gòu)的支撐,目前數(shù)據(jù)中心構(gòu)建了全省范圍的數(shù)據(jù)集成、交換體系,一方面提升了全省基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質(zhì)量,另一方面為在建業(yè)務(wù)系統(tǒng)的實(shí)施、已有系統(tǒng)的改造提供了標(biāo)準(zhǔn)化的高質(zhì)量數(shù)據(jù)保障。

  2.2大數(shù)據(jù)技術(shù)的應(yīng)用場(chǎng)景分析

  隨著江蘇數(shù)據(jù)中心的不斷運(yùn)行,一些基于傳統(tǒng)技術(shù)架構(gòu)的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對(duì)于大數(shù)據(jù)量數(shù)據(jù)的查詢需求。基于傳統(tǒng)技術(shù)架構(gòu)的查詢功能響應(yīng)較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計(jì)分析應(yīng)用的數(shù)據(jù)結(jié)構(gòu)大多是預(yù)先定義好的,面對(duì)靈活的非傳統(tǒng)的統(tǒng)計(jì)查詢需求難以支撐,需要進(jìn)行額外的加工處理。江蘇煙草數(shù)據(jù)中心結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)特性,引入Hadoop平臺(tái)以及Impala等工具,搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái),以補(bǔ)充基于傳統(tǒng)技術(shù)架構(gòu)的功能不足,并為未來(lái)進(jìn)一步發(fā)展建設(shè)基于大數(shù)據(jù)技術(shù)和云環(huán)境的數(shù)據(jù)中心做好準(zhǔn)備。

  3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)實(shí)現(xiàn)

  3.1設(shè)計(jì)思路及架構(gòu)

  基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)是在現(xiàn)有數(shù)據(jù)中心的建設(shè)成果之上,以數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)為基礎(chǔ),以Hadoop、Hive、Impala等大數(shù)據(jù)技術(shù)工具為手段,以簡(jiǎn)單靈活、快速高效的查詢展現(xiàn)為目標(biāo),建立的數(shù)據(jù)查詢分析支持平臺(tái)。

  3.2技術(shù)方案

  自定義數(shù)據(jù)查詢平臺(tái)的建設(shè)主要涉及數(shù)據(jù)存儲(chǔ)架構(gòu)、后臺(tái)數(shù)據(jù)加工準(zhǔn)備、前端展現(xiàn)三塊內(nèi)容。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)存儲(chǔ)分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關(guān)的元數(shù)據(jù)存儲(chǔ),另一部分則是查詢所需的各種統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)。元數(shù)據(jù)的存儲(chǔ)根據(jù)元數(shù)據(jù)庫(kù)的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫(kù)的元數(shù)據(jù)存儲(chǔ)。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù),以及前端自定義查詢需要定義的權(quán)限、數(shù)據(jù)源、表、列和表列關(guān)系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲(chǔ)。這部分存儲(chǔ)的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)則是使用Hadoop的HDFS實(shí)現(xiàn)的。根據(jù)Hadoop平臺(tái)架構(gòu),自定義數(shù)據(jù)查詢平臺(tái)的HDFS建立在6臺(tái)虛擬主機(jī)構(gòu)建的集群上的。其中:2臺(tái)虛擬主機(jī)作為NameNode,一臺(tái)為主節(jié)點(diǎn),另一臺(tái)為備份節(jié)點(diǎn);其余4臺(tái)虛擬主機(jī)都作為DataNode用于存儲(chǔ)數(shù)據(jù)。所有數(shù)據(jù)將會(huì)統(tǒng)一分塊自動(dòng)分配存儲(chǔ)到4個(gè)DataNode上。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)加工,是通過開源ETL工具KETTLE實(shí)現(xiàn)的。通過KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)集市中讀取需要的數(shù)據(jù),根據(jù)自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)模型定義對(duì)數(shù)據(jù)進(jìn)行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺(tái)的前端展現(xiàn)功能,主要是基于JSP技術(shù)實(shí)現(xiàn)頁(yè)面開發(fā),通過JDBC或者ODBC對(duì)后臺(tái)Mysql數(shù)據(jù)庫(kù)進(jìn)行訪問。使用者在查詢頁(yè)面中組織定義查詢的內(nèi)容,查詢服務(wù)自動(dòng)根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內(nèi)容拼接轉(zhuǎn)換成為查詢SQL,之后通過Impala執(zhí)行查詢SQL對(duì)HDFS文件系統(tǒng)中的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行查詢。

  3.3系統(tǒng)實(shí)現(xiàn)效果

  利用大數(shù)據(jù)技術(shù),自定義數(shù)據(jù)查詢平臺(tái)較好地解決了目前數(shù)據(jù)中心所面對(duì)的問題,滿足了使用人員對(duì)于大數(shù)據(jù)量以及分析靈活性的需求。面對(duì)使用人員層出不窮的查詢需求,自定義數(shù)據(jù)查詢平臺(tái)通過預(yù)先梳理、分類定義各種維度以及統(tǒng)計(jì)指標(biāo)。使用者可以自由的根據(jù)實(shí)際需求選擇分析所需的維度及統(tǒng)計(jì)指標(biāo),同時(shí)還可以基于這些基礎(chǔ)的內(nèi)容更進(jìn)一步自定義過濾條件以及計(jì)算公式,并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面,自定義查詢平臺(tái)相比傳統(tǒng)架構(gòu)的查詢功能有了較大提升。

  4.結(jié)束語(yǔ)

  大數(shù)據(jù)技術(shù)的發(fā)展方興未艾,應(yīng)用前景無(wú)比廣闊,對(duì)各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設(shè)既要看到大數(shù)據(jù)技術(shù)未來(lái)的前景,更需要明確地認(rèn)識(shí)到大數(shù)據(jù)平臺(tái)的建設(shè)并非一朝一夕,需要有明確而長(zhǎng)遠(yuǎn)的規(guī)劃,不斷完善數(shù)據(jù)環(huán)境建設(shè)、云計(jì)算環(huán)境的構(gòu)建以及數(shù)據(jù)服務(wù)的擴(kuò)展。

  參考文獻(xiàn)

  [1]陳鵬.大數(shù)據(jù)時(shí)代下的信息安全問題研究[J].電子制,2015,18:48

  [2]劉憶魯,劉長(zhǎng)銀,侯艷權(quán).大數(shù)據(jù)時(shí)代下的信息安全問題論述[J].信息通信.2016,181-182

  [3]崔洪剛,唐浩,汪永超.大數(shù)據(jù)時(shí)代下的信息安全問題研究[J].通訊世界,2016,07:239

  作者:郭文卓 王子豪 單位:中國(guó)煙草總公司江蘇省公司

  推薦閱讀:《中國(guó)煙草科學(xué)》《中國(guó)煙草科學(xué)》(雙月刊)創(chuàng)刊于1979年,是由中華人民共和國(guó)農(nóng)業(yè)部主管、中國(guó)農(nóng)業(yè)科學(xué)院煙草研究所、中國(guó)煙草總公司青州煙草研究所主辦的學(xué)術(shù)類科技期刊。

主站蜘蛛池模板: 筠连县| 兴山县| 芦山县| 鄂托克前旗| 兴安县| 仁布县| 邵阳市| 芦溪县| 锦州市| 远安县| 鲜城| 专栏| 肇源县| 天等县| 缙云县| 新化县| 阜宁县| 衡水市| 偏关县| 玛沁县| 灵寿县| 陆河县| 阜南县| 正蓝旗| 岳西县| 百色市| 胶南市| 瑞丽市| 桃园市| 抚松县| 阿克陶县| 油尖旺区| 荃湾区| 横山县| 讷河市| 新巴尔虎右旗| 土默特右旗| 紫金县| 上虞市| 黄大仙区| 法库县|