av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

關于AI算力問題的思考

來源:期刊VIP網所屬分類:計算機信息管理時間:瀏覽:

  【摘 要】人工智能技術已經成為國家發展戰略。目前人工智能技術對算力需求與集成電路所能提供支持的差距日益加大,人工智能信息處理平臺需要在處理速度、復雜度和功耗等方面有數量級的改善,才能滿足人工智能技術在軍民領域的應用,因而需要尋求新穎的技術路線解決人工智能的算力問題。介紹了一種顛覆性的技術——概率計算方法,該技術采用了一種類腦的非精確的模糊計算模式。相關研究工作表明,在現有工藝條件下該技術能夠滿足人工智能系統對處理速度、復雜度和功耗的要求,可以支持未來人工智能系統應用的要求。

  【關鍵詞】人工智能;計算能力;概率計算

智能制造

  《智能制造》面向國內外公開發行.雜志以提高企業應用水平,追蹤技術研發熱點。

  1 引言

  人類世界的信息業務量正在呈爆發式的增長,傳統的數字信號處理和統計方式已經難以滿足未來的數據和信息處理的需求[1]。在此背景下,出現了一批以機器學習算法為代表的處理算法和系統,來協助人類處理“大數據”時代下的海量信息與數據[2]。同時,隨著機器算法的不斷發展優化,計算機處理能力的突飛猛進,機器學習算法的能力越來越強,完成的功能越來越強大。

  最近有關機器學習最出名的案例就是Google的AlphaGo與人類進行的圍棋人機大戰,AlphaGo完勝了人類頂尖棋手,展現出了機器學習算法和系統的強大分析和處理能力[3-4]。因此,將機器學習算法應用到目前的數字信號處理系統中,這將是未來重要的一個發展和研究方向[5-6],有很高的實用價值和戰略價值。

  而基于機器學習的大數據處理算法和系統需要極高的計算復雜度,因此對后摩爾時代的計算處理器和芯片提出了巨大的挑戰。當前,隨著集成電路工藝的發展,芯片的特征尺寸已經接近1 nm的界限[7]。這個界限在工業界看來是基于硅工藝的芯片發展的極限,如若不能突破這個極限,未來的芯片生產和制造將舉步維艱。同時一些新興的技術,如量子計算、碳納米管等,真正進入實用還有很長的路需要探索[8]。

  推動AI技術發展和應用的三大助力是:大數據、算法和算力。很多企業和高校的研究重點都集中在大數據和算法上面,只有Intel、Nvidia等芯片供應商和HP、浪潮等服務器供應商在對算力問題進行研究。本文將簡單分析一下對AI算力研究的思考。

  2 算力問題目前的技術路線

  近年來深度學習的處理芯片蓬勃發展。大致來看可以分為以下幾種:

  (1)GPU:英偉達以其大規模的[23]并行GPU和專用GPU編程框架CUDA主導著當前的深度學習市場[24]。GPU在處理圖形的時候,從最初的設計就能夠執行并行指令,從一個GPU核心收到一組多邊形數據,到完成所有處理并輸出圖像可以做到完全獨立[25]。由于最初GPU就采用了大量的執行單元,這些執行單元可以輕松地加載并行處理,而不像CPU那樣的單線程處理。另外,現代的GPU也可以在每個指令周期執行更多的單一指令。所以GPU比CPU更適合深度學習的大量矩陣、卷積運算的需求[26]。

  (2)NPU:中科院研制的人工智能芯片——寒武紀1號(DianNao,面向神經網絡的原型處理器結構)、寒武紀2號(DaDianNao,面向大規模神經網絡)、寒武紀3號(PuDianNao,面向多種機器學習算法)[27]。CPU、GPU與NPU相比,會有百倍以上的性能或能耗比差距,以寒武紀團隊和Inria聯合發表的DianNao論文為例,DianNao為單核處理器,主頻為0.98 GHz,峰值性能達每秒4 520億次神經網絡基本運算,65 nm工藝下功耗為0.485 W,面積3.02 mm2。

  在若干代表性神經網絡上的實驗結果表明[28]:DianNao的平均性能超過主流CPU核的100倍,但是面積和功耗僅為1/10,效能提升可達三個數量級;DianNao的平均性能與主流GPU相當,但面積和功耗僅為主流GPU百分之一量級。另有IBM主導的SyNAPSE巨型神經網絡芯片(類人腦芯片)TrueNorth,在70 mW的功率上提供100萬個神經元內核、2.56億個突觸內核以及4 096個神經突觸內核,神經網絡和機器學習負載超越了馮·諾依曼架構[29]。

  (3)TPU:張量處理單元(Tensor Processing Unit, TPU)。這是一款由Google開發的,為了機器學習而定制的ASIC,并且經過了TensorFlow的調教。TPU已經在Google數據中心運行了一年多,實踐表明它可以為機器學習帶來相當出色的每瓦特性能表現。TPU是專為機器學習應用而定制的,它的寬容度更高,可以降低計算的精度(所需的晶體管操作也更少)[30]。

  (4)FPGA:在2017現場可編程門陣列國際大會(ISFPGA)上,來自英特爾加速器架構實驗室(AAL)的Eriko Nurvitadhi博士展示了有關“在加速新一代深度神經網絡方面,FPGA可否擊敗GPU”的研究。該項研究使用最新的DNN算法在兩代英特爾FPGA(Arria 10與Stratix 10)與目前最高性能的英偉達Titan X Pascal GPU之間做了對比評估。和高端GPU相比,FPGA的能量效率(性能/功率)會更好,而且它們還可以提供頂級的浮點運算性能(Floating-Point Performance)。FPGA技術正在快速發展。即將上市的Intel Stratix 10 FPGA能提供超過5 000個硬浮點單元(DSP),超過28 MB的片上內存(M20K),同時整合了高帶寬內存(最高可達4×2

  50 GB/s/stack或1 TB/s),以及由新的HyperFlex技術改善了的頻率。英特爾FPGA能提供全面的軟件生態系統——從低級硬件描述語言到OpenCL、C和C++的高級軟件開發環境。使用MKL-DNN庫,英特爾將進一步將FPGA與英特爾機器學習生態系統和諸如Caffe這樣的傳統架構結合起來。Intel Stratix 10基于英特爾的14 nm技術開發,擁有FP32吞吐量上9.2 TFLOP/s的峰值速度。相比之下,最新的Titan X Pascal GPU提供FP32吞吐量11 TLOP/s的速度[31]。

  綜上所述,目前工業界解決AI算力有三個方法,通用平臺、半定制平臺和定制平臺。這三種平臺的特性對比如表1所示。

  從表1可以看出,通用平臺在開發軟件環境支撐和大規模部署方面有得天獨厚的優勢,成為AI應用落地和云端部署的主力。因此,當今絕大多數的AI示范工程和云端部署都采用GPU和CPU服務器或服務器陣列完成。然而通用平臺在計算效率和功率效率與半定制平臺、定制平臺有數量級的差距。面向嵌入式應用、移動設備應用,通用平臺則難以支撐。對于云端應用,當越來越多的AI應用被部署到云端,功率保障可能會成為其瓶頸。如正在研發的“天河3”超算平臺(該平臺依然采用CPU+GPU架構),其功率可能達到百萬千瓦量級。CMOS工藝已經接近理論極限,而以量子計算為代表的新型計算平臺距實際應用還有很長的道路。因此,通過工藝和計算介質進步解決目前通用平臺功率效率問題不是十分現實,未來可能會出現發電量不足以支持全社會大規模AI應用的困境。

  半定制和定制平臺對于嵌入式應用和移動設備應用非常友好,可以成為未來在嵌入式或移動設備實現本地AI應用的主力。由于這些平臺在功率效率和計算效率方面的優勢,在大規模云端部署也有一定的空間。如阿里云和亞馬遜都采用了以FPGA陣列為核心的計算平臺。面向半定制和定制平臺的大規模部署需要解決軟件開發環境支持的問題。現在的AI應用開發已經形成以開源的開發環境為主流的情況,而且這些開發環境支持GPU、CPU平臺以及陣列平臺。因此,需要解決通用開發環境面向FPGA陣列部署的軟件中間件問題,即利用Python設計的AI應用可以一鍵部署到FPGA陣列平臺上,而不需要AI設計者面對硬件描述語言的開發問題。這樣才能夠很好地解決AI應用在以FPGA陣列為代表的半定制平臺上大規模部署的問題。

  3 基于概率計算方法的解決方法

  計算效率和功率效率是AI算力面臨的永恒的挑戰,AI應用對算力的需求每3.5個月增加一倍,而基礎電路工藝已經進入后摩爾時代,AI系統應用在算力上的“鴻溝”將越來越大。隨著集成電路工藝的發展,芯片的特征尺寸已經接近1 nm的界限,如若突破這個極限,未來的芯片生產和制造將舉步維艱。同時一些新興的技術,如量子計算、碳納米管等,真正進入實用還有很長的路需要探索。因此,目前迫切需求一種新穎數值系統,即數的表征和計算模式來打破傳統密集計算的不足,同時該方法可以在現有的集成電路工藝條件下實現且兼容未來的集成電路工藝。

  在此背景下,基于概率計算的新型計算方式應運而生。2010年,當基于概率計算的圖像處理芯片橫空出世后,概率計算的發展就開始突飛猛進了,并且于當年被《美國科技評述》評為未來十大最有前景的技術。

  此后,MIT的研究團隊更是提出了概率計算是繼云計算之后最有潛力的一項技術。概率計算中最基本的運算單元采取一種非精確的近似計算的模式打破了傳統電路的實現方式,可以對傳統的算法進行向概率域的重新映射,使其符合滿足概率計算的模式。概率計算再通過誤差分析和建模,設計各種系統參數,使其滿足系統的需求,最后根據設計的算法映射到實際的電路架構中,完成算法的最終實現。其基本的原理就是利用大量的非精確計算模擬出復雜的系統功能,這其實和人類強大的大腦工作原理不謀而合。人類大腦就是基于大量的直觀和非精確的計算方式來處理當今信息社會的海量數據。而AI的算法也是模擬人類的大腦,在此環境下概率計算應運而生,因此概率計算能夠非常好地乘載復雜的AI算法。

  據悉,Google AlphaGo所使用的處理器就是基于一種非精確的概率計算模式。相信基于概率計算和AI的結合能夠使得未來的數據處理和信息分析達到一個新的高度。如今人工智能的一個關鍵障礙是——給計算機提供的自然數據大多是非結構化和“嘈雜”的數據。Intel公司認為,概率計算可以使計算機在處理大規模的概率時更有效率,這是將當前系統和應用程序從先進的計算輔助工具轉變為理解和決策的智能合作伙伴的關鍵。

主站蜘蛛池模板: 酒泉市| 拜城县| 大连市| 博罗县| 济源市| 江门市| 肇东市| 富平县| 陇南市| 广州市| 大港区| 金门县| 东台市| 镇沅| 昔阳县| 金寨县| 常宁市| 延川县| 思南县| 丰顺县| 余江县| 怀柔区| 神木县| 新兴县| 宣化县| 禄丰县| 兴文县| 沙洋县| 潞西市| 磐安县| 安塞县| 崇阳县| 西畴县| 宜川县| 威信县| 普宁市| 阿拉善右旗| 大埔区| 邵武市| 山东省| 铁岭市|