智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

智能芯片市場格局一變再變 TPU將成深度學習的未來?

來源:網絡

點擊:890

A+ A-

所屬頻道:新聞中心

關鍵詞: 智能芯片,谷歌,TPU

    在Google I/O 2016的主題演講進入尾聲時,谷歌的CEO皮采提到了一項他們這段時間在AI和機器學習上取得的成果,一款叫做Tensor Processing Unit(張量處理單元)的處理器,簡稱TPU。在這個月看來,第一代的TPU處理器已經過時。

    在昨天凌晨舉行的谷歌I/O 2017大會上,谷歌除了宣傳了安卓8.0之外,更為重要的是著重談到了人工智能,于是第二代TPU也就應運而生。TPU是谷歌自主研發的一種轉為AI運算服務的高性能處理器,其第一代產品已經在AlphaGo這樣的人工智能當中使用,主攻運算性能。

    第二代TPU相比較于初代主要是加深了人工智能在學習和推理方面的能力,至于性能的話,全新的谷歌TPU可以達到180 TFLOPs的浮點性能,和傳統的GPU相比提升15倍,更是CPU浮點性能的30倍。

    另外谷歌還推出了一款叫做TPU pod的運算陣列,最多可以包含64顆二代TPU,也就是說浮點性能可以達到驚人的11.5 PFLOPS。

    從名字上我們可以看出,TPU的靈感來源于Google開源深度學習框架Tensor Flow,所以目前TPU還是只在Google內部使用的一種芯片。

    TPU 誕生

    2011年,Google 意識到他們遇到了問題。他們開始認真考慮使用深度學習網絡了,這些網絡運算需求高,令他們的計算資源變得緊張。Google 做了一筆計算,如果每位用戶每天使用3分鐘他們提供的基于深度學習語音識別模型的語音搜索服務,他們就必須把現有的數據中心擴大兩倍。他們需要更強大、更高效的處理芯片。

    他們需要什么樣的芯片呢?中央處理器(CPU)能夠非常高效地處理各種計算任務。但 CPU 的局限是一次只能處理相對來說很少量的任務。另一方面,圖像處理單元(GPU)在執行單個任務時效率較低,而且所能處理的任務范圍更小。不過,GPU 的強大之處在于它們能夠同時執行許多任務。例如,如果你需要乘3個浮點數,CPU 會強過 GPU;但如果你需要做100萬次3個浮點數的乘法,那么 GPU 會碾壓 CPU。

    GPU 是理想的深度學習芯片,因為復雜的深度學習網絡需要同時進行數百萬次計算。Google 使用 Nvidia GPU,但這還不夠,他們想要更快的速度。他們需要更高效的芯片。單個 GPU 耗能不會很大,但是如果 Google 的數百萬臺服務器日夜不停地運行,那么耗能會變成一個嚴重問題。

    谷歌決定自己造更高效的芯片。

    2016年5月,谷歌在I/O大會上首次公布了TPU(張量處理單元),并且稱這款芯片已經在谷歌數據中心使用了一年之久,李世石大戰 AlphaGo 時,TPU 也在應用之中,并且谷歌將 TPU 稱之為 AlphaGo 擊敗李世石的“秘密武器”。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    第一代TPU內部架構

    該圖顯示了TPU上的內部結構,除了外掛的DDR3內存,左側是主機界面。指令從主機發送到隊列中(沒有循環)。這些激活控制邏輯可以根據指令多次運行相同的指令。

    TPU并非一款復雜的硬件,它看起來像是雷達應用的信號處理引擎,而不是標準的X86衍生架構。Jouppi說,盡管它有眾多的矩陣乘法單元,但是它GPU更精于浮點單元的協處理。另外,需要注意的是,TPU沒有任何存儲的程序,它可以直接從主機發送指令。

    TPU上的DRAM作為一個單元并行運行,因為需要獲取更多的權重以饋送到矩陣乘法單元(算下來,吞吐量達到了64,000)。Jouppi并沒有提到是他們是如何縮放(systolic)數據流的,但他表示,使用主機軟件加速器都將成為瓶頸。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    256×256陣列縮放數據流引擎,經過矩陣乘法積累后實現非線性輸出

    從第二張圖片可以看出,TPU有兩個內存單元,以及一個用于模型中參數的外部DDR3 DRAM。參數進來后,可從頂部加載到矩陣乘法單元中。同時,可以從左邊加載激活(或從“神經元”輸出)。那些以收縮的方式進入矩陣單元以產生矩陣乘法,它可以在每個周期中進行64,000次累加。

    毋庸置疑,谷歌可能使用了一些新的技巧和技術來加快TPU的性能和效率。例如,使用高帶寬內存或混合3D內存。然而,谷歌的問題在于保持分布式硬件的一致性。

    能夠進行數據推理的第二代TPU

    第一代的TPU只能用于深度學習的第一階段,而新版則能讓神經網絡對數據做出推論。谷歌大腦研究團隊主管Jeff Dean表示:“我預計我們將更多的使用這些TPU來進行人工智能培訓,讓我們的實驗周期變得更加快速。”

    “在設計第一代TPU產品的時候,我們已經建立了一個相對完善和出色的研發團隊進行芯片的設計研發,這些研發人員也基本上都參與到了第二代TPU的研發工程中去。從研發的角度來看,第二代TPU相對于第一代來說,主要是從整體系統的角度,提升單芯片的性能,這比從無到有的設計第一代TPU芯片來說要簡單許多。所以我們才能有更多的精力去思考如何提升芯片的性能,如何將芯片更好的整合到系統中去,使芯片發揮更大的作用。”Dean在演講中表示。

    未來,我們將繼續跟進谷歌的進度,以進一步了解這一網絡架構。但是在此之前,我們應當了解新一代TPU的架構、性能以及工作方式,明白TPU是如何進行超高性能計算的。在此次發布會上,谷歌并沒有展示新一代TPU的芯片樣片或者是更加詳細的技術規格,但是我們依舊能夠從目前所知的信息中對新一代TPU做出一些推測。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    從此次公布的TPU圖片來看,第二代TPU看上去有點像Cray XT或者是XC開發板。從圖片上,我們不難發現,相互連接的幾個芯片被焊接到了開發板上,同時保持了芯片之間以及芯片與外部的連接功能。整個板子上共有四個TPU芯片,正如我們之前所說,每一個單獨的芯片都可以達到180TFLOPs的浮點性能。

    在開發板的左右兩側各有四個對外的接口,但是在板子的左側額外增加了兩個接口,這一形式使得整個板子看上去略顯突兀。如果未來每一個TPU芯片都能夠直接連接到存儲器上,就如同AMD即將推出的“Vega”處理器可以直接連接GPU一樣,這一布局就顯得非常有趣。左側多出的這兩個接口在未來可以允許TPU芯片直接連接存儲器,或者是直接連接到上行的高速網絡上以進行更加復雜的運算。

    以上這些都是我們基于圖片的猜測,除非谷歌能夠透露更多的芯片信息。每一個TPU芯片都有兩個接口可以與外部的設備進行連接,左側有兩個額外的接口對外開發,可以允許開發者在此基礎上設計更多的功能,添加更多的擴展,無論是連接本地存儲設備還是連接網絡,這些功能在理論上都是可行的。(實現這些功能,谷歌只需要在這些接口之間建立相對松散可行的內存共享協議即可。)

    下圖展示了多個TPU板一種可能的連接形式,谷歌表示,這一模型可以實現高達11.5千萬億次的機器學習計算能力。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    這一結果是如何得出的呢。上面這種連接方式,從外形上來看,非常像開放的計算機架構,或者是其他的一些東西。縱向上來看,疊加了8個TPU板,橫向上看,并列了4個TPU板。目前我們無法斷定每一個開發板都是完整的TPU板或者是半個開發板,我們只能看到板子的一側有6個接口,另一側有2個接口。

    值得注意的是,板子的中間采用了4個接口,而左右兩側采用了2個接口,并且在左右兩側也沒有見到與TPU開發板類似的外殼。對此,一個比較合理的解釋就是,左右兩側連接的是本地存儲器接口,而不是TPU芯片接口。

    即便如此,我們依舊能看到至少32個TPU二代母板在運行,這也意味著,有128個TPU芯片在同時運行。經過粗略的計算,整套系統的計算能力大概在11.5千萬億次。

    舉個例子來說,如果這一運算能力在未來能夠運用到商業領域,谷歌現在進行的大規模翻譯工作所采用的32個目前最先進的GPU,在未來就可以縮減為4個TPU板,并能夠極大的縮減翻譯所需要的時間。

    值得注意的是,上文所提到的TPU芯片不僅僅適用于浮點運算,也同樣適用于高性能計算。

    TPU的訓練與學習

    與第一代TPU相比,第二代TPU除了提高了計算能力之外,增加的最大的功能就是數據推理能力,不過這一推理模型必須先在GPU上進行訓練才可以。這一訓練模式使得谷歌等開發廠商必須降低實驗的速度,重塑訓練模型,這將耗費更長的時間,才能使機器獲得一定的數據推理能力。

    正是因為如此,在相對簡單和單一的設備上先進行訓練,然后將結果帶入帶更為復雜的環境中去,從而獲得更高層次的數據推理能力,這一迭代工程是必不可少的。未來,英特爾推出的用于人工智能的GPU也將會采用這一迭代模式。英偉達的Volta GPU也是如此。

    擁有“tensor core”的英偉達Volta GPU擁有超高速的機器學習與訓練能力,未來可能達到120萬億次的單設備計算能力,這一運算能力與去年上市的Pascal GPU相比,在計算能力上提升了大約40%。但是像谷歌推出的TPU這種超高速的計算能力所帶來的影響,我們即便很難在生活中切身的體會到,但是GPU越來越快的計算能力依舊令人印象深刻,也離我們更近。

    Dean表示,英偉達Volta所采用的架構是非常有趣的,這一架構使得通過核心矩陣來加速應用的目的成為可能。從一定程度上來說,谷歌推出的第一代TPU也采用了類似的想法,實際上,這些技術現在依然在機器學習的流程中被采用。“能夠加快線性計算能力總是非常有用的。”Dean強調。

    姑且不考慮硬件方面的影響,依然存在著許多能夠吸引用戶的地方。與那些始終保持機密的項目不同,未來,谷歌將會將TPU技術運用到谷歌云平臺。谷歌的高級研究員Jeff Dean表示,他們不希望通過各種手段來限制競爭,希望能夠為TPU提供更多的可能與空間,這樣在未來才能夠與Volta GPU以及Skylake Xeons競爭。

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    Dean認為,平臺也應當為開發者提供更多能夠建立和執行各自特有模型的機會,而不是限制開發者的思維。未來,谷歌將會在云平臺上為那些對開放的科研項目感興趣并不斷推進機器學習的研究團隊提供超過1000個TPU。

    Dean表示,現在在谷歌內部,在進行機器訓練和學習的時候,也會同時采用GPU和CPU,在同一設備上也是如此,這樣能夠更好的保證平衡。但是對于新一代的TPU芯片,目前來說,訓練和學習時候的功率還不能夠準確的估計,但是值得肯定的是,功能肯定是低于Volta GPU。由于系統在功能上能夠滿足高性能計算和64位高性能計算,這就使得工作負載的計算異常復雜。英偉達的GPU在使用過程中也會遇到類似的問題。未來,想要更好的解決這一問題,需要我們跟工程師繼續努力。

    在這一點上,Dean也承認:“與第一代TPU芯片整數計算的方式不同,第二代芯片能夠進行浮點運算。所以在芯片進行學習訓練的過程中,只需要采用固定的模型即可,不需要變動算法。工程師可以采用相同的浮點運算方式,這在很大程度上降低了工作量。”

    智能芯片市場格局一變再變 TPU將成深度學習的未來?

    除了英偉達和英特爾之外,谷歌將其定制的硬件產品推向市場,對于企業來說未嘗不是一件好事。因為TPU來說對于市場來說還是相當邊緣化的技術。當第二代TPU產品應用到谷歌云平臺之后,谷歌將會向大量的用戶推送培訓,這將會更好的推動這一技術的發展。

    對于哪些對于谷歌為什么不將芯片進行商業化的人來說,以上的內容大概能夠給出一個回答。隨著人工智能和神經學習技術的不斷發展,TPU將能夠在谷歌云上大展拳腳,成為推動技術進步的一大力量。

    TPU對谷歌意味著什么?

    谷歌專門開發的應用于深度神經網絡的軟件引擎。谷歌表示,按照摩爾定律的增長速度,現在的TPU的計算能力相當于未來七年才能達到的計算水平,每瓦能為機器學習提供更高的量級指令,這意味它可以用更少的晶體進行每一個操作,也就是在一秒內進行更多的操作。并且谷歌將其與Deep learning系統平臺TensorFlow進行了深度綁定,可以獲得更好的支持,做更強的生態,包括搜索、無人駕駛汽車、智能語音等100多個需要使用機器學習技術的項目。

    TPU 是深度學習的未來嗎?

    深度學習計算中的芯片部署都不是零和博弈。現實世界的深度學習網絡需要系統的 GPU 與其他 GPU 或諸如 Google TPU 之類的 ASIC 通信。GPU 是理想的工作環境,具有深度學習所需的靈活性。但是,當完全專用于某個軟件庫或平臺時,則 ASIC 是最理想的。

    谷歌的 TPU 顯然符合這樣的要求。TPU 的卓越性能使得 TensorFlow 和 TPU 很可能是一起升級的。雖然谷歌官方已經多次明確表示,他們不會對外銷售 TPU。不過,利用 Google 云服務做機器學習解決方案的第三方可以得益于 TPU 卓越性能的優勢。

    智能芯片市場格局一變再變,谷歌 TPU 的出現讓面向神經網絡/深度學習特定領域加速的芯片趨勢更加明顯。高端 AI 應用需要強大的芯片做支撐。軟硬件缺了哪一塊中國的智能生態也發展不起來。中國處理器學術和工程都在不斷提高,我們期待中國芯早日出現在世界舞臺與國際同行競技。

    (審核編輯: 林靜)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    主站蜘蛛池模板: 湖南实验台-防静电工作台-实验设备厂家-长沙实验室设备有限公司-湖南贝塔实验室设备有限公司 | 永康微网站建设、永康手机网站建设、永康营销型网站建设、永康外贸网站建设、永康网站托管、永康网络公司—英汇网络 - 永康市英汇网络技术有限公司 | 样品前处理仪器_光谱仪器_色谱/分析仪器_测量/计量仪器_青岛聚创世纪环保科技有限公司 | 智慧园区平台_智慧园区智慧写字楼运营平台领导品牌 | 基坑护栏,临边护栏网,爬架网,爬架网片,铁路防护栅栏,公路护栏网,河北昊坤金属制品有限公司 | 衢州装饰公司_衢州装修公司_衢州创美装饰工程有限公司 - Powered by www.qzcmzs.com | 名嘉宴会【官网】_宁波冷餐_宁波茶歇_宁波酒会_宁波自助餐_宁波盛世名嘉宴会服务有限公司 | 汽车轴承|圆锥滚子轴承|轴承生产厂家|赛襄轴承 | 龙淼环保-旋流-喷淋塔,高温布袋,脉冲布袋-单机-滤筒除尘器,活性炭吸附箱,催化燃烧设备,除尘器配件-沧州龙淼环保设备制造有限公司 | 生态护坡砖_护坡砖_合肥植草砖-巢湖市华林新型建材有限公司 | 无尘车间_洁净车间_净化车间_洁净室工程一站式净化服务商-深圳市美克威尔环境科技有限公司 | 上海上市答谢酒会_企业年会_新品上市发布会_周年/开业庆典_会议会务_活动策划布置演出公司 | 自走式缠绕机_上海德目包装设备厂家_在线式缠绕机_缠绕膜打包机 自装卸(挂桶)车|钩臂垃圾车|压缩垃圾车|密封自卸车|环卫垃圾车|餐厨车泔水车湖北程力专用车厂家 | 液晶拼接屏_三星46寸/55寸/LG液晶拼接屏_深圳拼接墙厂家_电视大屏幕液晶拼接_高清工业级液晶监视器 | 网咖网址导航,网咖分类目录,网址目录,免费收录国内外、各行业优秀网站网站。 | 王者荣耀/和平精英扫码上号登录器_微信安卓苹果扫码上号登录软件 - 上号宝扫码登录器 | 耐磨钢板_复合耐磨板_KN60耐磨钢板-北京耐默公司 | 手板模型-温州手板模-快速成型厂家-温州星科模具加工厂 | 永磁耦合_重载永磁软起_能量回馈式调速器_磁力耦合器_江苏磁谷科技股份有限公司官方网站 | 山东恒泰矿业设备有限公司_跑车防护装置,矿用电机车,防爆无轨胶轮车,耙斗装岩机 | 烟台广告公司-烟台仁和图文广告制作有限公司 | 生物质蒸发器_燃气蒸发器_燃气锅炉价格|厂家直销-山东泰锅锅炉设备有限公司 | 四川升降货梯厂家-提供高品质货梯产品-见田科技液压升降平台厂家 | 乐贝贝童装批发网-外贸童装批发厂家直销|网上品牌童装批发市场|儿童服装批发首选 | 山东净化车间_净化工程_净化公司-山东海蓝净化装饰工程有限公司 山东金起起重机械有限公司[官网]-金桥银路悬臂吊,金起龙门吊,山东金起起重行吊,单梁起重机 | 挖掘机|小型挖掘机|挖掘机抓木机|轮式挖掘机|宝鼎挖掘机-宝鼎液压机械公司厂家直销 | 衡水一体化污水处理设备|循环水旁滤器|加药装置|钢厂浊环净化装置|河北欧意科技集团有限公司 | 开关柜无线测温_电缆接头测温系统_六氟化硫sf6气体泄漏报警监测_卫星同步时钟-山东正瑞电子有限公司 | 吉林人才网_吉林招聘网_求职找工作平台 | 螺带混合机|卧式螺带混合机|双动力混合机-无锡鑫海干燥粉体设备有限公司 | 银泰洁净--净化工程总承包,20年精耕细作,专为净化而来_银泰洁净--净化工程总承包,20年精耕细作,专为净化而来 | 木工圆锯片,进口锯片厂家,合金锯片生产厂家,木工合金锯片,BAK(百恪)刀具有限公司 | 联系我们果博福布斯公司客服电话17787888880[河南河北区] | 太原重卡叔叔运输有限公司-山西太原大件运输、太原物流公司、太原货运物流、太原大件运输、太原货运信息、长治物流公司、长治大件运输、晋城物流公司、晋城大件运输、忻州大件运输、朔州大件运输、阳泉大件运输、大同大件运输、吕梁大件运输、临汾大件运输、运城大件运城 | 易交换在线易货电商平台-互联网易物贸易,以物换物-无锡据风网络科技有限公司 | 男装加盟,男装加盟店,男装代理,男装品牌加盟,品牌男装加盟-虎豹男装品牌加盟 | 丝杆升降机-蜗轮丝杆升降机-电动推杆-德州市金宇机械有限公司 | 新一能-配电箱、变频柜、plc控制柜、开关柜生产厂家 | 煤泥烘干机,酒糟烘干机,药渣烘干机,酵母烘干机,烘干机厂家-瑞奥新能源 | 合肥年会策划-合肥开业庆典公司-合肥会务活动礼仪公司-合肥展台搭建/音响租赁公司 [七色海] | 浙江桥梁检测车出租_杭州桥检车出租_桥梁检测车出租_桥检车租赁_桥梁检测车租赁-广州众诚设备租赁有限公司 |