忘记酷睿和骁龙:人工智能期间你该看法这些芯片_欧博娱乐

忘记酷睿和骁龙:人工智能期间你该看法这些芯片

假如你明天问身边懂欧博娱乐的冤家“将来是什么期间?”他八成会通知你是人工智能的期间。

曾经开辟了数十年,但在近几年失掉迅猛开展的深度学习神经网络技能,正在驱动一次人工智能反动。而反动的工具正是微信、Facebook 等主流欧博娱乐产物面前的那些欧博娱乐公司。

新的反动需求新的武器。酷睿和骁龙们不克不及满意需求,人工智能盘算需求新的芯片。当我们谈起处置器,我们过来谈的是酷睿、GTX 和骁龙——如今是时分理解一些人工智能期间的芯片了。经过本文,我将用比拟浅显易懂的言语为你引见几款主流的深度学习减速处置器。


 

GPU,也便是我们常说的显卡,得益于其硬件架构对并行盘算支持比拟好,最一开端各人都用 GPU 来搞深度学习。一个很经典的例子便是斯坦福传授吴恩达跑到 Google,带队用少量 GPU 做出了一个专门跑神经网络的大范围盘算集群,也便是厥后的 Google 大脑。

但在深度学习专家眼中,GPU 仍不是最优的答案。它的功能很好,但耗电惊人。并且另一个搞笑的缘由是,由于挖比特币和以太坊需求,显卡四处都缺货,深度学习研讨者常常买不到或许买不起。神啊,赐他们一台不挖矿,只跑深度学习的处置器可好?

行将前去麻省理工学院 (MIT) 担当助理传授的深度学习专家韩松通知PingWest 欧博娱乐,深度学习的盘算形式和惯例盘算有很大差别,高度波动且不需求很高准确性。“1 乘以 1 可以不即是一”,这是其他盘算不克不及容许的。

另一方面,深度学习专门硬件的特点是盘算高效,缺陷是很贵,需求有少量需求开辟和运用才比拟经济,韩松指出,如今深度学习使用的曾经十分广,给人工智能开辟专门的盘算硬件是值得的。

Facebook 人工智能研讨院院长燕乐存 (Yann LeCun),20 多年前在贝尔实行室就开辟过一款名叫 ANNA 的人工智能专门芯片。当时他还在做光学字符辨认 (OCR) 研讨,而 ANNA 辨认字符的速率到达了惊人的 1000 个/秒,比同期间其他处置器都快得多。 你也可以说,ANNA 是最早的“人工智能芯片”,或许更精确来说,深度学习减速处置器之一。

YannANNA

如今?人工智能芯片多到一双手曾经数不外来了。简直每一家过来的“软件”或许“效劳”公司,那些跟硬件不断没太大干系的大型欧博娱乐公司,比方 Google、亚马逊、微软,都曾经开端运用,或许正在研发本人的深度学习减速处置器。

Google 的人工智能驱动着每一次搜刮的后果展示,Facebook 用人工智能来优化用户的工夫线,在用数千种言语公布的内容之间互译,腾讯也在西雅图设立了实行室停止人工智能根底研讨,实验将其用在微信等用户过亿的产物中。

而这种变革对芯片行业的巨擘们带来了新的打击,他们有的发明本人曾经过期了,有的正在极速追逐 Google,经过收买的方法拓展本人的产物线,在人工智能芯片市场还未开端论资排辈之前,就先占上一把交椅。

TPU_BOARD_HERO_FORWEBONLY_FINAL

Google:TPU

是什么: Tensor Processing Unit(张量处置单位),是 Google 开辟的专门目标集成电路 (ASIC) 。

功能:TPU 曾经开辟出了第二代,每颗带宽 600GB/s,算力到达 45 TFLOPS (8位整数)。

它的模组化才能出众,Google 的用法是将 4 颗 TPU 放在一块电路板上,构成一个 180 TFLOPS 的模组“Cloud TPU”,用它们来交换深度学习云机房里的 CPU 和 GPU,单机最多可以拼接 256 块 Cloud TPU,算力到达惊人的 11.5 PFLOPS(下图)。

TPU_POD_HERO_FORWEBONLY_FINAL

用处:后面提到,Google 过来用显卡组建大范围盘算集群,能耗较高,训练速率较慢,该公司需求一个专门的盘算架构,去更高效地训练和运用深度神经网络。以是 Google 开辟了 TPU。

TPU 于面向大范围低精度的深度学习盘算而设计和优化,合适神经网络的训练和推理(在详细用处和场景中运转神经网络)。如今,TPU 不只 Google 员工的外部任务零碎,还支持着搜刮、照片、翻译、街景等 Google 旗下产物。就连击败了李世乭、柯洁的围棋人工智能顺序 AlphaGo,也运转在 TPU 上。

brainwave-fpga

微软:HPU 和“脑波方案”DPU

是什么:HPU 是微软在混淆理想头显 HoloLens 里自行设计,并由合作同伴消费的“协处置器”。详细是用一块 FPGA(现场可编程门阵列),一种十分灵敏的半定制化电路完成的。

“脑波方案”(Project Brainwave) 则是微软前不久方才宣布的人工智能硬件减速方案,包罗一个少量芯片构成的散布式盘算架构,和一套间接运转在芯片上的“操纵零碎”。脑波方案的硬件中心是 DPU (DNN Processing Unit),也即深度神经网络处置单位——实质上照旧 FPGA。

功能:HoloLens 一代内置的 HPU,可以在 10W 功耗下提供 1TFLOPS 算力。微软上个月方才宣布了新一代 HPU,详细细节未知,但可以意料到的是功耗会进一步低落,功能会持续进步。

至于“脑波方案”,它的信息非常无限,但看起来支持多种 FPGA,现在微软展现的技能用的是英特尔的 14 纳米制程 FPGA。这种芯片单颗盘算力约 10 TFLOPS(单精度),成效为 80GFLOPS/W。

hololens-msft

用处:HoloLens 一代曾经内置了一块英特尔的 CPU 和集成 GPU,为什么它还需求 HPU?实在,作为混淆理想或许加强理想头显,HoloLens 需求确保佩带者的舒服,低落活动和姿势变革和画面变革的延时,以是它需求联合传感器数据停止海量的盘算。但 CPU 和 GPU 次要跑操纵零碎(Windows 10)和处置图像,没有多余的算力给传感器。假如让它们来做这局部的盘算,不光延时高用户会眩晕,也更费电,还抢走了操纵零碎的算力,进步了蓝屏风险……

HPU 便是用来做这局部任务的。而在 HoloLens 二代里,微软计划让 HPU 承当更庞大的义务:当地运转深度神经网络。依据无限的信息,HPU 二代可以高成效运转范例十分丰厚的深度神经网络,为 HoloLens 参加更多人工智能功用(比方当地图像辨认、语音处置等)开了大门。

至于“脑波方案”,从异样无限的信息来看,它应该是微软为扩展本人的人工智能和云盘算生态,和 Google TPU 抗衡而推出的。它的用处和 TPU 应该也不会有太大差别,无外乎对微软本人的产物,以及其团队的科研提供盘算支持。微软的云盘算效劳不断在运用 FPGA,以是向 “脑波方案”迁徙应该比拟轻松。它支持微软本人的 CNTK 深度学习框架,同时也支持竞争敌手 Google 的 TensorFlow 框架。

v100

英伟达:Tesla 深度学习处置器

是什么:英伟达是显卡界的王者,但你能够不晓得,如今的显卡功用比玩游戏多多了(别提挖矿!)GeForce 是玩游戏的,Titan 系列则步入了 GPGPU 的范围(可以玩游戏也可以做神经网络训练)。而 Tesla GPU 则是英伟达专为人工智能开辟的专业级效劳器端显卡。

Tesla GPU 系列最新产物是 V100,V 的定名来自英伟达最新也最顶级的 12 纳米 Volta 微架构。

功能:V100 所接纳的 Volta 架构,是由 640 枚被英伟达定名为“张量中心” (Tensor Cores) 构成的。你不需求明确 Tensor Cores 究竟是什么,只需求晓得它很凶猛就行。V100 的盘算功能到达 15 TFLOPS(单精度)、120TFLOPS(深度学习),可谓人工智能芯片中的核弹了。

data-center-volta-tensor-core-625-ud

Tensor Cores

用处:Google 最一开端声称 TPU 比 GPU 快 30 倍,业界对其赞赏有加。但有个细节是,TPU 第一代只能推理,不克不及用来训练神经网络。以是事先英伟达还可以说本人是独一端到端(从训练到推理再到主动驾驶等实践场景)的人工智能盘算方案提供者。而 V100 便是这个方案的硬件中心。

不外英伟达推出 V100 没多久,Google 就开了 I/O 2017 大会,选不了训练和推理都能做的 TPU 二代。即使云云,V100 依然是停止现在最合适神经网络科研的显卡,用通用图形处置器 (GPGPU/CUDA) 做深度学习这一派的相对王者。

intel-dlia-fpga-sc16

英特尔:FPGA、显卡、至强融核和 VPU

是什么:后面提到了微软在运用的现场可编程门阵列 FPGA,正是由英特尔(所收买的 FPGA 巨擘 Altera,如今成为了英特尔 FPGA 部分) 所开辟的。复杂来说,由于 FPGA 对并行盘算支持好,功能高,便于重新编程,功耗比 GPU、CPU 低,FPGA 也是人工智能芯片的一个紧张门派(另一家FPGA 巨擘 Xilinx 的人工智能产物也很不错,不外篇幅无限就不赘述了)。

英特尔还收买了 Nervana,组建了一团体工智能部分。这个部分的研讨用的是显卡。

“至强融核” (Xeon Phi) 是英特尔另一款在效劳器端抗衡英伟达 GPU 的处置器产物。它的最新款产物并行盘算好合适深度学习,它的一个最次要劣势是“实惠”,不跑深度学习也可以当 CPU 来用(由于它原本便是 CPU)。

VPU 则是英特尔收买的另一家爱尔兰公司 Movidius 所开辟的低功耗深度学习减速芯片,特征是超小尺寸和功耗超低。

用 VPU 制成的神经盘算棒

用 VPU 制成的神经盘算棒

功能:英特尔 FPGA 产物线较庞大,功能多样。显卡方面的信息也未几

至于 Xeon Phi,盘算力约莫在 3.5 TFLOPS 左右?

VPU 接纳该公司自研的 Myriad 架构,最大的特征是可以在 1W 或更低功率内,完成 100 GFLOPS 乃至更高算力。

用处:假如英伟达一发核弹消灭环球,那么英特尔便是经过多元化的产物线实验在深度学习市场上分一杯羹。FPGA、Xeon Phi 都是间接推向消耗者的云端数据中央里的产物,而身体纤细的 VPU 用处更多样,装置到了大疆无人机、遐想手机等产物中,也被英特尔间接做成了即插即用的深度学习盘算棒,合适呆板人开辟等等。

Intel, Processors

Intel, Processors

其他公司

Facebook:也在开辟本人的深度学习芯片,听说在和高通合作。

百度:XPU,实质是 FPGA,和Xilinx 合作

地平线:前百度深度学习研讨院院长,也在开辟人工智能定制芯片,应该是 FPGA

苹果:没错,苹果也将在新款手机里参加“人工智能协处置器”,信息极为无限。

很负疚,依据相干执法法例,本站临时封闭批评,欢送移步至欧博娱乐App宣布您的批评
更多风趣好玩的内容 尽在欧博娱乐微信大众号
brand

PingWest欧博娱乐挪动客户端