首页> 行业动态> 资讯详情

人工智能芯片——群雄逐鹿;赛道很拥挤

高通

人工智能芯片——群雄逐鹿;赛道很拥挤0

高通宣布推出人工智能引擎(AI Engine),让人工智能在终端侧(如智能手机)上的应用更快速、高效。该AI Engine包括软硬件两部分,在高通骁龙核心硬件架构(CPU、GPU、VPS向量处理器)上搭载了神经处理引擎(Neural Processing Engine, NPE)、Android NN API、Hexagon神经网络库等软件。

目前高通旗下芯片产品骁龙845、骁龙835、骁龙820、骁龙660都将支持该人工智能引擎AI Engine,其中骁龙845将支持最顶尖的终端侧人工智能处理。

软硬结合:速度更快、更安全

大多数移动机器学习(ML)任务(如图像或语音识别)目前都在云中执行,智能手机将数据发送到云端,然后再将计算结果返回到手机。但是目前,在终端设备上执行的机器学习任务越来越繁重。为了给开发人员提供更好的基于机器学习的增强功能,高通推出人工智能引擎AI Engine来封装其当前的ML产品。终端侧人工智能的关键优势包括即时响应、隐私保护增强、可靠性提升,此外,还能确保在没有网络链接的情况下用户的AI体验能到得到保障。

高通骁龙核心硬件架构——Hexagon 向量处理器、Adreno GPU和Kryo CPU都具备支持终端侧快速、高效地运行AI应用的能力。这一异构计算方案让开发者和OEM厂商都能智能手机或端智能硬件设备上优化用户AI体验。

人工智能芯片——群雄逐鹿;赛道很拥挤1

在软件方面,高通AI Engine提供三个组件:

1、骁龙神经处理引擎(Neural Processing Engine, NPE)软件框架让开发者可为实现所需的用户体验,选择最适宜的骁龙内核,包括Hexagon向量处理器、Adreno GPU和Kryo CPU,并加速其终端侧人工智能用户体验的实现。骁龙神经处理引擎支持Tensorflow,Caffe和Caffe2框架,以及ONNX (Open Neural Network Exchange)交换格式,在多个骁龙平台和操作系统上,为开发者提供更大灵活性和更多选择。

2、随Google Android Oreo发布的Android NN API,让开发者能通过Android操作系统直接访问骁龙平台。骁龙845将率先支持Android NN。

3、Hexagon Neutral Network(NN)库让开发者可以直接将人工智能算法在Hexagon向量处理器上运行。为基础性的机器学习模块提供了优化的部署,并加速诸如卷积、池化和激活等人工智能运行。

多家手机厂商已用上AI Engine

多家智能手机厂商已利用骁龙移动平台上的人工智能引擎AI Engine组件,加速其终端上的人工智能应用,包括小米、一加、vivo、OPPO、摩托罗拉、华硕、中兴、努比亚、锤子以及黑鲨,其中部分厂商正计划采用人工智能引擎AI Engine在他们未来的旗舰骁龙智能手机上优化人工智能应用。

在今年1月的高通中国技术与合作峰会上,高通还宣布与联想、OPPO、vivo、小米、中兴等手机厂商的多项合作。这场峰会办得格外热闹,中国手机圈的半壁江山几乎都来了。

此外,高通还与一些人工智能公司进行合作,比如,商汤科技和旷视Face++提供多种预先训练的神经网络,支持图像与摄像头特性,包括单摄像头背景虚化、面部解锁与场景检测识别。Elliptic Labs可为骁龙客户提供基于超声波的智能手机手势控制技术。虹软为骁龙客户提供单摄和双摄算法,并积极开发人工智能用户体验。创通联达针对人工智能视觉用例和终端提供完整的解决方案。Uncanny Vision针对人、车辆、以及车牌检测和识别提供优化模型。以上企业以及其他更多公司都将利用Qualcomm人工智能引擎AI Engine组件,加速实现其人工智能模型的性能与用户体验。

云服务领导厂商也已经针对骁龙智能手机,对应用程序中的人工智能特性进行了优化。比如,腾讯最近在其手机QQ应用程序中推出了一个名为“高能舞室”的交互特性,加入到备受欢迎的手机QQ社交平台中。在Android端的手机QQ中,采用了人工智能引擎AI Engine组件以加速该特性的帧率。另外,百度也计划全面支持Qualcomm人工智能引擎AI Engine及其生态系统。

此前,高通正式发布骁龙845处理器。高通高级副总裁兼移动业务总经理Alex Katouzian称,高通没有独立的神经网络引擎单元,而是在通用平台上做内核优化。

照其所说,高通从骁龙820就开始AI方面的研究,到骁龙845已经是的第三代了,而且AI计算效能是前一代的三倍。

 

谷歌

人工智能芯片——群雄逐鹿;赛道很拥挤2

谷歌为其深度学习神经网络打造基于ASIC的专用TPU芯片,主要为自己的人工智能系统Tensor-flow提供服务。

谷歌正式公布了第二代TPU,又称Cloud TPU或TPU 2。但是,谷歌并没有详细介绍自己的新芯片,只展示了一些照片。

The Next Platform今天发布一篇文章,基于谷歌提供的图片和细节,带你深入了解谷歌的TPU2。量子位编译如下:

首先要说明的一点是,谷歌不太可能向公众出售TPU的芯片、主板或是服务器。目前看来,TPU2还是一个只供内部使用的产品。只有极少数人可以通过TensorFlow研究云(TRC)直接访问TPU2的硬件,因为这本身就是为研究人员设计的具有“高度选择性”的项目。研究人员可以分享他们发现的TPU2可加速代码类型。谷歌还推出了Google Compute Engine Cloud TPU Alpha项目,我们可以假定,这也是一个高度选择性的项目。

谷歌设计TPU2的首要目的,肯定是为了加速其面向消费者的核心软件(比如搜索、地图、语音识别和无人车的研究等项目)深度学习的工作量。我们对Google TRC的粗略解读是,Google想借此招募人员去研究适合TPU2的超网格的工作负载。

谷歌表示,TRC项目虽然开始规模较小,但之后会逐步扩大。如果Google的研究推广到一般的应用程序,那么其他人员也可以直接访问TPU2。那时Google将为其谷歌云平台的公共云增添一个TensorFlow硬件实例。

TPU2能有今天,离不开去年Google I/O大会上第一代TPU的贡献。一代TPU也是专为机器学习设计的特定目的芯片,还应用在了AlphaGo、搜索、翻译、相册等背后的机器学习模型中。 TPU通过两个PCI-E 3.0 x8边缘连接器连接协处理器(参见下面两张照片的左下角),总共有16 GB/s的双向带宽。TPU消耗功率高达40瓦,远高于PCI-E 电源规格,可为8位整数运算提供每秒92万亿次的运算,或为16位整数运算提供每秒23万亿次的运算。为了进行比较,Google声称,在半精度浮点数(FP16)情况下,TPU2可以达到每秒45万亿次的浮点运算。

TPU没有内置的调度功能,也不能被虚拟化。它是一个直接连接到服务器主板的简单矩阵乘法协处理器。

人工智能芯片——群雄逐鹿;赛道很拥挤3

△ 谷歌的第一代TPU卡:A图没有散热器;B图有散热器

在主板处理能力或其PCI-E 吞吐量超负载前,Google从不会透露有多少TPU连接到一个服务器主板。协处理器只需要做一件事,它需要以任务设置和拆卸的形式,从主机处理器获取大量信息,并管理每个TPU数据的传输带宽。

Google已将其TPU2设计用于四机架机柜,并将其称为pod。机柜是相对于一组工作负载的标准机架配置(从半机架到多机架)。它为大型数据中心所有者提供更轻松廉价的购买、安装和部署流程。例如,Microsoft的Azure Stack标准半机架就是一个机柜。

四机架机柜大小主要取决与Google正在使用的铜缆类型和全速运行的最大铜线长度。下图显示了机柜的高层次组织。

我们首先注意到,Google通过两根电缆将每个TPU2板连接到一个服务器处理器板上。也可能是谷歌将每个TPU2板连接到两个不同的处理器板,但是,即使是谷歌也不希望混淆该拓扑结构的安装、编程和调度复杂性。如果在服务器主板和TPU2板之间存在一对一的连接,则要简单得多。

人工智能芯片——群雄逐鹿;赛道很拥挤4

△ Google的TPU2机柜:A是CPU机架,B是TPU2机架,C是TPU2机架,D是CPU机架; 固体箱(蓝色):不断电电源系统(UPS); 虚线框(红色)是电源; 虚线框(绿色)是机架式网络交换机和机架式交换机顶部

谷歌展示了TPU2机柜的3张不同照片。在这3张照片中,配置和连线方式看起来一致。TPU2连线的颜色编码有助于比较这些照片。

人工智能芯片——群雄逐鹿;赛道很拥挤5

△ 三个谷歌TPU2机柜

谷歌展示了TPU2电路板的顶视图,以及电路板前面板接口的近距离视图。TPU2电路板的所有4个象限共享同一电源分配系统。我们认为,这4个TPU2电路板象限也通过简单的网络开关共享同一网络连接。看起来,每个电路板象限都是一个独立的子系统,而除此以外4个子系统之间并没有相互连接。

人工智能芯片——群雄逐鹿;赛道很拥挤6

△ TPU2板的俯视图:A是四个TPU2芯片和散热片;B是2个BlueLink 25GB / s电缆/ TPU2;C是两种全路径体系结构(OPA)电缆;D是电路板电源连接器,E很可能是一个网络开关

前面板连接看起来像是QSFP网络接口,但我从未在其他地方看到过。IBM BlueLink规范定义,对于最小25GB/s的配置(称作‘子链接’),在上下行每个方向上需要8个200Gb/s信道(总共16个信道)。谷歌是OpenCAPI的成员,同时也是OpenPowerFoundation的创始成员,因此使用BlueLink规范是合理的。

人工智能芯片——群雄逐鹿;赛道很拥挤7

△ TPU2面板连接

前面板中央的两个接口看起来像是QSFP接口,介质为铜双绞线,而不是光纤。这支持两种网络配置,分别为10Gbps以太网和100Gbps英特尔OPA连接。两个100Gbps的OPA链路可以合并提供双向25GB/s的带宽,从而符合BlueLink规范要求的网速。因此我们认为,谷歌采用了100Gbps的OPA连接。

不过为了避免信号衰减带来问题,这些铜缆、BlueLink或OPA的线缆长度不能超过3米。这意味着,CPU和TPU2电路板之间的物理距离不能超过3米。谷歌使用彩色编码的线缆来连接,我猜测这是为了更方便地接线,避免出错。可以看到,在前面板最前方的接口下方,有贴纸与线缆颜色一一对应。我们认为,颜色编码表明,谷歌计划更大规模地部署这些TPU2机柜。

白色线缆最有可能是1Gbps以太网连接,这个网络用于系统管理。在照片中,我们并没有看到,谷歌如何将管理网络连接至TPU2电路板。不过,基于白色线缆的走线方式,我们可以假定,谷歌从机架背面将处理板连接至管理网络。或许,处理板将通过OPA连接管理TPU2板,并评估这些电路板的健康状况。

谷歌的TPU2机柜具有镜像对称性的特点。在下方图片中,我们将处理器机柜D的照片进行镜像翻转,并与处理器机柜A进行比较。这两个机柜看起来一模一样,仅仅只是互为镜像。在再下方的图片中,可以看到机柜B和C也互为镜像。

人工智能芯片——群雄逐鹿;赛道很拥挤8

人工智能芯片——群雄逐鹿;赛道很拥挤9

△ 比较两个TPU2机架

谷歌的照片中并没有展示足够多的连线信息,以判断电路板之间的准确网络拓扑结构。不过这很可能是一种非常复杂的mesh网络。

我们认为,CPU板是标准的英特尔至强双socket主板,符合谷歌的1.5英寸服务器机架单元的尺寸。这是当前一代主板设计。考虑到对OPA的支持,这可能是Skylake主板(参见以下对功耗的探讨)。我们猜测这是双socket主板的原因仅仅在于,我没有听说过,在英特尔供应链中,有哪家厂商曾大量发货单socket主板。不过,随着AMD推出“Naples”Epyc X86服务器芯片,以及高通推出Centriq ARM服务器芯片,突出单socket配置,这样的情况将发生改变。

我们认为,谷歌使用两个OPA线缆将每块CPU板连接至唯一的TPU2板,以实现25GB/s的总带宽。这种一对一连接回答了关于TPU2的一个关键问题:谷歌在设计TPU2机柜时,将TPU2芯片与至强socket数量配比为2:1。这就是说,4颗TPU2芯片对应于一个双socket至强服务器。

在深度学习任务中,GPU加速器采用的配比通常为4:1或6:1,而这种TPU2加速器与处理器之间的紧耦合与此有很大不同。2:1的配比表明,谷歌沿用了第一代TPU的设计哲学:“与GPU相比,TPU与FPU(浮点处理单元)之间关系更紧密。”处理器在谷歌TPU2架构中承担了大量工作,同时把所有矩阵运算任务丢给了TPU2。

在TPU2机柜中,我们看不到任何存储模块。或许这正是下图中机柜上方大量蓝色光纤存在的原因。数据中心网络连接至CPU板,同时没有任何光纤连接至机柜B和C,而TPU2板上也没有任何网络连接。

人工智能芯片——群雄逐鹿;赛道很拥挤10

△ 很多光纤带宽连接到谷歌数据中心的其余部分

不管是TPU2还是CPU,每个机架上都有32个计算单位。每个机柜中有64个CPU板和64个TPU板,共有128个CPU芯片和256个TPU2芯片。

谷歌表示,其TRC包含1000个TPU2芯片,不过这个数字是去掉了零头的。四个机柜包含1024个TPU2芯片。因此,四个机柜是Google已经部署了多少TPU2芯片的下限。在Google I/O上公布的照片中,可以看到三个机柜,也可能是四个。

现在我们还不清楚一个机柜中的CPU和TPU2芯片如何关联,让TPU2芯片可以通过超网格中的连接有效地共享数据。我们几乎可以肯定,TRC不能跨机柜(256个TPU2芯片)处理单个任务。第一代TPU是一个简单的协处理器,因此CPU负责处理所有数据流量。在这种架构中,CPU通过数据中心网络访问远程存储器数据。

谷歌没有描述机柜的内存模型。TPU2芯片可以在OPA上使用远程直接存储器访问(RDMA)从处理器板上的内存中加载自己的数据吗?大概可以。

CPU板似乎也可能在机柜上执行相同操作,创建了大型共享内存池。该共享内存池不会像惠普企业版机器共享内存系统原型中的内存池那么快,但是有着25 GB/s的带宽,它速度不会太慢,而是在两位数太字节范围内(每个DIMM 16GB,每个处理器有8个DIMM,每个板有两个处理器,64个板产生16TB的内存)。

我们推测,在一个机柜上安排一个需要多个TPU2的任务看起来是这样:

处理器池应该有一个机柜的超网格拓扑图,哪些TPU2芯片可用于运行任务。

处理器组可能相互关联,对每个TPU2进行编程,以明确地链接TPU2芯片之间的网格。

每个处理器板将数据和指令,加载到其配对的TPU2板上的四个TPU2芯片上,包括网状互连的流量控制。

处理器在互连的TPU2芯片之间同步引导任务。

当任务完成时,处理器从TPU2芯片收集结果数据(该数据可能已经通过RDMA传输到全局存储器池中),并将TPU2芯片标记为可用于另一任务。

这种方法的优点是TPU2芯片不需要理解多任务,虚拟化或多租户,机柜上的所有这类运算都由CPU来处理。

这也意味着,如果Google想将云端TPU实例作为其谷歌云自定义机器类型IaaS的一种来提供,该实例将必须包括处理器和TPU2芯片。

目前我们还不清楚工作负载是否可以跨邮票进行缩放,并保留超级网格的低延迟和高吞吐量。虽然研究人员可以通过TRC访问1,024个TPU2芯片中的一些,但将计算量扩展到整个机柜看起来是一个挑战。研究人员或许能连接到多达256个TPU2芯片的集群,这足以令人印象深刻,因为云GPU连接目前才扩展到32个互连设备。

谷歌的第一代TPU运行时功耗40瓦,能以23 TOPS的速率执行16位整数矩阵乘法。TPU2的运行速度提高到45 TFLOPS,是上代的两倍,同时通过升级到16位浮点运算,提高了计算复杂度。一个粗略的经验法则表明,这样功耗至少翻两番:只是将运行速率提高一倍并升级到16位浮点运算,TPU2的功耗至少要提高到160瓦。

从散热器的尺寸来看,TPU2的功耗可能更高,甚至高于200瓦。

TPU2板上,在TPU2芯片顶部有巨大的散热片,它们是多年来我看到的最高的风冷散热片。同时,它们还具有内部密封循环的水冷系统。在下图中,我们将TPU2散热片与过去几个月看到的最大的散热片相比较:

人工智能芯片——群雄逐鹿;赛道很拥挤11

△ A是4个芯片构成的TPU2板侧面图;B是搭载双IBM Power9的Zaius主板;C是双IBM Power8的Minsky主板;D是双英特尔至强的Facebook Yosemite主板;E是带有散热片的英伟达P100 SMX2模块和Facebook Big Basin主板。

这些散热器的尺寸都在高喊着“个个超过200瓦”。很容易看出,它们比上一代TPU上的40瓦散热器大得多。这些散热器的高度约能填满两个机架单元,接近3英寸。 (Google机架单元高度为1.5英寸,比行业标准1.75英寸U型稍矮)。

 

英特尔

人工智能芯片——群雄逐鹿;赛道很拥挤12

至今,为了不再错过人工智能芯片,英特尔陆陆续续收购了Altera、Yogitech、Nervana、Movidius、Mobileye等多家公司,拿下了他们的FPGA等多种技术。

此前,有消息报道英特尔开发了一种自我学习的神经形态芯片——Loihi测试芯片。该芯片包括模拟大脑基本机制的数字电路,使机器学习更快、更有效率,同时降低对计算能力的需求。同时,英特尔也在10月份宣布将与Facebook共同打造AI芯片。

英特尔推出的人工智能全栈解决方案,包括至强处理器、至强融核处理器、英特尔Nervana神经网络处理器等完整硬件平台,以及FPGA、网络以及存储等技术硬件;用于深度学习、机器学习的基于英特尔架构的数学函数库Intel MKL及数据分析加速库Intel DAAL;开源深度学习框架Spark、Caffe、Theano及Neon。

而在此前,英特尔就在人工智能领域宣布推出了业内首款神经网络处理芯片Neural Network Processor-NNP ,并推出了一款拥有13万个神经元及1.3亿个突触连接的自主学习神经元测试芯片Loihi,其具备模仿人大脑根据环境反馈“自主”学习的能力。

人工智能芯片——群雄逐鹿;赛道很拥挤13

对于此次英特尔在AI领域的表现,英特尔公司人工智能产品事业部业务拓展总经理Fiaz Mohamed表示,英特尔提供了端到端的AI全栈解决方案——包括计算、存储、网络等硬件平台和多种软件工具及函数库,优化开源框架。并与合作伙伴紧密携手挖掘数据价值,加速应用部署,充分释放人工智能的潜力。

 

英伟达

在美国时间 3 月 27 日的英伟达 GPU 技术大会 (GTC 2018) 上,该公司带来了多个在深度学习、自动驾驶和机器人领域足以掀起浪潮的新产品。其中最为重头的,则是一年一度的新核弹级显卡——这次,并不是 GTX 11 系列,也不是传闻甚嚣尘上的“矿卡”,而是一台被黄仁勋称为“桌面超级计算机”的工作站:NVIDIA DGX-2。

DGX-2 是一台专门用于人工智能训练和/或推理任务的桌面计算机:

人工智能芯片——群雄逐鹿;赛道很拥挤14

这是它的内部结构:

人工智能芯片——群雄逐鹿;赛道很拥挤15

你可以看到,在图中 1 和 2 的位置看起来是很多块芯片。其实他们是英伟达的 Tesla V100 Volta 架构 GPGPU,单枚算力达到双精度 7.8 TFLOPS(万亿次浮点计算)、单精度 15.7TFLOPS、深度学习 125TFLOPS。

而 DGX-2 单机箱安装了 16 枚 V100,总体性能达到了惊人的 2PFLOPS——业界第一台超过千万亿次浮点计算能力的单机箱计算机——称它为超算或许并不浮夸。

但 DGX-2 的算力并非靠堆叠出来,如果它们之间不能实现高带宽的数据互通则无意义。

时间倒回两年前,英伟达有意在深度学习的设备市场上对英特尔发起直接挑战,推出了 Pascal 架构的 P100 GPGPU。在当时,主流服务器 PCIe 总线接口的带宽和时延,已经无法满足英伟达的需求。于是它们开发出了一个新的设备内互联标准,叫做 NVLink,使得带宽达到了 300 GB/s。一个 8 枚 GPGPU 的系统里,NVLink 大概长这样:

人工智能芯片——群雄逐鹿;赛道很拥挤16

然而 NVLink 的标准拓扑结构在理论上最多支持 8 枚 显卡,仍不足以满足英伟达对于新系统内置更多显卡的需要。于是在 NVLink 的基础上,英伟达开发出了一个名专门在显卡之间管理 NVLink 任务的协处理器,命名为 NVSwitch。这个元件在 DGX-2 上,让 16 枚 GPGPU 中两两之间实现 NVLink 互通,总带宽超过了 14.4 TB。

这一数字创造了桌面级电脑内总线接口带宽的新高,但实现它的目的并非跑分,而在于 DGX-2 可以 1)更快速地训练一个高复杂度的神经网络,或 2)同时训练大量不同结构的神经网络。

人工智能芯片——群雄逐鹿;赛道很拥挤17

△英伟达 CEO 黄仁勋,背景是 NVSwitch 示意图

N 卡之所以被称为核弹有一种另类的解释方式:它的多核心架构在这个依核心数量论高下的时代显得超凡脱俗——动辄几百、上千个 CUDA 核心,令人不明觉厉。而在 DGX-2 上,16 枚 V100 的 CUDA 核数达到了疯狂的 81,920 核心。这一事实,结合 NVSwitch 技术、512GB 现存、30TB NVMe 固态硬盘、两枚至强 Platimum CPU 和高达 1.5TB 的主机内存——

黄仁勋用 GPU 深度学习里程碑式的杰作 AlexNet 来举例。研究者 Alex Krizhevsk 用了 6 天,在英伟达 GPU 上训练 AlexNet,这个研究首次利用梯度下降法和卷积神经网络进行计算机图像识别,显著优于此前的手调参数法,拿下了 ImageNet 图像识别竞赛冠军。AlexNet 让 Alex 世界闻名,这 6 天可以说值了。

然而,“同样的 8 层卷积神经网络,我用 DGX-2 跑了一下,只用 18 分钟就达到了同样的结果,”黄仁勋说,“五年,500倍的进步。”

这说明了很多东西。其中有一条:在这五年里,英伟达的技术进步节奏已经无法用摩尔定律来描述了。

DGX-2 主要的应用场景是显著加速高端科研和商业人工智能产品的研发和面市。它显然不是一台消费级的产品——高达 150万美元的售价……

人工智能芯片——群雄逐鹿;赛道很拥挤18

开玩笑的,最终售价是 40 万美元……

然而即便是 40 万美元的未含税价格,还是让一些手头紧张的工业用户望而却步。别担心,DGX-2 只是今天英伟达在人工智能领域的几个新产品之一,其它还有:

1)DGX 机箱里面的 V100 GPGPU 升级版,内存升级到了 32 GB,哪些只需要单枚或者少量显卡的研究者,生产力得到了解放,可以训练更复杂的神经网络了:

人工智能芯片——群雄逐鹿;赛道很拥挤19

2)面向包括电影视觉特效、建筑设计等创意工业,推出的 Quadro GV100 显卡产品。Quadro GV100 是一块工作站显卡,里面是两枚 V100 GPU。这块显卡支持英伟达最新的顶级光线追踪 (Ray Tracing) 技术 NVIDIA RTX:

3)NVIDIA RTX:如前述,英伟达开发的一种极其复杂,且计算密集型的光效技术。简单来说,像在真实世界里那样,掺杂的多光源、复杂的环境,导致光线照到不同材质的物品上所呈现出的散逸,以及物品对光源、对其它物品,在曲面、球面甚至不规则表面所产生的反射效果,或者光源照射到玻璃杯产生的不规则投影——这些光效和阴影在过去极难通过计算机完美呈现,但英伟达今天向着亦真亦幻往前走了一步。

4)TensorRT 4,新一代的 TensorFlow 推理工具;GPU 对美国科技公司在去年推出的深度学习兼容框架标准 ONNX 兼容;终于可以在 Kubernetes (K8S) 上管理英伟达 GPU 了,支持 AWS、Google Cloud Platform、阿里云等。

5)新的自动驾驶车载计算架构 ORIN。

6)驾驶虚拟模拟技术 Drive SIM & Constellation。这是一个很有趣的技术,可以让英伟达以及其它开放平台的科技公司在 GPU 上模拟自动驾驶汽车训练,显著降低开放道路真车训练的危险性。这个技术还有一个独特的用例:接入了该平台的汽车,在未来可以远程操控,黄仁勋演示了一个司机在会场,用 VR 头显和手柄远程驾驶一辆汽车躲避障碍并成功泊车。硅星人之后还会对这个技术进行探秘。

人工智能芯片——群雄逐鹿;赛道很拥挤20

7)机器人开发开放平台 ISSAC,利用了英伟达在自动驾驶上积累的一些技术,比如高精度地图绘制等。

8)Project CLARA,一个云端医疗诊断的项目。这个项目非常有趣,简单来说,英伟达医院提供基于云端的医疗图像识别超算,一个场景是上传心脏 B 超的实时视频流,云端的显卡运行训练好的神经网络,可以将画面变成三维的体积图像,然后实时将器官高亮出来,从而生成一个更容易观看的3D画面。现场演示的画面还给出了器官功能的实时数据,包括每次搏动的泵出血量等,令人印象深刻。

人工智能芯片——群雄逐鹿;赛道很拥挤21

英伟达的创办人黄仁勋一袭皮夹克的他,工程师出身又负责过市场,演讲起来丝毫没有许多其它科技大佬身上特有的“虚伪”气息。

在 GTC 2018 上,可能觉得自己气场还不够强,他直接站在了椅子上接受记者的提问;他明显接受过公关训练,但在回答提问时的诚恳仍然在科技大佬中显得独特,甚至直接问旁边的公关“你是不是想打断我来着?但我已经说完了。人称“核弹教父”的黄仁勋,名副其实。

他吐槽常见的 x86 架构服务器栈,一个机柜动辄数十台服务器,十几台机柜总成本成百上千万美元。而取得同样的深度学习训练效果,只需几台或者十几台 V100,或者一台 DGX-2,价格至多六位数。这也是为什么他在演讲时,不断对台下的观众重复:多买更划算!(The more you buy, the more you save.) 几乎将一场 GPU 技术前沿的演讲变成了电视购物。

“Watch now ‘cause here I come.” 是黄仁勋上台前的暖场歌曲里的一句歌词。

至少在今天,将摩尔定律踩在脚下,黄仁勋和他的英伟达看起来势不可挡。

人工智能芯片——群雄逐鹿;赛道很拥挤22

人工智能芯片——群雄逐鹿;赛道很拥挤23

 

苹果

人工智能芯片——群雄逐鹿;赛道很拥挤24

在iPhone 8和iPhone X的发布会上,苹果明确表示其中所使用的A11处理器集成了一个专用于机器学习的硬件——“神经网络引擎(Neural Engine)”,每秒运算次数最高可达6000亿次。这块芯片将能够改进苹果设备在处理需要人工智能的任务时的表现,比如面部识别和语音识别等。

根据苹果发布会上介绍,苹果的面部识别技术(以下简称: Face ID)有9大特征。

人工智能芯片——群雄逐鹿;赛道很拥挤25

人脸验证

原深感镜头

注册简单

专门的神经网络

安全自然

用户隐私

注意力感知

自适应性

和Apple Pay以及其他应用协同工作

iPhone X 顶部被大家吐槽的“刘海"部分就集成了实现Face ID功能的这些器件,包括红外镜头、泛光感应元件、点阵投影器和普通摄像头。

很明显,仅仅拥有这些器件是不够的,还需要强大的处理器芯片。

手机前端器件在高达3万个采样点的基准上建立用户脸部3D数据后,之后的每次解锁都会将用户与之前采集的数据对比,传输到全新的A11芯片中的神经网络模块神经引擎(Neural Engine )进行处理。需要注意的是苹果云端并不会收集这些数据,安全性也因此大大提高。

值得一提的是在苹果发布会前一天,小米也推出了支持面部解锁的小米note3。同为“刷脸”,但背后的技术解决方案实则不同。小米note3上的“刷脸”技术提供商旷视科技表示:

苹果在过去的五年多时间,收购了五六家人脸识别公司,在脸部识别这一块有一定的技术积累。此次苹果iphone X上的采用的是红外结构光/结构光双摄,搭载3D结构光深度镜头,其原理是基于主动发射特定红外结构光照射被检测物体,从而获取人像的3D图像数据。

结构光解锁方案安全性较高,相应的成本也较高。短时间内可能只会限制使用在像iPhone X这样的高溢价手机型号上。现在市面上出现的搭载人脸识别技术的手机多是应用2D人像解锁,因此也易被一些高仿真度的照片攻击。而结构光能抵御所有的平面攻击。

库克在发布会上也专门用数字强调了Face ID的安全性:

如果说原来的Touch ID有五万分之一的可能被破解,那么Face ID被别人打开的概率可能只有百万分之一。话句话说,安全性上升了20倍。

为AI而生——A11和A11 Bionic

人工智能芯片——群雄逐鹿;赛道很拥挤26

早在几个月之前,网上就曾传闻苹果在做AI专用芯片,用于处理AI相关任务,比如面部识别、图像处理和语音识别。如今看来指的就是这款应用在iphone X上的定制芯片A11 Bionic。发布会上苹果全球营销高级副总裁 Phil Schiller 重点介绍了“目前最强大的智能手机芯片”——A11 Bionic。该 CPU 配备六核心,2个性能核心(Mistral)和四个效能(Monson)核心,分别比 A10 快 25% 和 70%。同时由苹果自研的 GPU 处理速度也比 A10 快 30%。A11人工智能芯片,专业的Metal2图形处理软件,结合深度整合的硬件,让Face ID这样的3D交互方式成为了现实。

A11 Bionic 除了对Face ID功能的支持外,它还有助于iPhone的AR功能实现,竖排摄像头专门为 AR 而校准,刷新率可达到 60 fps,全新陀螺仪和加速计,以及准确的动作追踪,这些都离不开A11提供的强大算力。

 

特斯拉

人工智能芯片——群雄逐鹿;赛道很拥挤27

一直以来,特斯拉自研 AI 芯片的传闻就时有传出,尤其是在去年他们挖走了AMD的传奇架构师 Jim Keller 之后,这种传言就显得更加“真实”了。

而现在,特斯拉CEO马斯克终于证实了这一猜测。在今年的神经信息处理系统大会 ( Conference and Workshop on Neural Information Processing Systems,NIPS )上,马斯克与特斯拉新任人工智能部门主管 Andrej Karpathy、特斯拉自动驾驶硬件工程副总裁 Jim Keller 和 Bloomberg(彭博社)风投机构 Bloomberg Beta 合伙人 Shivon Zilis 举行了一个谈话,承认 Keller 正在领导特斯拉开发自己的AI芯片。

人工智能芯片——群雄逐鹿;赛道很拥挤28

对于Jim Keller,马斯克可谓是评价颇高,坚信他可以打造出“世界上最好的 AI 定制硬件”。而事实上,Jim Keller 的确可以称得上是天才架构师,他在 AMD 期间,设计出了K7 和K8等知名架构,后又在苹果设计出了 A4、A5 处理器,这可是当年 iPhone 最核心的部件。而在回到 AMD 之后,Keller 依旧才华横溢,继续贡献出最新的芯片架构。

2016 年跳槽到特斯拉之后,Jim Keller 从 AMD 带走了一批架构师和高管,根据 CNBC 在 9 月份的一则报道,特斯拉已经有超过 50 人在从事 AI 芯片的开发了,从中也可以看出特斯拉的早早置下的自研 AI 芯片的野心。

人工智能芯片——群雄逐鹿;赛道很拥挤29

不过,不得不承认,马斯克的这一举动可以称得上是一次冒险之举。特斯拉第一代的 Autopilot 使用的是基于 Mobileye 的芯片,但在 Mobileye 被英特尔收购之后,两家情况发展的并不乐观,去年更是因为 Autopilot 的故障而出现了一次严重的事故,于是特斯拉转投英伟达,也就有了新一版的 Autopilot 2。

但以马斯克的性格来看,他是万万不可能长期依赖于英伟达或者其它第三方供应商的,要尽可能地将组件制造都掌握在自己的手中,这种长期以来的企业经营理念已经从他执掌的特斯拉和 SpaceX 两家公司的发展中展现的淋漓尽致。

但从更深层次的角度来讲,独立自研芯片无疑对加速自动驾驶汽车的研制具有重要意义。而且,随着芯片运算速度的提升,理论上来讲,车辆的安全性也将会因此而得以大幅提高。

可以说,随着人工智能技术的火热,越来越多的公司都已经开始为自己的科技产品添加“AI”的元素了。例如苹果和华为都已经开始将人工智能处理器加入到了自家最新的手机产品中;谷歌也利用 AI 强化了自己的云服务;甚至连无人机和相机都已经逐渐被 AI 化了。

人工智能芯片——群雄逐鹿;赛道很拥挤30

那对于汽车来讲,AI的元素也肯定是不能缺少的。在NIPS会议上,马斯克就反复谈起了他雄心勃勃的自动驾驶梦——要在两年内实现L5级别的完全自动驾驶。同时,马斯克还预测人工智能的智慧程度会指数级增长,5至10年之内将超过人类。

 

国内:

人工智能芯片——群雄逐鹿;赛道很拥挤31

寒武纪科技(Cambricon)

寒武纪科技2016年于北京中关村和上海临港注册成立成,是全球第一个量产商业人工智能芯片的公司,拥有终端和服务器两条产品线。寒武纪始于2008年中科院计算所成立的10人学术团队,这支团队自成立以来一直专注于探索处理器架构与人工智能的交叉领域,日后成为了寒武纪的中坚力量。2015年,在中科院战略性先导专项和中科院计算所的支持下,寒武纪芯片首次成功流片。公司创始人、首席执行官陈天石教授,在处理器架构和人工智能领域深耕十余年,曾获国家自然科学基金委员会“优青”、CCF-Intel青年学者奖、中国计算机学会优秀博士论文奖等荣誉。

2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越CPU和GPU,与特斯拉增强型自动辅助驾驶、IBM Watson等国内外新兴信息技术的杰出代表同时入选第三届世界互联网大会(乌镇)评选的十五项“世界互联网领先科技成果”。

人工智能芯片——群雄逐鹿;赛道很拥挤32

2017年,集成了寒武纪技术的华为Kirin970手机芯片和mate10手机全球发布,实测结果表明寒武纪科技与华为的联合研发成果在图片识别速度上超越了搭载A11芯片的iPhone X。这一合作吹响了手机进入智慧时代的号角,为中国高科技公司的商业合作树立了典范。

2017年11月6日,寒武纪科技在北京举行首场发布会,发布了全球新一代AI芯片:面向低功耗场景视觉应用的寒武纪1H8、拥有更广泛通用性和更高性能的寒武纪1H16,以及可用于终端人工智能产品的寒武纪1M。寒武纪高性能机器学习处理器芯片“寒武纪mlu100”和“寒武纪mlu200”初露峥嵘,这两款芯片主要服务于服务端的智能处理需求,分别偏重于推理和训练两个用途。随同一系列智能处理器IP新品发布的,还有寒武纪科技专门为用户打造的寒武纪人工智能系统软件“CambriconNeuWare”,全面支撑端云一体的智能处理。

2017年8月17日,寒武纪科技完成一亿美元A轮融资,由国投创业(A轮领投方),阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点(天使轮领投方)、涌铧投资(天使轮投资方)联合投资。寒武纪科技所获A轮融资将用于推动寒武纪系列处理器在终端和云端的产品化和市场化,促进各类终端设备的智能化,提供高性能低功耗的云端智能处理解决方案。

因为1亿融资而成为AI芯片领域的首个独角兽,再加上华为麒麟970的发布,寒武纪在AI芯片领域的成果是众人皆知的。

寒武纪一口气发布了三款新一代AI芯片,分别为面向低功耗场景视觉应用的寒武纪1H8,高性能且拥有广泛通用性的寒武纪1H16,以及用于终端人工智能产品的寒武纪1M。

 

地平线机器人(Horizon Robotics)

地平线机器人成立于2015 年 7 月,北京、南京、深圳设有研发中心和商务运营团队,由百度深度学习研究院( IDL )创始人余凯创办,致力于提供高性能、低功耗、低成本、完整开放的嵌入式人工智能解决方案,面向智能驾驶、智能生活和智能城市等应用场景,希望为世界上超过1,000种设备装上“大脑”,让它们具有从感知、交互、理解到决策的智能,让人们的生活更安全、更便捷、更有趣。

地平线具有领先的深度学习和决策推理算法开发能力,将算法集成在高性能、 低功耗、低成本的嵌入式人工智能处理器及软硬件平台上,提供基于ARM/FPGA等处理器的解决方案,同时开发自主设计研发的Brain Processing Unit (BPU)— 一种创新的嵌入式人工智能处理器架构 IP,提供设备端上完整开放的嵌入式人工智能解决方案,地平线携手英特尔在CES2017上发布了基于BPU架构的高级辅助驾驶系统。

人工智能芯片——群雄逐鹿;赛道很拥挤33

2017年10月20日地平线机器人正式宣布获得来自英特尔投资的注资。地平线预期于年底前完成总额近亿美元的A+轮融资。本轮由英特尔投资领投,嘉实投资联合投资,其他参投方包括现任股东晨兴资本、高瓴资本、双湖投资和线性资本。泰合资本担任本轮融资的独家财务顾问。

 

深鉴科技(Deephi Tech)

深鉴科技成立于2016年,由清华大学与斯坦福大学的世界顶尖深度学习硬件加速研究者创立,公司位于北京,致力于成为国际先进的深度学习加速方案提供者。深鉴科技创始人兼CEO姚颂2011年进入清华大学电子系读本科,2015年毕业。

深鉴科技最为核心的即Deep Learning Processing Unit(DPU)及神经网络压缩编译技术,并被世界最大的FPGA芯片厂商Xilinx认为是世界深度学习硬件加速的典范。通过神经网络与FPGA的协同优化,深鉴提供的嵌入式端与云端的推理平台更加高效、便捷、经济,现已应用于安防与数据中心等领域。

深鉴科技还推出了深度神经网络开发包“DNNDK”,它是一个深度学习软件开发工具包,作为一个集成框架,旨在简化和加速深度学习应用。

分享到:
热门搜索
相关问答
中发智造自媒体
微信公众号
头条公众号
微博公众号
最新最热 行业资讯
订阅栏目 效率阅读