曾被百度开除的工程师在美国成立AI公司

发布时间：2017年10月18日 06:43 来源：geceo.com 编辑：创新中国阅读量：7349

导读：在历经一连串的风波后，曾经是百度(Baidu)人工智能(AI)杰出工程师的吴韧(RenWu)黯然离去，不久后在美国加州成立了一家AI新创公司——NovuMind。在日前接受《EETimes》的专访中，吴韧谈到了这家新创公司的发展动向以及他希...

在历经一连串的风波后，曾经是百度(Baidu)人工智能(AI)杰出工程师的吴韧(Ren Wu)黯然离去，不久后在美国加州成立了一家AI新创公司——NovuMind。在日前接受《EE Times》的专访中，吴韧谈到了这家新创公司的发展动向以及他希望达到的目标。

吴韧，NovuMind创始人暨首席执行官

NovuMind大约在两年前成立，目前共有50名员工，包括在美国的35名工程师，以及北京的15名员工。该公司目前正针对吴韧所描述的深度学习(deep learning)精简途径进行测试。

相较于Nvidia的绘图处理器(GPU)或Cadence的数字信号处理器(DSP)等通用的深度学习芯片设计，吴韧强调，NovuMind专注于开发“能更有效进行推理(interference)”的深度学习加速器芯片。

NovuMind所设计的AI芯片仅使用尺寸极小(3x3)的卷积滤波器。

值此人工智能步伐进展神速至几乎令人晕眩之际，NovuMind的这种设计途径似乎与一般的直觉预期相左。事实上，许多关注于未来AI算法的竞争对手们都将目光投向尽可能进行编程且强大的芯片上。

相形之下，NovuMind则专注于“惟有神经网络的核心不可能改变”的设计理念。吴韧解释说，5x5卷积能透过堆栈2个3x3滤波器以低度运算来完成，而7x7则可堆栈3个。“那么，为什么还要大费周章地使用其他滤波器？”

针对边缘设备上深度学习加速器所采用的DSP和GPU等架构，最大的问题就是“处理器的利用率非常低”。吴韧说，NovuMind“采用独特的张量(tensor)处理架构，解决了这个效率问题。”

他表示，NovuMind的设计想法是相当“主动积极的思考”方式，因为它专注于神经网络中的最小卷积组合；同时，新芯片的使命在于让更具功率效率的AI嵌入任何应用中。

该公司专为原型设计的首款AI芯片预计将在今年圣诞节之前投片。而在明年2月以前，预计就可看到以低于5瓦(W)功耗执行每秒15兆次性能(TFLOPS)的芯片应用出现。此外，第二款芯片设计还将执行于1W以下，预计在2018年中发布。

NovuMind的新芯片将支持Tensorflow、Caffe和Torch等原生的深度学习架构模型。

吴韧认为AI芯片的终极境界在于让小型的连网“边缘”设备不仅能“看”也能“思考”(而且认知其所见所闻)，而不至于占用数据中心带宽。他将此称为智慧物联网(I2oT)。

对于过去几年来行事较低调的吴韧来说，NovuMind在某种程度上为他带来了补偿的机会。

就在两年前，中国搜寻巨擘——百度在2015年ImageNet大规模视觉识别挑战赛(ILSVRC)中被取消资格后，吴韧也被百度开除了。但吴韧随后否认了这起被称作“机器学习首例作弊丑闻”。

不过，在接受《EE Times》的专访时，吴韧并不愿意再谈到这起事件，而仅表示“我想我应该是被陷害了”。

在当今积极追逐边缘设备深度学习加速器的竞赛中，NovuMind正大步向前迈进。2016年12月才刚获得1,520万的首轮资金，NovuMind如今即将展开第二轮募资行动。吴韧在电话专访中解释：“这就是为什么我目前留在北京。”

3D Tensor运算

正如吴韧所说的，深度学习加速的关键在于使效率最大化，同时让延迟减至最低，特别是针对边缘设备。当然，许多边缘设备还受到成本和电池寿命的限制。而无人机和自动驾驶车辆并不容许任何延迟，因为它们必须能毫无延迟地识别突然出现的危险。

在此背景下，吴韧指出可用于边缘设备深度学习加速的现有解决方案有二：DSP——如CEVA和Tensillica；以及GPU——如Nvidia的TX系列。

他接着解释说，DSP的设计用于数字滤波，使用1D乘积累加运算(MAC)来完成任务。GPU(和Tensor处理单元)运作的本质是2D通用矩阵乘法(GEMM)。

1D MAC、2D GEMM和3D Tensor运作的比较（来源：NovuMind）

然而，吴韧认为，DSP和GPU都无法有效地实现深度学习加速任务。他解释说，深度学习网络模型运算中的最新技术是3D张量运算。“当然，如果您将3D张量作业转换为1D MAC作业(针对DSP应用)或2D GEMM作业(针对GPU应用)，则会失去许多效率。”

吴韧解释说：“这就是为什么即使GPU和DSP声称具有高峰值性能(~1-2TFLOPS)，而当执行真正的深度学习网络推理时，其平均性能仅为实时应用峰值性能的20-30%。”

他说有很多的处理能量都浪费在内存存取。平均而言，运算资源的70-80%性能都处于空闲状态，等待来自内存的数据。

NovuMind使用吴韧所谓的“独特的张量处理架构”。NovuMind的芯片架构原生支持3D张量运算。他强调，这将有助于“大幅提高能量和芯片面积的效率。”据吴韧介绍，NovuMind的架构可达到实际应用峰值性能的75～90%。

内存阶层结构

吴韧声称，NovuMind“基于3D张量运算”的设计，为其AI芯片带来了巨大优势。“由于它能直接在3D张量上进行处理，我们不必为了将卷积扩大到2D矩阵而介入中间步骤，因而能够节省大量的内存带宽与内存存取能量。”

但工程技术脱离不了权衡折衷。为了追求嵌入式AI所需的功率效率，NovuMind的AI芯片又必须放弃什么呢？

吴韧表示：“NovuMind的芯片仅支持一些有限的拓扑结构，如VGG、RESNET网络所定义的层级，以及另一小部份我们认为重要且相关的其他网络层。”

他指出：“我们的芯片将非常有效地运算所支持的这些网络层。它当然也可以处理其他分层，但并不是优化的。”

至于其缺点呢？吴韧认为NovuMind的AI芯片的“通用性不足”。如果网络中包含许多无法支持的分层，“其性能就不再具有竞争力”。但吴韧仍有信心“透过NovuMind强大的AI团队和内部训练能力，很快地将会涵盖与现实世界应用相关的所有重要分层。”

不过，NuvoMind为什么深信3x3滤波器是必经之路？吴韧说：“这必须归功于原始的VGG论及其作者。”

VGG是指英国牛津大学(Oxford University)工程科学系视觉几何小组(Visual Geometry Group；VGG)。VGG研究人员在2015年撰写了题为“大规模影像识别的超深度卷积网络”(Very Deep Convolutional Networks for Large-Scale Image Recognition)的论文。

VGG的这篇论文说服了吴韧将其芯片架构映像到硬件。他随即惊讶地发现这是多么友善硬件的途径。“算法设计者能够提出如此优越且友善硬件的设计，这是极其罕见的情况之一。”他认为，我们目前看到其他实际有用的网络拓扑都是以VGG的成果为基础的。

吴韧并补充说：“由于3x3卷积是一个重要的组成部份，我们的设计当然将会尽可能地确保使其具有最高效率。”

延迟比较

吴韧表示，相较于DSP和GPU，NovuMind的架构在延迟方面表现出色。

他观察到，“DSP是专为串流数据处理而设计的，延迟表现不错。”另一方面，“GPU通常需要大量作业，因而延迟较差——在8-64批次大小时约延迟50-300毫秒(ms)，”使其难以满足实时的需求。

他解释说，NovuMind架构也使用了串流模式的数据处理(延迟lt; 3ms)。“我们可以想象，当一辆自动驾驶车以每小时65英哩(mph)的速度行驶而必须立刻煞车时，NovuMind架构比GPU更具有转化4.5-30英呎距离的延迟优势。”他夸耀地说，“这将会对自动驾驶车带来重大影响。”

开发蓝图

NovuMind的首款芯片将采用28nm工艺技术，并由代工厂生产。据吴韧介绍，第二款芯片将会采用16nm工艺，预计在2018年中期投片。

吴韧说首款芯片是为了原型设计而生产的，但已可用于几种应用场景。其一是结合NovuMind芯片的USB运算棒，可用于使连网设备(如连网相机)成为AI驱动的系统。其次，该AI芯片由于具备15TFLOPS的效能，因而可用于“自动驾驶车”。第三种应用则是将AI芯片用于进行云端加速。

根据吴韧观察，数据中心所使用的GPU对于机架空间造成了限制。来自GPU的更高功耗(导致额外的热)更是“罪魁祸首”。虽然NovuMind的AI芯片是专为边缘设备而设计的，但将它放在服务器内部的PCI板时，其微型的封装能够有效地执行单一应用程序，例如必须在数据中心处理的语音识别应用。

那么，什么样的AI应用程序最适合采用NovuMind的AI芯片？NovuMind认为其AI芯片可在像自动驾驶中作为搜寻路径的理想应用吗？

吴韧的答案是否定的。他解释说，当今自动驾驶车的密集运算单元“复杂度远超过任何人的想象”。事实上，他预期自动驾驶车中将会有多个AI芯片预先处理数据，并将数据馈送至可作出明智决定的中央单元。他解释说，NovuMind的AI芯片将会是自动驾驶车内的众多AI芯片之一。

吴韧说该公司的AI芯片至今可执行“城市/国家级、多字符串、多目标的人脸识别”等应用。例如，凭借着该芯片支持并处理128个高分辨率(HD)视频串流的能力，可让系统从十万支连网摄影机中识别数百万的目标人群。更重要的是，他强调，“我们可以在边缘设备实现这一点，而无需连网摄影机要求的大量带宽、储存空间与设置。”

为传感器添加直觉能力

至于深度学习的未来，吴韧说，“掌握大数据和巨大的运算能力，让我们能够训练神经网络完成许多复杂的任务。”这也正是AI社群目前的目标所在。

但他解释，NovuMind希望能够为传感器增添“直觉”。就像人类和动物都具有五种感官一样，机器也应该能够具备一定的“本能”，协助他们迅速做出反应。

而至于机器的一般智力、推理和长期记忆，“我们还有很长的路要走。”

编译：Susan Hong

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

下一篇:当酒店遇上共享办公：如何掘金闲置存量空间资源？

分享到微信

曾被百度开除的工程师在美国成立AI公司

相关内容

专题报道

新闻排行