登陆云边端,AI芯片产业打响全线战争
IT/云计算 登陆云边端,AI芯片产业打响全线战争 IT/云计算 | 2020-04-30 09:09 登陆云边端,AI芯片产业打响全线战争 脑极体

在未来,芯片的易用性、有效算力、能效比以及落地速度,都将成为影响AI芯片产品失败与否的关键。在各个方面都持续做好迭代创新,才是考验所有这些AI芯片玩家们能否在始终在场不掉队的关键因素。

对于AI行业,算法、算力和数据是三大基础要素。深度学习模型的不断优化带来的算法的成熟应用,5G网络以及边缘、终端的普及让海量数据的获取和传输变得唾手可得,而将算法和数据协调统一处理的算力资源就成为当前AI发展的关键制约因素了。


算力的提升在于芯片的性能是否得到飞跃。由于深度学习算法对芯片性能有着极为苛刻的效率要求和超高的并行计算要求,传统的通用CPU在AI计算当中性价比极低。因此,适合于深度学习要求的海量并行计算和计算加速的AI芯片就成为当前AI巨头们角力的赛场。


广义上来说,包括像GPU、FPGA以及 ASIC(专用芯片)这些提供AI算力的芯片都可以称之为AI芯片。按照任务划分,AI芯片可以分为训练芯片和推理芯片;按部署位置划分,可以分为云端芯片、边缘侧和终端芯片。


其中,训练芯片对算力、精度和通用性要求较高,一般部署在云端,多采用“CPU+加速芯片”这类异构计算模式;推理芯片更加注重综合性能,更考虑算力耗能、延时、成本等因素,在云端和边终端都可以部署。


云端AI芯片部署在公有云、私有云和混合云等大型数据中心,能满足海量数据处理和大规模计算,可通过多处理器并行完成各类AI算法的计算和传输,具有通用性。边终端AI芯片要求体积小、能耗少、性能略低,主要用于摄像头、手机、边缘服务器等终端设备中,满足有限的AI能力。


从2016年谷歌TPU专用芯片大放异彩之后,AI芯片快速经历了2017年资本涌入、巨头纷至沓来,2018年新玩家争相入局、初露峥嵘,2019年至今,AI芯片进入全面商用落地的激烈竞争格局当中。


按照Gartner数据,伴随着全球AI产业的快速增长,未来5年,AI芯片仍然会以每年50%的速度增长。在过去的一年当中,AI芯片在云端、边缘侧以及终端领域都取得了明显进展。


我们将通过梳理AI芯片在这三大细分市场的最新进展,来进入其行业纵深,找到AI芯片行业发展的最新动向。



新势力入局,云端AI芯片的抢滩争夺战


在云端的数据中心,无论是深度学习的算法训练还是推理服务,都绕不开英伟达的GPU产品。AI算法训练的主要芯片配置是GPU+ASIC,全球主流的云端硬件平台都在使用英伟达的GPU 进行加速。而在推理服务上,主要还是采用CPU+GPU的方式进行异构计算,这得益于GPU强大的并行计算能力、通用性以及成熟的开发环境,但GPU的高能耗和昂贵成本,也成为众多云厂商的心中隐痛。


相比之下,FPGA的低延迟、低功耗、可编程性优势和ASIC的特定优化和执行特定模型的效能优势就非常突出了。因此,我们看到越来越多的云厂商和芯片厂商开始尝试CPU+FPGA或CPU+ASIC 这样的异构方式,推出更符合自身云端算力要求的AI芯片。


2019年4月,高通推出了面向数据中心推理计算的云端AI芯片Cloud AI 100,峰值性能超过350TOPS,与其他商用方案相比,每瓦特性能提升10倍。


而早先云服务巨头亚马逊也已推出了机器学习推理芯片AWS Inferentia,最高算力可以达到128 TOPS,在AI推理实例inf1可搭载16个Inferentia芯片,提供最高2000TOPS算力。


而在国内,阿里巴巴在去年9月推出自研架构和算法的AI推理芯片含光800,主要用于和电商业务相关的云端视觉场景,在RESNET50基准测试中获得单芯片性能第一的成绩。


华为则推出了全球最快的AI训练集群Atlas900,集成了数千颗昇腾910芯片,总算力可以输出256-1024 PFLOPS@F16,相当于50万台PC计算能力的强劲算力。


去年底,腾讯投资的燧原科技推出面向云端数据中心的AI训练加速卡云燧T10,单卡单精度算力达到20TFLOPS,可以为大中小型数据中心提供了单节点、单机柜、集群三种模式。此外,像寒武纪、比特大陆也在去年从细分市场进入云端AI芯片市场,试图抢占一定的云端AI芯片的市场份额。


Gartner数据显示,全球AI服务器及AI芯片市场规模自2016年到2020年都将保持持续的高速增长,而全球云端AI芯片当中GPU的市场份额却呈现出持续下滑的趋势,预计到2022年云端训练GPU占比将降至60%,云端推理GPU占比更是只有30%。


这意味着云端AI芯片的专用芯片的市场规模将进一步扩大,新入局玩家们特别是云服务厂商的巨头玩家们都会尽可能在自家的数据中心部署结合自身算法的AI芯片。


2020年,随着高通、英特尔等芯片巨头、AWS、阿里、华为等云厂商以及芯片初创公司产品的落地,云端AI芯片市场的竞争将更趋激烈,未来将进一步削弱英伟达的话语权。



从云端涌入的巨头玩家,

搅动边缘AI芯片新战场


随着5G、自动驾驶、IoT等新技术普及和配套设备的海量涌现,接下来将为边缘侧AI芯片提供更大的发挥空间。特别是5G网络的普及将带来边缘侧数据处理方式的变革,为边缘侧AI的工作负载提供了更多需求。


边缘计算正在被视为AI的下一个重要战场,原有的在云端、终端都有所积累的厂商,都希望通过边缘AI芯片的布局,完善云、边缘、终端生态,打造一体化的计算格局。


早在2018年,谷歌就发布了用于边缘推理的微型AI加速芯片——Edge TPU,专为企业在IoT设备中的机器学习任务而设计。在去年3月,谷歌还推出了千元级搭载Edge TPU芯片的开发板,可以加速硬件设备上的模型推理。

(谷歌Edge TPU开发板)


似乎为回应谷歌的这一挑战,英伟达发布了面向嵌入式物联网的边缘计算设备Jetson Nano,适用于入门级网络硬盘录像机、家用机器人以及具备全面分析功能的智能网关等应用。而在去年11月,英伟达又发布了边缘AI超级计算机Jetson Xavier NX,能够在功耗10W的模式下提供最高14TOPS,在功耗15W模式下提供最高21 TOPS的性能,为更小尺寸、更低功耗的嵌入式边缘计算设备提供了AI推理能力。


(英伟达Jetson Xavier NX)


同样在去年底,寒武纪发布用于深度学习的SoC边缘加速芯片思元220,采用台积电16nm工艺,最大算力32TOPS,功耗控制在10W,支持Tensorflow、Caffe、mxnet以及pytorch等主流编程框架。根据其公布的数据,参数性能可以比肩英伟达去年发布的 Jetson 系统级模块——AGX Xavier 和Jetson Xavier NX。


在去年7月的百度AI开发者大会,联合三大运营商、中兴、爱立信、英特尔等,发起百度AI边缘计算行动计划,旨在利用AI推理、函数计算、大数据处理和产业模型训练,推动AI场景在边缘计算的算力支撑和平台支持,加速百度AI应用生态在5G、物联网等新型场景下快速落地。


在自动驾驶这类专用边缘场景上,AI芯片也出现加速势头。目前,由于自动驾驶算法仍在快速更迭和进化,大多自动驾驶芯片使用 GPU+FPGA 的解决方案。最典型的产品如英伟达的DRIVE PX系列及后续的Xavier、Pegasus系列等。在去年 CES上,英伟达推出了全球首款商用L2+自动驾驶系统NVIDIA DRIVE AutoPilot。DRIVE AutoPilot的核心就是Xavier系统级芯片,其处理器算力高达每秒30万亿次。


英特尔虽然入局自动驾驶芯片市场较晚,但通过一系列大笔收购,很快推出了完整的自动驾驶云到端的算力方案,包括英特尔凌动/至强+Mobileye EyeQ + Altera FPGA,其中,英特尔收购 Mobileye推出的 EyeQ5,可以支持 L4-L5 自动驾驶,预计在今年量产。


而在国内,国内初创企业如地平线、眼擎科技、寒武纪也都在积极参与。地平线去年正式宣布量产国内首款车规级AI芯片“征程二代”,采用台积电28nm工艺,可提供超过4TOPS的等效算力,典型功耗仅2瓦,延迟少于100毫秒,多任务模式下可以同时运行超过60个分类任务,每秒钟识别目标数超过2000个,面向车联网对强实时响应的需求。


据预测,从2018年到2022年全球边缘计算相关市场规模的年复合增长率将超过30%,到2022年,边缘计算市场规模将超万亿,与云计算市场规模不相上下。正因为边缘计算如此巨大的市场前景,国内外行业巨头纷纷开始边缘侧AI芯片的布局。


对于杀入边缘侧的AI芯片巨头而言,实现云-边-端-网的多方协同,其中就必须要完成从云端到边缘的端到端解决方案的布局。这一动作客观上也加剧了边缘侧AI芯片的竞争态势,为AI初创企业带来更多的生存压力。



性能功耗比拼:终端AI芯片的无限战争


移动端AI芯片市场目前主要是在智能手机上。为实现差异化竞争,各手机厂商都加入了AI功能的开发,通过在手机SoC芯片中加入AI引擎,调配现有计算单元来实现AI计算,或者直接加入AI协处理器来实现AI功能的运行。


智能手机作为一种多传感器融合的综合数据处理平台,要求AI芯片具备通用性,能够处理多类型任务能力。而智能手机又受制于电池容量大小和电池能量密度限制,AI芯片在追求算力的同时对功耗有着严格的限制。


目前主流厂商都开发专用的ASIC芯片或者是使用功耗较低的DSP作为AI处理单元。


根据一份最新的手机AI芯片排名,高通骁龙865、苹果A13和华为麒麟990分列前三。


排在第一名的高通骁龙865,采用了全新的第五代AI Engine,可以实现高达每秒15 TOPS的运算,相比骁龙855提升了两倍的运算能力。通过AI异构多核可编程架构的设计思路,集成了传感器中枢,利用多种不同引擎协同完成AI任务,在精度和功耗之间取得平衡。


苹果A13处理器,采用第二代7nm工艺,专为高性能和低功耗而量身定制,拥有85亿个晶体管。其GPU为四核心设计,速度提升20%,功耗降低40%,也就是在性能大幅提升的前提下续航并没有降低。


华为去年推出的麒麟990 5G的NPU,采用双大核+微核的方式,其大核负责性能,微核拥有超低功耗,其中微核在人脸检测的应用场景下,能耗比大核工作降低24倍。


根据信通院报告统计,2017年全球手机AI芯片市场规模3.7亿美元,占据全球AI芯片市场的9.5%。预计2022年将达到38亿美元,年复合增长率达到59%,未来五年有接近十倍的增长。而目前能够在智能手机Soc芯片中取得领先位置的仍然只有高通、苹果、华为、三星等少数玩家,雄厚的资金实力和海量的销售规模,使得每家都愿意拿出真金白银来投入到新一代的AI芯片研发上面,在芯片的性能和功耗平衡上面实现碾压和赶超。



洗牌已至?AI芯片之战才刚刚开始


有媒体分析,根据行业发展规律,AI芯片在经历了短暂的资本狂欢和创业高峰之后,会在2020年之后,出现第一批出局者,开始行业的大洗牌。


这一结论自然具有一定的道理。由于AI芯片产业是一个高投入、长周期,依靠量产规模优势才能艰难取胜的产业。同时由于AI技术发展迅猛,芯片的设计周期可能无法赶上算法的迭代周期,这很容易造成AI芯片从设计到落地,已经无法赶上当前的计算需求。


此外,在对成本和能耗极为敏感的移动终端,还需要特别关注AI芯片的计算效能,达到低功耗、小体积、开发简易,这些都需要探索架构上的创新。


实际上,2019年有不少商用的AI芯片,已经开始面临芯片难以落地的困境,原因多种多样,比如芯片本身带来的性能提升不够有吸引力,芯片不适配应用的需求,易用性不高,选择的行业难以突破等等。


显然,种种限制条件和不利因素会更有利于那些入局早、实力雄厚的芯片巨头和互联网巨头,而对那些依靠融资存活的AI芯片初创企业们带来巨大压力。


但这并不意味着AI初创企业都会进入被洗的哪一阵营。除了少数巨头把持的云端芯片市场、日趋头部化的智能手机Soc芯片市场,未来AI芯片还将在智能家居、智能安防、自动驾驶等边缘、终端上面有着巨大的市场空间,同时在医疗、教育、零售、交通等行业有着丰富的应用场景。当AI芯片的盘子足够大的时候,多样化生态仍然会保持一段时间。


当前全球AI芯片产业仍然处于产业化的早期阶段,最新推出的AI芯片主要还是集中在专用芯片领域,AI芯片初创企业仍然可以在ASIC上取得独有的优势。例如在AI架构上的探索上面,国内的一些初创企业也已提出一些可以适用于多种算法需求、多种场景需求的全新架构。可重构架构以及存算一体成为未来AI芯片实现性能突破的主要方向。


在未来,芯片的易用性、有效算力、能效比以及落地速度,都将成为影响AI芯片产品失败与否的关键。在各个方面都持续做好迭代创新,才是考验所有这些AI芯片玩家们能否在始终在场不掉队的关键因素。

-END-

本文由脑极体投稿一鸣网,本文仅代表作者个人观点,文章非经授权请勿转载,

向一鸣网投稿,请点击投稿按钮,详情请参阅《一鸣网投稿须知》。

互联网人都在关注的微信号

难道你还没有关注?