“多芯”、“异构”悄然出现,如何影响未来数据中心?

数央网 2022-05-16 09:34:36 数字经济

扫一扫分享微信

泽塔云推出的“多芯异构”基础架构就是为了更好的卫星遥感、工业设计、水利电力等重载图形图像应用场景,可以最大程度保证数据安全,以最快度把任务安排到最适合的架构上。

半导体芯片行业,突然就刷屏了……

AMD神来之笔530亿美元收购赛灵思,市值大涨;英特尔最新消息Falcon Shores,可谓又一“大招”;再加上去年英伟达一盘“大棋”Grace CPU,可以看出,芯片行业不再“专注自我美丽”,产业布局开始向多架构转型。

这其中,最引人关注的当属“异构计算”了。

什么是“异构计算”?

我们知道,随着数据体量的急剧膨胀,各类应用对计算的需求已远远超出了传统CPU的能力所及,尤其面对复杂的模块调度和数据处理,单一的芯片“力不从心”,基本达到物理技术极限。

摩尔定律

而所谓异构计算(Heterogeneous computing,又称为异质运算),就是将CPU、GPU、FPGA、ASIC等不同制程架构、不同指令集、不同功能的计算单元,组合起来形成一个混合的计算系统,实现相互联通,充分调用硬件多个处理器,是面向性能功耗优化的系统级方案。

这个概念诞生于上世纪 80 年代,由于近年来各芯片公司开始整合各种不同类型的芯片,越来越注重横向发展,于是“异构计算”在产业中显露锋芒,并快速取代通用CPU,迎来爆发期。

比如英伟达早在16年的机器人平台Jetson Xavier便包含了6种处理器,各类计算芯片一个都没少。英特尔最新推出的Falcon Shores架构,就将X86和Xe GPU 整合到一个Xeon插槽中,为大型密集计算和人工智能训练模型系统带来巨大的性能和效率提升。


那么,异构计算到底凭什么能够轻松打败同构计算?它是如何崛起的?

“异构计算”正在崛起

尽管到目前为止,芯片的性能不断提升。但随着深度学习、人工智能、工业仿真等计算密集型领域的快速崛起,出现了诸多如并行度不高、带宽不够、延时等限制,我们需要越来越高效的计算系统,引入特定的单元让计算系统变成混合结构成为了必然。

因此,作为一种特殊的并行分布式计算系统,异构能够“上位”的最根本原因就是它能够经济有效地实现高计算能力。

与传统的通用计算芯片相比,异构架构具有高性能、低功耗等显著优点。即使新的算法出来,异构架构也可以依赖通用计算单元加以支持,不至于很快就被淘汰,延长了芯片的生命周期。所以在采用先进工艺所需要的投入越来越大的情况下,异构计算会成为业界主流的选择。

如今,异构计算大行其道,主要包括三大技术阵营。

来源,网络

从排列组合来看,异构计算就是CPU与各类计算核心组合的过程,不同的组合,其性能、功耗、价格、效能各不相同。

为了便于理解,这里我们引用网上的一个经典“厨房论”异构计算。

厨房的大厨(CPU),它会做各种菜(兼容性极好),但是每次做菜前的大量重复准备动作(洗菜、切菜)导致一天做菜的份数明显减少。并且,最近(数字时代到来)客人点菜要求越来越高(大量数据复杂处理),大厨开始不堪负重。

于是,大厨迫切需要帮手(协处理器),比如在切菜方面,这个帮手可以同时处理很多菜品(并行计算),而且很熟练,速度很快(低延时)。

当然,大厨挑选帮手也是精挑细选,主要体现在以下方面:

多样的菜品处理能力,如洗菜切菜一体化(算法性能)——协处理器需要能全面支持需要用到的场景关键算法。

支持同时、快速加工(数据并行和低延时处理能力)——协处理器需要有大量并行通道,且每个通道支持低延时的数据处理。

便于大厨操作和菜品存取(接口性能)——和主处理器很方便的数据交互

学习能力强,新菜式也能学会(配置灵活)——协处理器可以针对计算需求升级迭代

一天别吃太多(功耗低)——协处理器更低的功耗意味着更低的运行成本,更小的空间占用和更简单的热处理方案。


看到招聘信息,大家踊跃报名。最后,择优录取了一位:GPU(手脚麻利但是比较笨的帮厨)

这位助手硬件资源被大量的逻辑运算单元(ALU)占用,只有小部分用作控制电路,并行处理问题(洗菜、切菜)非常擅长,遇到切丝、雕花复杂的问题,就比较笨了。这点正好与CPU大厨(控制电路多、计算电路少)互补。

来源网络,CPU和GPU架构比较

有了帮手,自然需要增添设备,面对琳琅满目的厨具,FPGA多功能料理机深得大厨喜欢。

作为一种高性能、低功耗的可编程芯片,FPGA中文名叫做”现场可编程门级列阵“,最打动人的地方就在于“可编程”三个字。无论是做果汁还是豆浆,只要通过特定的软件开发计算任务,编译后它就能自定义配置芯片硬件功能,满足需求。

如果遇到还有客人爱好特殊口味,怎么办?只能拿出压箱底宝贝:最强料理机ASIC了,中文全称是“特殊订制集成电路”,“定制”就意味着不需要去纠结CPU和GPU怎样分配控制资源和计算资源的问题了,想怎么分配就怎么分配。

由于ASIC不需要取指令和译码,每个时间单位都能专注于数据处理或者传输,所以它的效能很很高,同时价格也十分昂贵,定制的过程漫长,一旦确定无法更改,灵活性差,远不如GPU和FPGA讨喜。

部分参考内容来源公众号:IMDDT,有删减

因此,从组合趋势来看,三个组合可用一句话来概括:

CPU+GPU:适用于大多数通用计算,是目前异构计算使用最多的组合阵容;

CPU+FPGA:算法确定前的阶段性最佳选择,大多是企业用户用来进行深度学习加速;

CPU+ASIC:专精组合,应用较少,适合一些市场大、有一定开发周期的领域。

“异构时代”三足鼎立

目前,各巨头公司早已嗅到”异构“的优势,三大处理器头部厂商英特尔、AMD和英伟达都在基于自身的技术积累和产品优势的领域不断扩充技术和产品边界,以满足数据中心和云计算对异构处理器的需求。

先来说说GPU王者英伟达,虽然GPU芯片在数据中心的AI各类应用方面如鱼得水,但随着计算任务的多元化,单靠GPU远远不够。近年来,英伟达为了扩充产品体系巩固高性能计算的地位动作频频,比如2019年,英伟达以 70 亿美元收购服务器端到端解决方案厂商迈络思,2020年400亿美元收购 Arm,都是为了在未来的数据中心市场抢占先机;再如2021年4月,英伟达公布了其首款代号为Grace的CPU产品,专为连接英伟达GPU所设计,并计划2023年发布。对于英伟达来说,Grace CPU的研发使其不必再觊觎AMD和英特尔在CPU上的的合作关系,加强了自家GPU和CPU之间的沟通。

英伟达Grace多模块形式,图源:英伟达

与英伟达正相反,英特尔自身在基于X86架构的CPU方面具有绝对统治力,同时也有FPGA、IPU等产品线,虽然早期已有探索异构计算的计划(Sandy Bridge),但融合效果不佳。或许感到威胁,英特尔先后收购赛灵思的竞争对手——Altera和以色列无人驾驶AI芯片巨头MobileEye,以补齐其在超高算力芯片方面的短板,大力投入独立GPU显卡业务,并在投资日谈到了Xe-HPG架构Alchemist GPU以及面向数据中心的Xe-HPC架构GPU芯片Ponte Vecchio。

相较来说,AMD CPU和GPU业务虽然发展比较均衡,但它也并未满足。2006年,AMD收购GPU厂商ATI并宣布要把高性能CPU、GPU做到同一颗芯片上,将其命名为“Fusion”(融聚),提出“APU”(加速处理器)概念,再加上近期对赛灵思的收购,再次释放了AMD开始挖掘异构计算的性能的信号,提升数据中心能力,走向CPU+FPGA的异构架构中。

目前,三大厂商呈”割据“局势,除比拼硬件算力外,在软件平台也在暗潮涌动,前有英伟达CUDA和英特尔的OneAPI,后有已被收购的FPGA雄主赛灵思此前推出的Vitis,这场终极较量的背后,如何通过软件最大程度释放硬件性能十分关键。异构时代正在到来,异构计算会成为未来数据中心处理器的主流。

泽塔云在“异构计算”的探索

有句话说的好:改变未来最好的办法就是创造未来。

国外厂商如火如荼为异构之战备足“粮草”,国内厂商的”异构“种子也已发芽。但异构计算架构带来的硬件复杂性,成为其最大阻碍。不同类型的芯片放在一起如何合理”异构“十分关键。

目前主要集中发展两种模式:一种是芯片级(SoC)异构计算,比如英特尔的KabyLake-G平台,就是将英特尔处理器与AMD Radeon RX Vega M GPU进行异构。华为去年推出的Kirin 970,就是在CPU和GPU的的基础上,集成了专门为深度学习定制的NPU,来进行推理等高密度计算。另一种则是英特尔提出的超异构计算。通过EMIB、Foveros等封装技术,将经过性能验证的小芯片装配到一个封装模块之中。(资料来源:新浪财经,作者:脑机体)

从发展过程可以看出,「异构计算」的特点是硬件作为算力资源的物理叠加,但在处理器性能再也无法按照摩尔定律(每18个月就能翻倍)再攀高峰的前提下,”软件定义“或成为另一个非常关键的环节。

所以,泽塔云选择以”软件定义数据中心“的超融合云计算概念底层开始,做数据中心基础架构领域的原始创新——“多芯异构”数据中心基础架构,支持异构云架构数据中心和部署方式,从逻辑芯片CPU到并行运算GPU,再到DPU等多芯异构计算业务场景提供强大的多算力协调统一支持。目前,已推出16卡GPU产品。

泽塔云认为,”异构“时代正当其时间,虽然通用计算不会完全被取代,但随着人工智能、高性能数据分等计算密集型领域的日益兴起,异构计算能够更好的满足这部分的计算需求,异构计算会越来越多的取代原来通用计算不擅长的部分。

泽塔云推出的“多芯异构”基础架构就是为了更好的卫星遥感、工业设计、水利电力等重载图形图像应用场景,可以最大程度保证数据安全,以最快度把任务安排到最适合的架构上,减少具有多种处理器类型的系统中的软件复杂性,让异构算力变成一种普适性的基础计算资源。

目前,泽塔云有两个目标:一方面致力于让异构计算变成“即买即用”的计算资源,并提供全面的异构计算产品方案;另一方面致力于异构资源性能挖掘,充分发挥异构资源的处理能力,让用户的生产设计更具竞争优势。

随着新兴算力应用领域对于算量的需求,异构计算会在今后的数据中心中占据越来越多的份额。泽塔云也以此为契机推动异构计算发展为一种普适的计算能力,带动产业升级和社会进步,改变人们的生产、生活方式,为国计民生和大国重器提供可靠的算力支持。


ZETTAKIT 泽塔云

更懂GPU的超融合厂商,致力于全球DataCenter基础架构创新,提供完整的云计算解决方案。超融合zCloud,数据中心的云操作系统。GPU云zVision,云端的图形工作站, GPU云zMind,超融合人工智能平台。


本文为 数央网(http://www.syobserve.com)转载作品,转载请联系原作者。本文仅代表原作者观点,不代表数央网观点。