代谢性酸中毒原因

注册

 

发新话题 回复该主题

刚刚英特尔解密全新布局,芯片教父狂怼 [复制链接]

1#

刚刚(北京时间12日23时),英特尔的NDA终于正式解密,就在现场的DT君为大家送上第一手报道。

北京时间12日早上,英特尔于加州LosAltos举办了架构日,揭露未来数年的架构布局,以及未来英特尔应对市场挑战所将采取的策略。

DT君参与了整个架构日议程,见证英特尔揭露包含异构计算生态布局、CPU核心架构、GPU核心架构、存储技术、数据中心方案等最快在明年就可以和世人见面的最新架构发展。

图|RajaKoduri与JimKeller一同出席于加州LosAltos,仙童半导体与英特尔的联合创始人RobertNoyce故居举办的英特尔架构日,共同揭露未来英特尔技术与架构走向。

开场由Raja主持,他指出,由于现今社会,人们产生数据的速度已经远超出现有基础设施所能处理的速度,因此,未来的社会亟需要更高效率,且规模能够更弹性扩大的计算架构,他断言,未来10年计算架构的发展将远超过过去50年的速度。

图|Raja与Jim在英特尔中的工作分担,二者属于平行地位,主导未来GPU与CPU的发展,可说是整个英特尔太极中的两仪。

而JimKeller登场时,更是不客气的怼了产业那些高喊摩尔定律已死的家伙,他表示,在英特尔任职的这几个月中是他职涯中最有趣的一段,在他看完整个英特尔的技术布局之后,深觉得他能够发挥的空间极大,身为工程师,解决问题就是最大的乐趣,而他相信能够在英特尔中获得极大的乐趣。而且没错,他会让摩尔定律在未来很长的一段时间内持续下去,要跌破那些评论家的眼镜。

Raja剖析了整个计算市场的走向,由于计算产业的转变,未来英特尔在架构设计上也会越来越灵活,不但核心本身的设计会更接地气,同时也将更强调不同场景的计算适配,未来不止CPU或GPU,而是将引入更多计算概念,构成xPU生态,从各种方向去解决未来计算领域会面对的各种问题。

未来英特尔将针对三大计算领域布局更广的计算架构,而这些架构将不会像过去一样在核心设计方面泾渭分明,而是混合了更多元,更具弹性的计算能力,包含CPU或GPU都是。

不同时代所需要的计算架构不同,Raja把整个计算轨迹分为三个阶段,分别是年左右的GHz时钟速度阶段、年开始的多核阶段,以及未来的架构阶段,未来架构将是主导整个计算市场的最主要核心。

而由于未来AI应用将是主流计算趋势,为了更好解决来自这方面的计算问题,英特尔也会在其主力架构中增加更多针对包含深度学习、训练以及推理计算加速的功能区块,让英特尔的整体计算架构能更好的因应未来AI产业的走向。

当然,Raja在开场也揭露了英特尔在CPU以及GPU方面的最新布局,其在CPU核心方面,除了大方秀出未来英特尔CPU的核心发展路线,并且深入介绍了即将在明年CES显露真身的SunnyCore微架构。

另一方面,Raja也介绍了其最新的Gen11世代绘图核心,而以其为基础,未来也将会把规模做大,设计出更符合全方位计算与绘图应用的独立GPU架构,正面挑战AMD与NVIDIA。

Raja也介绍了包含在存储、封装以及服务器的技术布局。

值得一提的是,在封装领域,英特尔推出的Foveros是业界首个真正的3D封装,可以把整个系统封进一颗芯片中,达成真正的SysteminPackage概念,远比目前台积电与三星都在发展的2D或2.5D封装技术更为先进。

英特尔预计将从年下半年开始使用Foveros推出一系列产品。首款Foveros产品将结合高性能10nm计算堆叠小芯片和低功耗基础。英特尔称,它将在小巧的外形中实现世界一流的性能和功效结合。

图|Foveros封装技术的侧面图,此封装技术可做到极薄,约1mm的厚度,Raja也秀出仅有12mm*12mm大小的量产芯片。

Raja也揭露了其FPGA的最新布局,作为xPU成员中的重要角色,FPGA不仅在计算方面肩负重责大任,挑起以推理为主的AI计算工作,另外在Interconnector连接总线中,也成为未来推动总线技术前进的最大动力,通过新架构的建立,提升未来包含PCIE等主流总线传输规格。

图|新款的异构FPGA计算方案将会进入10nm制程世代,且规模将涵盖从过去的中低端方案到高端方案,以同一架构,但以不同规模的设计来解决不同层次的计算问题。

图|下一代FPGA芯片将会引入3D封装技术。

与计算架构相对应的是软件环境,Raja也宣布了新的OneAPI软件Stack,可以在单一开发环境之下,开发出针对所有英特尔旗下所有可调整规模计算方案的应用软件。

针对AI计算优化,SunnyCove微架构将彻底压制AMD的Zen架构

在介绍全新的SunnyCove架构之前,英特尔方面先秀了一张关于近年来层出不穷的芯片漏洞以及对应解决方案,最早是从软件层面修改来修正已经发生的各种漏洞攻击,CascadeLake更是引入了硬件防范设计,与操作系统配合,在防范手段上更有效率。未来则是将会尝试以纯硬件方式解决,一方面避免性能损耗,一方面也要更早应对未来硬件资安事件的发生。

接下来,英特尔也介绍了过去在14nm架构的发展历程,可以看到,从最早的14nm芯片中,时钟速度仅能达到4.2GHz,而到最新一代的产品中,已经可以把时钟速度拉到5GHz,虽然同样是14nm,但也是有随著时间不断强化精进,配合微架构的改善,达到计算效率的明显增长。

另一方面,未来CPU计算也不会只是针对过去认知的一般通用计算,由于AI计算已经成为通用计算的一部份,因此针对这方面计算应用的加速也是势在必行的工作,英特尔在首款10nm方案中将引进VNNI框架,以及针对深度学习发展全新的指令集来加速深度学习计算的工作。

具体的指令集强化主要是在INT8/INT16计算工作的强化,由于这是AI推理工作最常使用的精度,因此主流AI计算架构都是针对这方面进行大幅强化,英特尔在其CPU架构中也将引入同样的概念。

由于英特尔处理器中已经包含了非常强大的AVX-多媒体加速指令集,因此主要的修改就是来自于这个计算区块,通过增加4道指令,将乘加计算的周期大幅缩短,让相关精度的数据可以在最短的时间获得处理,理论上可获得比没有内建相关指令的前代处理器产品3倍的INT8计算效能,以及2倍的INT16计算性能。

在处理器的AI计算加速方面,下一代14nm处理器CooperLake会引进AI模型训练加速能力,并原生支持bfloat16的数据格式,达到比fp32强2倍的数据输出能力。而未来架构中,将会更进一步把AI和机器学习的加速能力做到更彻底,不只在推理,训练也同样会被重视,并同步改进。

当然,这些不会只是由英特尔自己来推动,而是结合业界力量共同推动。

SunnyCove将成为明年晚些时候英特尔下一代服务器(至强)和客户端(酷睿)处理器的基础。SunnyCove的功能包括改进的设计,允许它同时并行执行更多操作。英特尔研究员RonakSinghal表示,SunnyCove找到了更广泛,更深入,更智能的处理方法,并行完成更多工作,并通过更大的缓存来改善延迟。

接下来正戏登场,英特尔全新世代的SunnyCove核心细节部分,以英特尔的定义而言,是接手Skylake的新一代微架构,虽是基于现有基础的改进,但其改进幅度极大,已经够格称为全新的微架构。

SunnyCove微架构最大的改进在于缓存设计上,增大50%的一级缓存可以说是最大的亮点,这个在过去10年的微架构中几乎都没有被更动过的设计,面对未来计算应用的复杂化,也终于做出相对的改善,而二级缓存以及操作缓存也都有明显增加,有效对应AI计算所需要的大量数据流通与缓存需求。

其次,SunnyCove拥有更宽的allocation,并增加了更多的执行端口,一集缓存的带宽也倍增,这些设计上的改变让SunnyCove能够更好的应对单指令多数据流计算和高效载入管线设计的优化。

此外,SunnyCove也增加了更大的缓冲空间,更好的应对新算法的规模化需求,另外,在分支预测能力方面也有了极大的改善,这代表指令的预取准确度更高,整个CPU管线中的指令流通就不会因为预测错误而必须清除重来,造成更多的延迟。另外,在指令/数据载入管线的排程效率也获得极大的改善,减少了载入指令或数据所需要的延迟。

而在压缩/解压缩工作,以及单一指令多数据流、矢量记散工作中,也因入更多指令集来协助解决相关的效能瓶颈。

另一方面,SunnyCove也获得了更大的内存定址能力,最大可定址到TB的内存,足可负担未来庞大数据的存储与计算需求。

年现身的SunnyCove还只是个开端而已,接下来的WillowCove以及GoldenCove也将分别针对缓存、晶体管使用优化进行更深的发掘,甚至也要瞄准包含网络设备以及5G应用进一步强化包含AI等关键应用的性能表现。

而下方Atom架构的路线图虽然不是本次架构大会的重点,但还是有不少有趣的地方值得探究。

而作为CPU核心主导者,JimKeller来到英特尔的时间不长,因此在SunnyCove方面贡献不大,但是在未来几代的架构,甚至在Cove系列之后的全新架构,可望看到大神发挥其解决问题的实力,帮助英特尔在架构设计上达到更高的层次。

GPU迎来重要革新,Tile-Based架构成为未来绘图核心基础

目前英特尔在市场上采用的集成显示架构,是已经有数年历史之久的老旧架构,性能不只贫弱,连简单的3D游戏都很难顺利执行,更不用提过去由NVIDIA吹的火热的GPGPU计算概念,基本上是难以实现。

英特尔原本要在去年发布10代绘图核心,也就是Gen10,但由于改善幅度过小,最终被抛弃,取而代之的是持续使用旧款核心,并转而发展11代核心。

11代GPU核心对英特尔来说有著极为重大的意义,其不仅代表集显有著可以顺利执行主流游戏的能力展现以外,也在计算能力方面达到更全方位的强化,是作为抗衡NVIDIA在计算领域呼风唤雨地位的重要武器。

Raja其实在11代GPU核心并没有太多的涉入,毕竟Raja来英特尔也不过1年左右,基础核心架构都已经确立,但是在软件、规模定义方面则是给了设计小组不少建议,而未来走向独立设计,甚至11代GPU核心之后的全新设计,则将会由Raja真正接手主导。

图|左方为11代核心,右方为9代核心,执行铁拳游戏的对比,根据肉眼观察,其画面更新率在11代核心的表现非常流畅,有达到每秒60张的感觉,反之9代核心上的执行效果奇差无比,每秒可能不到10张画面更新率。

图|11代核心的设计目标,主要是兼顾效能和效率,并且提供可接受的游戏效能表现,而后者在现场的demo展示中著实让与会者睁大了眼睛。

11代核心,也就是Gen11有4大功能重点,首先就是该GPU是英特尔首个算力达到1TFLOPS的架构,虽然相较起其他高端手机SoC而言,已经不是很稀奇的事情,但对于英特尔架构已经是极大的进展。

其次,Gen11也舍弃了传统绘图管线设计,而是以Mali、PowerVR等架构的移动芯片中占主流地位Tile-Based架构取而代之,藉此在内存带宽消耗取得极大的改善,同时绘图性能也有非常大的强化。而在内存子系统的优化方面也拥有独立的子系统。而值得一提的是,所谓的COARSEPIXELSHADING技术则是可依据场景自动优化著色管线的工作,带来更高效的3D画面计算性能。

图|与传统桌面GPU强调训练性能不同,英特尔的Gen11还是著眼于推理性能的优化,并支持多操作系统。

图|值得一提的是,Gen11也支持了HDR与自适应帧率功能,完全支持FreeSync屏幕产品,在这方面与AMD站在一起,要与NVIDIA打对台。

图|Gen11之后的X系列,将会以Gen11架构为基础,将规模扩大到NVIDIA独显的程度,并针对包含数据中心的GPGPU计算、娱乐绘图,以及低端平台的显示工作的全方位的应用适配,X系列独显预计将在年面世。

通过多架构融合xPU概念,要把摩尔定律推往更远的未来

虽然过去英特尔在产品挤牙膏受到质疑,产能也因为制程技术难以突破,而面临双重困境,加上AMD和NVIDIA在各自的计算领域向英特尔发起挑战,严重威胁英特尔的霸主地位,但英特尔毕竟还是在技术层次拥有极深厚基础的公司,加上Raja以及Jim这两位分别在GPU和CPU架构堪称大神地位的人物进场主持,颇有扭转英特尔危机成转机的意味在。

其实过去英特尔亦曾多次遭遇危机,其严重程度也不下于这波,但能够化险为夷的关键,还是在于英特尔能够回归初心,打造出真正市场需要的架构,而这次英特尔在架构大会上展示的技术概念,也着实让DT君开了眼界,也对英特尔未来的布局有了更深的信心。

英特尔舍弃了过去的单一架构应对所有计算的传统概念,除过去几年积极收购市场中具备潜力的架构来补足自身的不足以外,也积极改造自有的架构,以更好的应对市场的需求。过去10年吹起的AI风潮,英特尔认为这是足以改变整个计算产业走向的重要趋势,虽然英特尔起步不算早,但其具备的庞大市场影响力,以及生态优势,仍将可能扭转过去英特尔在计算产业中不断衰退的地位。

而不只是计算架构本身,在半导体制造工艺方面,也通过多方位的技术发展,不只是制程微缩,甚至也在封装方面推出更具性能、应用优势的方案,制程微缩只是其广大半导体计算版图的一小部分,而不是全部,通过架构设计优势,即便制造工艺面临短暂瓶颈,仍可在产品部分获得市场认同。

英特尔此次推出的架构布局,意图从多面向来解决现今的计算问题,对其客户而言,能够在同一渠道取得满足所有计算需求的方案,这种一站式的逻辑虽然不新颖,但通过此次在架构日中发表的这些技术,我们可以说,在计算领域中,英特尔可以说是少数能够真正达成这种要求的公司。

最后,DT君也要呼应JimKeller大神的观点:摩尔定律万岁!

分享 转发
TOP
发新话题 回复该主题