CPU不行了?GPU+CPU异构计算成2026科技新趋势

amuwap 发布于 2 小时前 1 次阅读


厂商耗费五十年打磨出的单核性能,现今每提升百分之十,就得投入数亿美元用于研发经费。当台积电、三星的制程逼近一纳米的物理极限时,堆核心数这条路又被软件并行效率而卡死,你手持的那台旗舰手机与最新款MacBook的性能差距,正以肉眼能看见其缩小的那般速度变化着。

摩尔定律的黄昏时刻

1965年,戈登·摩尔提出每18个月芯片性能翻倍,那时他绝对不会想到,到了2026年的如今,英特尔7纳米制程推迟了五年才好不容易开始量产。台积电3纳米工艺的晶体管制造成本已急剧上升到每片晶圆1.7万美元,是28纳米的8倍还要多。

制造一颗5纳米芯片,其流片费用高达5400万美元,这笔钱足以在深圳南山区购置三套大平层。然而,如此高额投入所换来的,却是频率提升幅度不足15%,不仅如此,漏电流问题致使功耗曲线变得更为陡峭。在半导体行业,首次察觉到钱并非在任何情况下都能解决问题。

异构计算的必然选择

苹果公司所推出的M4芯片里头,被安置进了CPU、GPU、NPU以及视频编解码器,其晶体管数量成功突破500亿这一大关,相较于五年之前的M1而言实现了翻倍。这些专门的核心,它们各自承担着渲染、神经网络计算、媒体处理等工作,而CPU仅仅只需做好调度员这一角色即可。

2023年时,AMD的Ryzen处理器就已将XDNA AI引擎集成进Die,瑞芯微为智能家电所做的SoC集成了八个架构各异的处理单元,单核称霸的时代已然终结,芯片公司都在致力于内循环,也就是让最为擅长的人去做最为擅长之事。

百家争鸣的XPU江湖

2025年,地平线的BPU出货量突破3000万片,它专门用于运行车载摄像头的人脸识别算法。深鉴科技的DPU被赛灵思收购之后,其DPU在数据中心DPU卡的部署量一年之内增长了四倍。杭州嘉楠耘智的KPU主要致力于安防摄像头的边缘计算,并且将功耗降低到了0.5瓦以内。

哪怕是情绪计算这般的赛道,也存在着玩家参与进来,EPU芯片借助对语音语调予以分析进而合成情绪反馈,在2026年东京机器人展期间有三款陪伴机器人配备了这种模块,挪威Zylin公司所属的ZPU开源架构,直到现如今依然在低功耗物联网设备当中坚定地留存着。

软件成了新瓶颈

华为所产的鲲鹏920处理器,于其中综合集成了64个核心,然而,分布式数据库在达到48核之后,其性能增长势头就已然开始陷入停滞状态了。英伟达推出的H100 GPU,它拥有着800亿晶体管数量,可是,多数的开发者却仅仅只会运用PyTorch去调用几个现成的算子罢了。硬件一侧的算力军火库已然满满当当给堆满了,软件相匹配的弹药却没办法顺利输送上来。

异构计算编程的那种难度,使得嵌入式工程师这一岗位的招聘薪资,在三年时间里上涨了40%。在一个SoC当中,有可能存在ARM、RISC-V、DSP这三种指令集,数据从CPU缓存,会搬到GPU显存,还会搬到NPU内部存储,光是同步延迟这一项,就能把三成的性能给消耗掉。通信开销这个像隐形杀手一样的存在,正对多核扩展的红利进行扼杀。

片上网络的突围战

由于要将CPU、GPU、NPU、ISP这些不同类型的核心高效连接起来,片上网络成为了近五年ISSCC会议里备受关注的热门话题。英特尔于2025年发布的Ponte Vecchio借助嵌入式多芯片互连桥接技术,把47个具有不同制程的芯片颗粒封装到了一起,使得互连密度得以提升,提升幅度达到了10倍。

去年芯原股份所推出的Chiplet方案,其允许客户以类似拼乐高那般的方式,将具备不同工艺的Die封装于同一个基板上。其中,AI计算采用7纳米工艺,射频电路运用22纳米工艺,存储则使用成熟制程,不再一味强求由一颗芯片包揽全部功能。然而,此种设计对于布线工程师而言堪称噩梦,一旦有一个信号回流路径未处理妥当,那么整块板子便宣告报废。

后摩尔时代的生存法则

采用5纳米工艺的阿里平头哥的倚天710,并非追求极限频率,而是将重点置于每瓦性能上。国内某手机厂商的影像芯片,放弃自研NPU转而运用ISP+VPU专用通路,其拍4K夜景的功耗相较于上一代降低了35%。活下去要比争第一更为重要。

2026年芯片行业达成的共识为,堆砌材料无法解决全部问题,与其一味死磕3纳米的良品率,倒不如思索如何让CPU、NPU、DSP协同运作时,别总有一半时间处于空转状态,性能极限并非终点,而是异构融合的起始点。

您是否曾碰到过,手机或者电脑进行升级之后,然而在日常使用之时,却发觉不到显著变快的那种时刻呢?您认为下一代芯片应当率先提升哪些方面的体验呀1?欢迎于评论区展开交流,顺便点个赞使得更多人能够参与到讨论当中哟。