联发科天玑9400测试与分析:刷纪录的291亿晶体管+GPU卫冕冠军
联发科天玑9400测试与分析:刷纪录的291亿晶体管+GPU卫冕冠军
时间: 2024-12-03 13:11:21 | 作者: fun88体育官网网站
联发科天玑9400在24年10月9日正式对外发布。这是天玑旗舰SoC,首次提前到10月上旬发布。
详细介绍
联发科天玑9400在24年10月9日正式对外发布。这是天玑旗舰SoC,首次提前到10月上旬发布。
发哥这一代CPU和GPU的攻略重点都是能效,这是天玑9400使用X925超大核+X4超大核+A720大核的核心原因。这一代的NPU新增大量端侧AI能力,甚至首发了端侧训练(LoRA训练)和图生视频能力。
227亿晶体管 → 291亿晶体管(再次刷新纪录。虽然天玑9400是包含基带、ISP等部件的,但晶体管数目比苹果M4的280亿还多,就属实过分了);
【CPU】是第二代全大核架构。宣称单核性能相较上一代提升35%,多核性能提升28%,相较上一代同性能功耗节省40%:
首发X925架构的超大核,架构代号黑鹰,它就是之前以为会叫X5的超大核。3.62GHz,2MB L2缓存,IPC提升15%(在相同频率下,IPC越高,性能越强);
对比天玑9300,天玑9400各个核心的L2缓存都翻倍,L3缓存也涨了50%(天玑9300是8MB L3+10MB SLC)。大缓存,对于能效是利好,但就是费晶体管、费钱↓
三星在今年7月,用天玑9400完成10.7Gbps LPDDR5X内存的验证。对比8533Mbps的版本,新内存性能提升25%,同性能下的功耗降低25%;
而天玑9300顶配的LPDDR5T内存是9.6Gbps,后者由上一年的X100/X100 Pro的皇帝版首发。可能因为成本和量产的原因,后面的机型都是LPDDR5X内存。
Arm之前表示G925是它们性能最高、效率最高的GPU,其着色器核心从G720的10到16个,提升到10到24个。
PS:10核心或以上叫Immortalis-G925,最高可选24核心(给笔记本设计的)。往下的型号叫Mali,分别是可选6-9核核心的Mali-G725、5核心及以下的Mali-G625。
CPU单核性能相较上一代提升35%,多核性能提升28%,同性能下功耗比前代降低40%;
第三代光追(30fps→60fps→90fps),《暗区突围》的光追帧率提升50%的同时,功耗降低10%(注意看,是同时);
王者荣耀功耗降低35%,“米哈游三件套”60fps原神功耗降低23%,60fps星铁功耗降低29%,60fps绝区零功耗降低35%。
宣称WiFi抗干扰能力提升80%,传输距离最高提升30米(等效于两层楼);
支持双蓝牙连接,以及最新的“公里级”BLR蓝牙协议(Long Range远距离),支持最高12Mbps,384kHz,24bit的蓝牙音频。
CPU部分,最值得说的,当然是新的X925超大核架构。X925是新的Arm之⭐,它是现在手机端,设计特性最新、最先进的CPU架构。Arm官方PPT中↓,X925是IPC提升幅度最大的一代。
骁龙8 Gen 4的自研性能核是Arm V8.7指令集、8宽度的解码单元、4x128bit的SMID/FP执行单元、用的是更加“古老”的NEON(害,和骁龙X Elite同源,吃了“设计早”的亏)
Arm V9的性能、能效、安全性都会更好。联发科在和虹软、快手等应用厂商验证中,新的V9指令集能带来10%到20%的速度提升。
PS:和完全去掉32位支持的Arm V9不同,理论上用Arm V8.7的骁龙8 Gen 4,有一定的概率会是唯一原生支持32位App的旗舰芯片(要等实测才能确认)。
作为对比,A17 Pro是9宽度,AMD Zen 5是双4宽度的解码器,M1/M2/A15/A14都是8宽度,Arm的X3超大核可选6到8宽度(一年前的X4,核心变化就是加大解码宽度+缩短管线长度)。
而NEON、SVE、SVE 2是递进的三代(单指令多个数据执行)指令集,SVE/SVE 2的好处是支持灵活矢量长度,而SVE 2则新增对机器学习、DSP数字信号处理(5G和多媒体处理)的支持,能提高解密、视频解码、机器视觉、摄像头视频流、游戏、基带等部分的性能和能效。
但能不能利用上Arm V9和SVE 2的先进特性,还要看应用生态的跟进,它们现在还是一个战未来的状态(几年后,机器步入中老年期,它们的性能和功耗差距可能就会被拉开)。今年苹果的加入,应该会加速新指令集的推进和普及。
开波前,还是老话:性能测试/跑分就像考试,跑分高未必体验好,但跑分差的,体验肯定不好。
联发科的工程机已经是老朋友了,从天玑9000开始就是这套模具。它有直接的卡槽和极为先进的3.5mm耳机接口。
它和量产机的散热条件,有亿点不同。它只有基础的均热板,电池容量还很小,但为了“方便”更换内存和闪存,据说SoC和内存没有像量产机那样叠放。
跑分测试时室温21度到23度之间,机身温度固定到21到22度开跑,打开性能模式,过程中不使用风扇、散热背夹等工具。
测试现场不能跑SPEC 2017,这次的测试项目是GeekBench 6、GFXBench和3DMark,以及原神、星铁、绝区零这“米哈游三件套”。
【GeekBench 6】是多核单负载,会比GeekBench 5更接近日常应用,对核心数更少的苹果更加有利。其以Clang6为主,不会像GeekBench 5那样主要调用本地库,所以没办法像以前那样反映系统优化的影响,但正好用来测SoC的理论性能。
而以前的【GeekBench 5】测试,它可以调用本地库,且多核负载更高,所以安卓阵营的表现会更好。而GeekBench 6.3引入了前面提到的SVE/SME支持,所以天玑9400这些支持SVE/SVE2的芯片会有巨大提升。但因为现在应用生态的支持SVE/SVE2的App还不多,所以其实是GeekBench 5的成绩,可能更贴近现在的日常使用感受。
(第二列为“GeekBench 6分数与超大核频率”的比值↑,对比不同芯片在相同频率下的性能)
这是CPU单核性能集体暴涨的一代,天玑9400的单核性能丝毫没有悬念地大幅抛离前代,比骁龙8 Gen 3强23%,比天玑9300强23.2%。
天玑9400应该是同代旗舰芯片中,同频性能提升幅度最大的一颗。这或许是发哥能做到“同性能下,功耗比前代降低40%”的核心原因:
GPU部分,GFXBench测试使用的渲染管线和API更贴近传统手游,适合测试传统的GPU性能。
而3DMark新推出的Steel Nomad Light测试,有了更新的特性,更贴近现代3A游戏的渲染管线,适合用来看新的旗舰GPU。但它对移动电子设备的要求很高,而且要求8GB内存,导致A16都没法跑该测试。
GPU这边,天玑9400在GFXBench的高压力测试中提升了35%左右。
根据现有的爆料,今年骁龙8 Gen 4的GPU也未必能赢天玑9400,玑哥大概率会继续卫冕GPU冠军。
最后再看看娱乐兔,安兔兔的总分不靠谱,但它单项的CPU和GPU测试还有一定的参考价值。
比起安兔兔的跑分,本彦祖更在意的是跑分过程中的能效和温升:同样是22度左右的室温测试,今年的温升是8度(掉电10%),上一年的温升是10度(掉电8%)。但毕竟是工程机,且机器的电池容量不明,数据仅供参考。
根据能量守恒,相近时间内,电能转化为热能,温升和掉电应该呈正相关。但实际趋势相反,可能是两代工程机芯片/散热配置不同,也有一定的可能是工程机的电池不一样了……
原神15分钟,60fps最高画质+关动态模糊,须弥城跑图,平均帧率60.1帧,平均功耗4.36W,机身最高温37.1度。
星铁30分钟,60fps最高画质,星槎海中枢,前15分钟宣夜大道+后15分钟园林折返跑,平均帧率59.8帧,平均功耗4.72W,机身最高温39.5度。
绝区零30分钟,60fps最高画质,全高光映广场警局分署边的小路绕圈,平均帧率59.9帧,平均功耗4.84W,机身最高39.7度(实际跑了35分钟,取了中间30分钟)。
有趣的是CPU调度↑,在大型游戏这种高负载场景,天玑9400把X925超大核作为主要计算核心。原因是X925的性能足够强,且有能效优势。另外,偏重单颗核心的设定,可减少调度损耗,明显提升很多场景的使用体验。
【能效方面】天玑9400用上了和A18 Pro同级的台积电N3E工艺,联发科表示X4和A720都针对3nm制程做了二次优化,而且X4和A720的L2缓存全部翻倍。理论上,大缓存会增加静息功耗,但会降低中高频的功耗,从而提升综合能效表现。
结果天玑9400重点调用的,是新的X925超大核。说明这时候用X925才是更省电或更高效的方案,这让本彦祖不禁对X925的中低频能效产生极高的期待。
联发科在沟通会中多次提到能效。在被问及“为何没采用新发布的A725”时,联发科表示天玑9400这套是“对于能效的最优解”——他们的设计目标是达到30%以上的轻重载功耗优化,测试过后,最后选择继续用X4和A720来搭配X925。
测试下来,天玑9400的CPU单核强了23%,多核强了15.4%,GPU的提升又又又超过了30%。
天玑连续3代30%到40%级别的GPU性能暴涨,加上这两代CPU提升(X4、X925,以及提升大核比例的全大核设计),上一年的旗舰芯片,在绝对性能上已经通杀所有的移动游戏(实际制约它们的是功耗)。到天玑9400这一代,已经是发哥所说的“后满帧时代”了,要有更高维度的追求。
降功耗:天玑9400就是在用X925超大核和规模更大的GPU去跑低频,以此降低功耗。
跨端移植PC大作:这部分,现在的主要进展是提升绝对性能和光追性能。天玑9400的光追性能又提升50%,引入了类似《黑神线A大作的光追技术(其搭载的OMM追光引擎,宣称加入预处理部分,会过滤不需要计算的部分,把算力就留给物体边缘)
AI生成渲染+AI互动(教练互动和NPC):发哥现在官宣的,是《王者荣耀》首发的端侧AI语言教练和《废土》的AI NPC。
测试现场的超分对比,上方为高分辨率的视频,下方是超分上来的视频↑(它们的分别越小越好)
而一同发布的“星速引擎MAGT 3.0(降触控/网络等延迟)、倍帧2.0(电视上的插帧同源)、首发的星速引擎超分技术”中,MAGT 3.0是每年都在更新的功耗和延迟控制技术;而后两个是超帧和超分,它们就是现在各家独显芯片的工作内容。
发哥现场也有样机展示,效果当然还可以,特别是GPU内的超帧,对比“独显芯片”会有天然的优势,就看到时量产机要怎么使用了。
今年还有一个特殊点,发哥第一次重点说到后台调度 ——天玑调度引擎,并公布了自己的APP启动和触控响应数据。
Google原生的调度,圈不准一个应用的全部后台线程,所以不敢大胆地做算力倾斜。
而联发科表示他们的“VIP引擎”有更准的框法,且无需人工白名单,可以自动判断+实时感知。给主线程和小线程的算力倾斜更大,且可以同时通知CPU/SLC、WiFi蓝牙等部件。
官方的测试,是在跑原神的时候运行一个可以吃爆CPU的后台APP。测试中,天玑9400依然能保持59fps,而天玑9300是29fsp,骁龙8 Gen 3是20fps。
这芯片厂商的软件调度,原理听着有点像vivo OriginOS的“不公平调度”↑,四舍五入,也算是向“墓碑机制”的努力了。
联发科表示从天玑9300那一代,开始系统性研究APP轻载时的启动和响应速度(除了启动快,还要每次启动的速度都稳定可控,降低偶发卡顿对“高级感”的影响),重点确认执行管道不被打断:
不知道为什么,看到这个地方就有种强烈的预感,相关的内容大概率会出现在之后的终端发布会。
现在几乎所有头部芯片和手机生产厂商都在搞AI,但高通和苹果对AI的重视程度,明显没有联发科高。
除了AI性能,发哥的AI特性也是加得最积极的。AI的发展的新趋势是从相机→大语言模型→文生图→图生视频,天玑9400这一代就直接支持端侧图生视频了:
天玑9300是移动端首个搭载硬件生成式AI引擎、首个支持生成式AI端侧技能扩充、支持的模型最多、有硬件内存压缩、可以跑330亿参数的大模型的SoC;
今年是硬件低位宽KV缓存压缩,内存占用降低50%,传统7B模型需要的7.68GB内存直接减半到3.65GB;
联发科表示其与小红书合作的端侧SDXL大图生成,有2倍的速度提升,比云端方案还快。而和虹软合作的AI学习,可以本地用其他图片修复拍糊的人像照。
除了图生视频,AI的另外一个趋势是端侧运行。毕竟端侧训练可以保留记录,且没有隐私问题。联发科表示AI训练是在用户睡觉过程+接电条件下,用NPU进行的。
(笼统理解:AI就是极度擅长找规律的高级复读机,它们用资料学习的过程叫“训练”,它们用训练生成的模型输出内容就叫“推理”)。
最后,在联发科“AI先锋计划”的PPT里,除了老朋友vivo、OPPO、小米和传音,还出现了荣耀。不知道后面会不会看到天玑9400的荣耀旗舰?
现在确实是联发科说的“后满帧时代”,无论是CPU还是GPU,中低频能效才是关键,能实际用到的性能才是你的。
在手机能撑得住的6W功耗以下,能输出的性能才有实际价值。无论极限的冰箱跑分有多高,如果常温都降频就没意义了。
发哥今年依然是不建议用风冷或散热背夹跑分,依然是把最强跑分的名头留给ODM厂商:天玑9400工程机284万的安兔兔分数,依然明显低于量产机297万分的常温跑分,以及303万分的冰箱跑分。
天玑9400、骁龙8 Gen 4这一代的性能提升幅度都非常可观,但它们的中低频功耗,现在还是个未解之谜。总之,今年不是超神,就是超鬼,搞得想上车和想下车的等等党都进退两难。
半导体有个“不可能三角”——芯片无法同时满足“面积(成本)-性能-能效”3个要求。
而发哥今年的答案,是用钞能力保性能和能效:堆上291亿晶体管,让大规模更大的X925超大核和GPU跑在更甜点的频率。
上一年的天玑9300,凭借全大核的CPU设计,换来比骁龙8 Gen 3更高的能效。而换上X925的天玑9400,宣称GPU 峰值性能比前代提升41%,功耗降低44%,而实际游戏中让X925做绝对主力的操作,也让我们对其能效充满了期待。就等10月14日发布的vivo X200系列来给大家揭开谜底了。