06月08日漏签0天

龙芯吧关注：25,118贴子：626,351

1 2 下一页尾页
75回复贴，共2页
，跳到页

<<返回龙芯吧

有个问题： 4x128bit 和 2x256bit 的计算单元，性能有多少区别？

高通 888 用的全新大核心，也就是 ARM 的新设计超大核，听说 NEON 部分是 4x128bit 。
另外 Apple 的 M1 ，好像也是这个设计模式。（题外，难道就是因为宽度不够 256 所以 M1 不支持 AVX 模拟？）
而现在 x86 和龙芯，都是 2 个设计，Intel 是 2 个全功能 256/512 的 FPU ，龙芯我记得说是 2x256bit 的 FPU 单元。即便是 AMD 的 4 个设计，也是 2+2 并不是 4 个全能。
这两个总宽度一样，但是 4 个 1 和 2 个 2 ，比较起来区别有多少？
是不是因为 ARM 要考虑兼容 128bit 的旧 NEON ，所以没有拓宽，而是增数，从而保证计算单元的性能满载比例？

楼下说的对

A64fx 就是 2* 512bit SIMD
关键是需求，HPC才需要这种大位宽的矢量单元

就X86而言，SSE和AVX应该会共存很长一段时间，而256bit SIMD执行单元跑128bit的SSE吞吐量也不会翻倍，所以虽然AVX下4个128bit的指令吞吐量和2个256bit差不多，但在SSE下4个128bit的指令吞吐量是2个256bit的2倍。反过来说，使用128bit SIMD执行单元跑256bit的AVX时，指令吞吐量下降，实际数据处理量并没有提升，性能几乎和使用SSE差不多。而使用256bit SIMD执行单元跑256bit的AVX时，虽然指令吞吐量相同，但AVX的数据宽度是SSE的2倍，所以实际性能比只用SSE要提升很多。
另外我印象中NEON指令的数据宽度是128bit，给个256bit的SIMD执行单元毫无意义啊。

处理器每周期能执行的指令条数是有上限的，少用一点指令实现相同的计算是有收益的。

simd就是用来减少指令条数的

AVX集的专利没到期，到期的就可以直接硬翻，不然只能虚拟机

我觉得功耗考虑更大~

Arm的SVE asmid都支持更宽的simd 但是对手机场景而言犯不着

露个头

m1不知道，不过a12 a11都是3x128bit总共384bit的浮点

m1的规模超越x86

m1是八发射结构

数字太大没有用的，利用不起来。128也就是一个四维单精度矢量，256就是8个单精度或其它32bit类型很难用得上，龙芯还是32位指令集。
四维双精度矢量也还说得过去。
然后宽度和功耗不是线性关系，总之256的话，PC还行。

肯定是4x128好，更灵活。具体到arm的sve指令集：128-2048都是兼容的，浮点已经4发射后，直接扩充宽度就可以了。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1 2 下一页尾页
75回复贴，共2页
，跳到页

<<返回龙芯吧

分享到: