intel吧 关注:744,853贴子:2,997,659

逐渐变态的SPECint2017,Golden Cove,SPEC冲分记。

只看楼主收藏回复

最近ARM阵营终于找到了胆量,在SPEC官网上出现了一个“极致优化”的Ampere Q80,该处理器使用了Ampere公司自研的gcc distribution,开启了包括LTO,PGO在内的各种优化选项。最终得到了17%的提升。

既然ARM都极致优化,却只能挖掘出17%的性能提升。是时候研究研究GDC的SPEC潜力了。


IP属地:广东1楼2022-01-26 00:22回复
    arm比个卵蛋性能 注定的底层里的玩意


    IP属地:福建来自Android客户端2楼2022-01-26 00:23
    回复
      2楼先放一个冲分阶梯。这是一颗锁3.3GHz频率的Golden Cove核心。搭配两根3200 C16的英睿达C9 BJZ内存。


      IP属地:广东3楼2022-01-26 00:24
      回复
        首先,SPEC的经典冲分手段就是malloc,内存分配库在SPEC2006和SPEC2017的成绩中都发挥举足轻重的作用。高性能内存分配库也是安卓系统的标配,在安卓11之前,jemalloc作为安卓默认的内存分配库。使ARM处理器的跑分大幅提升。
        本次冲分选取了两个经典的高性能分配库,Facebook开源的jemalloc和微软开源的mimalloc,它们对SPEC个别子项具有显著的影响。

        使用基础的gcc -O3 -march=native,可以看见,malloc对500,502,520,523有较为显著的影响。
        其中,520提升为 je + 23.9% mi + 25.2%,523提升为 je +23.47 mi + 28.46%
        mimalloc性能略优于jemalloc。


        IP属地:广东4楼2022-01-26 00:32
        回复
          intel最近认识到了软件优化的重要性,以及许多人借用intel Parallel Studio昂贵的授权费来攻击intel编译器,于是一不做二不休,推出了基于Clang-LLVM的intel C++/DPC++编译器。这个编译器就是经典的Clang-LLVM项目,编译命令可以用Clang,也可以用icx,并使用Clang项目默认的lld链接器做链接,在默认的-O3 -march=native优化下,与经典的Clang 11的成绩几乎相同。
          基于开源编译器改造自己的编译器是近年来许多厂商的新选择,包括一楼,Ampere选择了修改GCC作为自己的发行版,ARM自己也有闭源的gcc编译器和clang编译器,集成在Allinea Studio里。是收费编译器。不过intel的OneAPI目前是完全免费的。在主流Linux里提供apt和yum的包管理器下载。我这里是去官网下载的2022.0.1的最新版。下载下来是一个3GB左右的安装脚本。命令行运行就能安装。非常方便,傻瓜。
          PS:现在下载Oneapi不仅免费,连注册都不需要了。简直就是为了推广自家工具链煞费苦心。


          IP属地:广东5楼2022-01-26 00:40
          收起回复
            直接说结论 太磨叽了 cao了


            IP属地:福建来自Android客户端6楼2022-01-26 00:43
            收起回复
              先放一个icc与gcc的对比。最新版的One API 2022.0.1.

              icc这边使用的编译命令是
              clang -O3 -xCORE-AVX2 -flto -fuse-ld=lld。相比gcc,打开了LTO,这非常关键,新版icc的灵魂就是这个LTO。
              两边都使用jemalloc内存库
              525直接裂开,大幅提升45%,然后是523 +32%; 531 + 19%;505 +17.6%;541 + 13.6%,520 +9.7% 557 +5.8%
              相比SPEC2006里icc使劲抓着462怼导致万千骂名不一样,2017里几乎所有的子项都出现了显著提升,这里说一下548,548是个fortran项目,然而我没有下载ONEAPI的HPC扩展,没有ifort,这一项是gfortran跑的。所以大家无视掉就行。


              IP属地:广东7楼2022-01-26 00:50
              回复
                吹了半天的arm只提高17%还是被吊锤是吧??


                IP属地:福建来自Android客户端8楼2022-01-26 00:52
                收起回复
                  然后就是OneAPI自带的内存分配器,qkmalloc,这个东西首次出现是在Parallel Studio XE 2019 u1,不过比较离谱的是,它必须搭配icc才能发挥出性能。搭配别的会倒退。
                  qkmalloc会进一步提升。不过,icc的大杀器是这个: -qopt-mem-layout-trans=4
                  这个选项非常变态。具体请看图

                  在qkmalloc获得轻微提升的基础上。这个选项一下子把523推到了19.5分,把505推到了13.6分。最终。我获得目前最高分,8.93的SPEC base,这是在3.3G下跑出来的。远超目前的一切处理器。没有一个能比得上它的脚趾头。包括Apple M1,不服可以自己去优化。优化不出来就打掉牙齿往肚子里吞。


                  IP属地:广东9楼2022-01-26 00:58
                  收起回复
                    结论:Golden Cove潜力巨大
                    事实上,这个成绩相比我测过的4GHz的Xeon 6230R。IPC提升了42%,超过了雷丘小吧主所测出的gcc下36.6%的提升。足以说明x86架构仍然有非常多的潜力可以发掘。8.93和6.14,这中间提升了多达45%!所有的软件优化都是基于硬件的,再强也不可能把凌动N3160优化成Golden Cove,icc其实只用了两个选项,-flto,-qopt-mem-layout-trans=4,相比与一楼Ampere处理器的选项,精简太多了。


                    IP属地:广东10楼2022-01-26 01:04
                    收起回复
                      @nanriyuuka


                      IP属地:广东11楼2022-01-26 01:14
                      回复
                        酸姐


                        IP属地:广东来自Android客户端12楼2022-01-26 07:23
                        回复
                          可以,非常期待看到spr上完全版glc的表现,等发布后官网估计会有一大堆成绩了


                          IP属地:新加坡13楼2022-01-26 07:56
                          收起回复
                            就凭苹果的影响力很有可能会蚕食掉消费级电脑的市场,再过十几年可能x86就相当于如今的安卓了,国内也会有自己的cpu和系统,就如同手机市场一样


                            IP属地:日本来自Android客户端15楼2022-01-26 21:05
                            收起回复
                              想起来楼主当年指望25w的8550跑cinebench在性能和能耗比上都压倒a12x的往事了,估计这两年心情不会很好


                              IP属地:内蒙古16楼2022-01-26 21:30
                              收起回复