开不开编译器AVX2旗标影响真没那么大,不开-qopt-mem-layout-trans=4,最多靠LTO链接时优化优化到6.28。处理器是一个3.9GHz的至强
如果连LTO都不开,那抱歉了。开指令集旗标是没卵用的,gcc和icc都是如此。
icc最主要的优化来源是-qopt-mem-layout-trans=4,该选项启用内存布局转换,对缓存局部性有改进,是icc独有的技术。其次是LTO。
随便放一个LAMMPS的编译选项给你们看一下,LAMMPS是全世界使用最广泛的分子动力学开源模拟软件,
-xHost -O2 -fp-model fast=2 -no-prec-div -qoverride-limits -qopt-zmm-usage=high
这是它的icc默认Makefile的内容,这个Makefile编出来的lammps跑自带测试用例比gcc Makefile的快了36.9%。你细品即可