【翻译&转载】华侃如的五日SynthV AI技术科普【synthesizerv吧】

今年2月20日，在Synthesizer V AI的新更新发布不久后，SynthV软件的编写者华侃如在他的推特账号上发布了一系列给非专业人士的相关技术科普，主要涉及如何优化加速神经网络的运行，以便SynthV AI版本可以流畅地运行在多样的设备上，完成高质量的歌声合成。
之前没有看到中文版本我想着要不要打算翻译一下，但拖了这么久才终于动手。其中华侃如老师关于溢出等许多概念的解释非常精准且深入浅出，如果对AI歌声合成的原理或编程、机器学习等相关话题感兴趣的话不妨一读。希望这个翻译没有做无用功。

考虑开一个长回复推文给非专业人士解释一下我们是如何在最近的Synthesizer V更新中对神经网络接口进行优化的。基本上算是昨天发布会直播的详细版本。有人感兴趣吗？
如果一句话总结Synthesizer V 1.2里我们做了什么，那就是：即时编译/量化/稀疏矩阵-向量乘法内核。别急，我知道这是一堆术语的堆叠。在此推文里我会把它分成一部分一部分地来解释。
由于本条可能会很长，我打算每天分开，集中处理一个话题。准备好了吗？

Day 1，矩阵-向量乘法。一个人工神经网络可以归结为一系列非常简单的代数运算，例如：a + b * x1 + c * x2 + ...。但当你（有意地）把这些来上个几百万次，它们就可能被转变成极度复杂的机器。
我们合成声音时要做的，关键就是选取一些「魔法的」a、b、c，使其能最好地表现声音，然后把它们带入到方程中去；尽管这样的数字有千千万。这些a、b、c叫做参数。
每次都把这些方程写一遍实属麻烦，因此线性代数就派上用场。从一个有点过分简化的视角看，矩阵和向量只是用来表示大批量简单数学运算的符号，仅此而已。
其他一些神经网络模型主要由矩阵-矩阵乘法组成。对我们来说，瓶颈则是矩阵-向量乘法（MVM），这是某个用于产生波形采样的网络（名为「神经声编码」）所主要使用的运算。
这里我们面对的挑战不仅在于我们有一个很大的网络，更在于这个网络要以每秒上万次的频率运转，以便实时合成高品质的声音。这将会被分解为每秒几十亿次加法和乘法。
现代CPU以每秒几吉个周期的速度运行，这和上述的运算所需的频率近似在同一个数量级。然而，余裕太小了。并且事实上，不是所有的CPU周期都能做有用功（这一点后面还会提到）。非常有挑战性！
到此为止就完成了问题的建立。我们的目标是，让这种MVM运算在现代CPU上尽可能快地运行。大家歇歇脑子下条见。

Day 2，稀疏矩阵-向量乘法（SpMVM）。今天将开始对我们的神经网络加速的第一步。首先说件幸运的事，在几百万个参数（那些a、b、c）中，一大部分都是多余的。
事实上你可以在不减损音质的情况下舍弃掉一大堆这些参数；其结果便是我们所称的「稀疏矩阵」（与之对应的，正如你所想，是紧密矩阵）。
当然也有许多参数是非常重要、不能舍弃的。如果你移除了过多的参数，那质量必然下降。合成的声音将会越来越像是从对讲机里发出来的，直至完全变成噪音。
所以，策略是小心地移除不太关键的参数，并尽可能多地移除而不伤害合成的质量。目前也有许多相关的小技巧（但超出了本次的讨论范围）。如果处理得好，我们能甩掉大概3/4的参数！
然而，把参数的数量减少4倍并不一定意味着我们立马获得4倍的运算速度提升。执行稀疏神经网络时，程序需要跳过被移除的参数。这一负责跳过的进程有时会增加相当多的额外的运算消耗。
关于如何将这些参数存储在计算机运存里，则有着许多更机智的方式，能减轻这些额外消耗。然而即使是最优化的情形，也很难达到完美的（参数的减少:运行速度）1:1的加速。Day 4的时候我们还将回到这一点上来。
今日总结。采用稀疏矩阵是一个压缩神经网络的有效方式。如果搞得好，它也还能将运算加速个几倍，尽管这需要高度优化的SpMVM代码。明天我们将讨论另一个加速MVM的方式：量化。

Day 3面向非专业人士的神经网络加速方法科普：量化矩阵向量乘法。
基于历史原因，整数运算比小数运算的速度快。不难看出一个小数需要被分成两部分存储，比如π~=3.1415926分成31415926和1，其中1代表小数点的位置（浮点数）。
对于浮点数加法、乘法等运算的支持需要更多的电路，因此早期的计算机处理数字运算比较困难，除非你把所有的数字都转换成整数，完成运算再转换回小数。这叫做定点数运算。
现代的CPU能够拥有几十亿的晶体管，因此在Intel和AMD的芯片上，浮点数和定点数的性能差别很大程度上成为了过去式。
然而，整数还是有一点优势。如果精度不重要，你可以只用两个字节来存储一个整型变量，相比之下一个单精度浮点数则需要4个字节（这是许多芯片所支持的标准）。
在许多芯片上这不仅仅能减少存储空间。如果单位时间内你能处理一个4字节的区段，那你也能在同样时间内处理两个2字节的区段。如果是4个4字节，则可以放大为8个2字节。带宽翻倍了！
这种并行处理的方式叫做单指令多数据（SIMD）。在x86平台上它最早在90年代由早期Pentium采纳。AMD也随后跟进。到2020年最新的CPU可以在一秒内进行数十亿次运算，每次处理16个4字节浮点型或者32个2字节整型再或者64个1字节整型。
所以SIMD和定点数运算很棒，但和神经网络有啥关系呢？实际上神经网络不需要过多的精度就能工作。大多数情况下，你甚至分别不出我们是否从4字节浮点型切换成了2字节整型。
在一些极端情形下我们甚至可以降退到1字节整型（意味着8个bit，或者说是红白机原生支持的那种）。甚至在我们可以察觉质量减损的情况中，也有办法通过重新训练低精度神经网络的方式来弥补不足。
不过定点数有一个问题：由于只有这么几个bit，能表示的数的范围就变得很有限。比方说如果你把一千个一加起来，你得到1000，这就不能放进一个1字节的整型里。
看看前面已经讲了不少了，休息一下，明天讲如何解决范围的问题以及这对于MVM性能的影响。

Day 4面向非专业人士的神经网络加速方法科普。昨天说到用整型表示参数可以带来很好的加速，（如果不明白，建议从Day 1看起）。但我们有个范围的问题。
一个有符号的8-bit整型数据范围是从-128到127（一共256个数）但两个8-bit整型的乘法经常就会超出这个范围。比方说，40 * 40 = 1600，比127可大多了。
甚至加法和减法也有这个问题。很明显如果你给127加上1，它就会超出可表示的最大值，更不用说如果你把一长串数加起来。
当加法或乘法的结果超出了范围时会发生什么呢？结果会重新转回到下限。比如127 + 1就得-128，而127 + 2得-127…是的，你会得到一个负数。
这叫做溢出。当溢出发生时，合成的声音就会像没调好的广播或是完全的噪音。有一个办法可以避免这种溢出：在做MVM前谨慎地将数值等比缩小以确保结果在范围内。
但即使有缩小，溢出也还是偶有发生，尤其是当用户扔进来一个开发时不常见或者很极端的数值。我们不希望看到一款产品时不时地故障。幸运地是我们还有一招：饱和算术运算。
有一部分CPU支持一些特殊的指令，可以改变算术的行为。回到127 + 1的例子，正常情况下会得-128，但在饱和运算条件下，结果会被封留在上限127。仍然不完美，但比变成负的强多了。
到目前为止我们已知，一些CPU可以以低精度完成定点数运算，这可以带来更高的处理容量。我们了解了定点数算术的问题，也找到了解决方法。
要解决溢出的问题就需要额外的代码来等比缩小参数，来做饱和运算，等等。就像是稀疏MVM的情况，额外的代码就会造成额外的运算消耗。所以，有必要使用定点数吗？嗯，这个比较复杂，也取决于到底用的是什么CPU。
比如说，在Intel这边，Sandy Bridge和Ivy Bridge处理器（i3/i5/i7 2xxx, 3xxx）可以在一个循环内做8个浮点型运算，但它们却不能做16个2字节的整型运算，直至下一代（Haswell，i3/i5/i7 4xxx）。
AMD处理器写明了自Excavator系列（如Athlon X4 845）开始有着同样的支持，但它们的实现方式不太优化，直到最近的Zen 2。尽管如果优化的足够好，它们甚至比Intel的定点数运算还要快。

Day 5面向非专业人士的神经网络加速方法科普。我们目前已考察了两种手段：一是使用稀疏参数矩阵，二是将参数量化成为整型数据（若不理解术语，请从Day 1开始读）。
两种方法的相同点：都只做很小的合成质量牺牲，来换取大幅度的加速；同时由于要从普通的矩阵乘法进行变形，也必然会带来一些额外的运算消耗。
我们想要两者一起应用，以达成更高的提速。那将是一个所有参数都以小整数存储的稀疏矩阵。然而，这究竟能不能提速，还得看程序到底跑在什么硬件上。
之前提过，很旧很旧的老电脑在量化情形下跑得很好；2021年你手头上典型的“老电脑”可能没有量化反而跑得快；然后又然后，刚出炉的新设备量化之后性能更佳。
稀疏MVM是同样的情形，但这次还不是单纯的硬件。对于删减不足一半的不那么稀疏的矩阵，还不如把它们当作密集矩阵来处理。
纵使是对于那些非常稀疏的矩阵，我们也需要选择如何将数据存储在运存上，以及以何种顺序将它们加载至CPU还有如何处理它们。每种方式都有其优点和缺点，并会影响一些种类的稀疏矩阵。
Synthesizer V AI所使用的神经网络有许多不同大小。有些可以变形成稀疏的，有些则不行。我们的软件可以运行在自Pentium 4（2004）之后的所有x86处理器上。这些硬件搭配矩阵的类型和大小，有无数种排列组合。
我们该如何编程神经网络（或者精确说，MVM子程序）来支持所有这些情况？我们真的要写100个或者1000个版本？不。我们不写程序本身，我们写一个程序，让它去写另一个程序来做工。
更有趣的是——所有这些都在运行中完成。我们并不发出一个预构造（预编译）好的程序，让它包含所有的情形（程序将会大的离谱）。我们发出一个“程序构造器”，它接收一个神经网络，并生成运行神经网络的代码。
这儿的代码是什么呢？如果你了解编程，你或许知道C、C++和Fortran是性能最好的编程语言。比这些还快的就是汇编语言了，汇编会直接翻译成CPU可理解的一串0和1。
我们的程序构造器是用C写的。它首先扫描CPU支持的特性及它所接收的矩阵种类；然后它将0和1转存进内存并告诉CPU，“这儿有些新鲜出炉的代码，请运行它们！”
这个方法叫做即时（JIT）编译，也不是什么新东西了。同样的方法被用在现代网络浏览器里，来加速Javascript的运行。只是直到最近我们才发现它在机器学习方面的应用。
（给进阶读者）你可能想过FBGEMM。是的，就是它的灵感。我们的大概是一个GeMV/SpMV版本的FBGEMM，并添加了基于AsmJit的旧处理器的支持。

好啦，发完了；翻译时有多处进行了小幅的修改，建议与原文本结合进行理解。如有纰漏欢迎指出。请尊重原作者华侃如先生的相关权益。

超强！感谢翻译

国内创造AI挺好用的

日	一	二	三	四	五	六

【翻译&转载】华侃如的五日SynthV AI技术科普

扫二维码下载贴吧客户端