太空探索技术公司吧 关注:7,324贴子:339,827

新版特斯拉FSD Beta版到底多牛?——谨以此文怀念美黛尔!

只看楼主收藏回复

特斯拉FSD(Full Self-Driving全自动驾驶套件)在自动驾驶技术领域处在领先地位,而刚刚完成重写的FSD Beta版又实现了路口转弯、通过环岛、狭窄路段自动折叠后视镜等新功能。根据国外首批FSD Beta版用户发布的信息显示,新系统应对新场景时的表现已经可以“像人一样”。
11月10日,一名美国特斯拉车主在推特上发布了一条视频,视频显示其使用特斯拉FSD Beta版时,车辆在非封闭道路的路口左转前成功识别了交通信号灯,并在“礼让”了对向直行车辆后完成转向,流畅的过程就像有人驾驶一样。*特斯拉FSD Beta版自主完成路口转弯这说明特斯拉FSD Beta版在面对路口转弯场景时,已经具备了“审时度势”的能力,不仅可以识别车道和障碍车辆,而且可以分析出障碍车辆的走向,并按照合理合法的通行逻辑来实施驾控。这是一种更高层次的判断逻辑,已经接近人类大脑,是实现完全自动驾驶必需的能力。此外,根据其他车主发布的视频显示,特斯拉FSD Beta版还顺利完成了自主通过环岛的测试,而在遇到临近车道的大货车靠近时,系统判断道路空间狭窄并自动折叠收起了外后视镜。当这些能力与之前实现的桩筒识别和封闭道路自主导航行驶结合在一起,意味着特斯拉FSD Beta版已经开始具备一定的完全自动驾驶(L5)能力。
特斯拉FSD Beta版是在10月中旬开始向美国少数车主推送的,特斯拉官方表示预计将在12月完成美国的早期测试。马斯克还在社交媒体上宣布:特斯拉FSD Beta版的下一批测试地点将选在加拿大和挪威。在特斯拉FSD Beta版的更新说明中,特斯拉官方指出新功能可以让车辆在离开高速路的情况下自动变道,并根据导航路线行驶、在路口实现自动转弯。


1楼2020-11-21 12:17回复
    在特斯拉FSD Beta版的更新说明中,特斯拉官方指出新功能可以让车辆在离开高速路的情况下自动变道,并根据导航路线行驶、在路口实现自动转弯。
    同时,特斯拉官方还强调了驾驶员仍需实时关注道路交通状况、握住方向盘,并随时准备接管车辆,在有盲区的路口及狭窄路段更要注意车辆的行驶状态。据媒体报道,特斯拉FSD Beta版已经开始第三次更新,2020.40.8.12版本已经发布,可视化能力有所改进。今年年底,特斯拉FSD Beta版将向美国车主全面推送,其他国家的车主最早将于2021年启动推送。当然,这还要根据不同国家的法规而定。有消息称,特斯拉FSD Beta版之所以能够实现这些新功能,关键在于特斯拉AI团队正在开发的“DOJO”超级训练计算机。“DOJO”能够处理大量的视频训练数据,并能够高效地运行带有超大量参数的超空间阵列。“DOJO”能够从视频中自主地学习和识别先前未被定义或被标记的信息,例如:行人、动物、坑洼地段等,可以大大提高训练速度和效率。目前,特斯拉Autopilot自动驾驶系统是在“2.5D”环境下运行的,使用的是带有标注信息的图像。而通过“DOJO”,便可以直接使用视频中的3D立体场景,再加上时间维度,便从“2.5D”提升到了“4D”,整个系统的准确性和冗余性将大为提升。马斯克曾在2020年第二季度的财报电话会议上表示:“现在真正发生的重大里程碑,是自动驾驶系统或汽车AI的转变,从2.5D转向4D。2D更像是对那些在时间上有严格关联而又相对孤立的图片进行识别,而4D就像视频一样可以连续播放。”


    2楼2020-11-21 12:18
    回复
      马斯克曾在2020年第二季度的财报电话会议上表示:“现在真正发生的重大里程碑,是自动驾驶系统或汽车AI的转变,从2.5D转向4D。2D更像是对那些在时间上有严格关联而又相对孤立的图片进行识别,而4D就像视频一样可以连续播放。”
      以前的自动驾驶系统存在一个技术瓶颈,那就是通过图片传输的信息不够完善。系统对周围环境不断变化的理解需要更高的准确性,因此需要从图像升级到视频,也就是具备4D数据分析能力。刚刚完成重写的特斯拉FSD Beta版,便通过视觉图像处理的4D逻辑模拟激光雷达的工作原理,达到了当前最强的自动驾驶水平。
      至于特斯拉为何要大动干戈重写FSD,马斯克也给出解释——FSD的基础架构重写将以颠覆性的改变弥补此前特斯拉在自动驾驶底层程序方面的诸多缺陷。以特斯拉FSD Beta版的测试效果来看,特斯拉FSD的确又实现了一次“颠覆性”的能力提升。
      据悉,无论白天还是夜晚,特斯拉FSD Beta版在任何路况下,系统都会以标记大量“点”的方式来构建附近的“实时三维地图”。再加上时间流动不断变化的第四维,连续的“点”会构成线和面,附近一切静止和运动的目标都会一目了然。即使在高精度地图没有覆盖的地区,也能以这样的方式完成自动驾驶。尤其是完全自动驾驶(L5)的实现,更是需要以这样的能力作为前提。
      从“特斯拉FSD Beta版”的名字上可以看出,这还是处在测试阶段的技术,还没有达到真正意义上的L5级,这也是特斯拉官方强调驾驶者必须时刻保持警惕的原因。对此,马斯克也表示:“新系统可能还不太完美,如果要在全球范围内解决这个问题,可能需要一年左右的时间。”
      也有媒体报道称,有些客户表示FSD让特斯拉的自主转弯让人感到有点可怕,还不习惯使用这项功能。然而不可否认的是,特斯拉FSD Beta版的出现再一次让特斯拉走在了其他厂商的前面,有了这个基础,L5级自动驾驶的前景似乎明朗了许多。马斯克曾经吹过不少牛,但也确实实现了不少,谁知道这次会不会变成现实呢?
      以上是简略概括,下面开始深度分析:《FSD Rewrite:特斯拉的模仿游戏》(转载)


      3楼2020-11-21 12:19
      收起回复
        深度分析:《FSD Rewrite:特斯拉的模仿游戏》(转载)
        2020 年 10 月 23 日,FSD Beta 软件小范围推送的第二天,特斯拉车主 Kim Paquette 在推特上传了一段视频,视频中的 Model 3 在无人为接管下通过了环岛,其中包含一次处理得还算不错的停车让行,顺利通过这一场景后她开心地拍了拍 Model 3 的方向盘。
        另一个视频里,网友 Brandonee916 将全新的可视化 UI 上传至网络,色彩鲜艳的开发者形态 UI 中路口环境一览无余,评论区的网友不禁感叹新版软件的感知范围大幅提升。

        在前一天的 22 号晚上,一位 Model X 用户和他的好哥们亲眼见证爱车完成了第一次流畅的路口无保护左转,车辆经过路口的无车道线区域并准确驶入左转车道后两人在车内开心地击掌庆祝。
        大家期待已久的街道驾驶功能忽然间在 FSD Beta 上「一蹴而就」,一时间,随着越来越多 FSD Beta 演示视频的出现,激动与兴奋的情绪在特斯拉用户和粉丝群体中迅速蔓延。
        这种兴奋不仅因为 FSD Beta 街道驾驶功能表现出色,还因为人们意识到 FSD 名称含义下的「Full Self-Driving」完全自动驾驶似乎真的要来了。而在这背后,是 FSD 有史以来最大的一次的更新,或者更准确点 ——Rewrite(重写)。


        4楼2020-11-21 12:20
        回复
          始于 2016 年的铺垫:——2019 年 4 月 22 日,特斯拉在自动驾驶日上公布了自家的 HW 3.0 自动驾驶芯片,硬件参数中最耀眼的莫过于两颗神经网络处理器带来的 72 TOPS 的算力。

          硬件介绍中提到在神经网络的加速运算下,这块 HW 3.0 芯片图像处理能力为 2,100 FPS,对比之下浮点运算能力为 600 GFLOPS 的 GPU 仅能做到 17 FPS,神经网络的图像处理优势一目了然。


          为了做出一块业界最强的自动驾驶芯片,特斯拉在研发准备期间先后请来了数位大师级人物。
          HW 3.0 这个业界首块为神经网络运算而打造的车规级自动驾驶芯片始于 2016 年。在那一年特斯拉迎来了在半导体行业从业 40 年、主导研发了 iPhone 5S 上首个 64 位架构移动端处理器的前苹果芯片架构师 Pete Bannon,而在更早的 2015 年,传奇芯片架构师 Jim Keller 也离开英伟达加入了特斯拉。
          在大师们带领的精英团队以及特斯拉集团的共同努力下,HW 3.0 自研芯片项目从开始招募人员到芯片进入研发,再到量产大规模装车的过程仅用时 3 年,而且 HW 3.0 至今芯片仍然是市面上算力最高的量产车规级自动驾驶芯片。
          但 HW 3.0 芯片在 2019 年上车后,FSD 功能却并未立即迎来脱胎换骨的能力提升。不过如果你回看 HW 3.0 的发布会内容,原因并不难寻 —— 这是一块面对神经网络打造的芯片。而 FSD 那时候在软件层面还未完成向神经网络结构的转化,直到重写的 FSD Beta 面世。
          这次重写对于 FSD 意义重大,神经网络大显身手下的新版软件让特斯拉的视觉方案得到了大幅的提升,如果看完后面的内容,你会明白正是有这次改动,Full Self-Driving 才真正有了实现的可能。


          5楼2020-11-21 12:20
          回复
            Software 2.0:——Autopilot 软件栈中存在 1.0 代码和 2.0 代码,它们所组成的软件栈负责处理各类传感器输入的信号,包括摄像头、毫米波雷达、超声波雷达和 IMU 惯性测量单元的数据,这些原始的传感器数据经过软件的处理最后输出为车辆的加减速以及转向等驾驶决策,你可以简单地将软件理解为自动驾驶系统的「脑」。
            其中 1.0 部分为人类程序员用 C++ 语言创建且有确定功能的代码,前面提到的「Occupency Tracker」就属于 1.0 代码。官方的介绍中,这部分都是「死代码」。
            2.0 部分就完全不一样了,Andrej 表示 2.0 部分如同一个编译器,它能消化输入的数据集并输出神经网络代码。而且你可以把 1.0 软件的代码库放到 2.0 软件的代码库下运行,所以随着 2.0 软件不断「吞并吸收」1.0 软件,1.0 软件越来越多的「死代码」逐渐被神经网络所取代。而具备深度学习能力的神经网络把原有 1.0 软件「死代码」做的工作,做得更上了远远不止一层楼。

            以 4D 视觉为例,神经网络结构下的感知已然今非昔比。

            系统依然调用 5 个方向的摄像头图像,之后素材依然要经过特征提取部分,但与之前不同的是,2D 到 4D 环境的拼接建模工作不再由「Occupency Tracker」来完成,取而代之的是一套神经网络融合层。融合层把摄像头之间的 2D 图像拼接成 4D 并转化至「bird''''s eye view」,完成粗建模。然后再经「Temporal module」进行平滑处理,优化为精建模。精建模素材再经「BEV(Bird''''s Eye View) Net」解码,构造出最终用于驾驶决策并显示于中控上的环境特征。像道路轮廓探测,原始素材经层层处理,最终产出一个道路环境自上而下的 Z+ 向投影图。而基于这个投影图来做的环境预测,其效果提升堪称肉眼可见的。

            上图是特斯拉车辆在一个路口捕捉到的不同摄像头画面,其下半部几张不同来源的路口轮廓图,图中小蓝点即为车辆所在位置。其中左下角图片为路口的实际轮廓,而右下角这张为 2D 视觉下构建出的路口轮廓,可以看出来车辆周围的环境轮廓还勉强有那么几分相似,但远一点的地方预测几乎完全失真,用「高度近视」来形容一点也不为过。
            Andrej 直言不讳地表示这种效果的环境预测数据就是垃圾,毫无价值。而对于这种结果,Andrej 也道出了其中缘由:2D 视觉中的景深识别是基于像素的,其精度覆盖范围很小,近车端精度还行,但是远一点的区域尤其是画面中地平线附近的像素,一丁点的计算不准可能导致数米的道路预测偏差——言外之意,这是 2D 像素景深识别的「先天残疾」。
            中间这张与实际路口轮廓匹配度很高的轮廓图你应该也猜到了,它是由改进后的 4D 视觉构建而成。而从 2D 到 4D,中间的 3D 是治好近视的关键。
            景深测算曲线救国:——


            6楼2020-11-21 12:21
            回复
              景深测算曲线救国:——刚才有说过景深测算是 2D 视觉的一个硬伤,对此业界的常规做法是将景测算交由其他传感器,比如激光雷达来做,再将感知数据融合。
              虽然特斯拉一向是“铁骨铮铮,打死不用激光雷达”的人设,但在 FSD Beta 上他们其实偷偷做了一套「影像版激光雷达」方案——特斯拉的开发者们有这样的一种思路:之前基于视觉的景深测算效果不好,很大程度上是因为「数据的表达形式」,也就是 2D 像素坐标这一框架限制了视觉的能力上限。而他们的解决办法是用影像的手段「模仿」激光雷达。具体的步骤是这样的:
              通过视觉景深测算的方法从摄像头图像中测算出像素景深;得到像素景深后将 2D 图像反投影为 3D 点云,得到「Pseudo-Lidar」—— 拟激光雷达数据;得到的拟激光雷达数据通过用于 Lidar 数据的算法做解析,构造出新的景深预测。

              这一思路清奇的「模仿」帮助特斯拉在没有激光雷达硬件的前提下产出了「类激光雷达」的 3D 预测效果,其中像素景深反投影 3D 点云的步骤至关重要。新的手段相比之前提供了更高的上限,但接近这个上限,「类」的程度能达到多少,还是要取决于第一步中像素景深的精度。它是后面所有数据的母数据,是景深测算的原始标尺。
              2019 年特斯拉自动驾驶日上 Andrej 有简单介绍过特斯拉团队在通过神经网络的自学习手段对这一过程进行优化。其大致思路是这样的:系统的神经网络按要求在无标记的视频素材中做全画面像素的连续性景深预测,而这些生成的预测图像将与实际的视频素材进行连续的逐帧匹配比对,而连续性匹配达标的基本前提就是最原始画面的景深计算是正确的,或者说精度是 OK 的。


              7楼2020-11-21 12:22
              回复
                在验证中,特斯拉将雷达测算的物体位置标记为点,将视觉测算的位置标记为立方体,在官方的演示素材里两者已经展现出不错的跟随匹配度。

                所以面对网络上流传的带着激光雷达的特斯拉测试车,不要那么肯定地觉得特斯拉转投激光雷达了,或许人家是在测试拟激光雷达视觉方案与激光雷达方案的测距匹配度。

                另一个有趣的事情是 2019 年外媒 THE ROBOTREPORT 报道的一则内容中,康奈尔大学的研究团队提出了用拟激光雷达手段提高视觉感知精度的方案,思路与特斯拉不尽相同。而经过这些研究人员的实测对比验证,拟激光雷达手段的视觉方案在位置探测精度上与真正的激光雷达效果非常接近。而且研究人员在采访中也提到了相比仅靠前摄,如果能在「Bird''''s eye view」下对环境素材进行解析,其精度可以提高 3 倍以上。
                相同的技术名词、类似的手段、一致的结论,这个研究团队和特斯拉的关系不禁让人浮想联翩,然而八卦之外,能看出来的是在视觉方案探索的道路上,已经有人和特斯拉想到了一起……


                9楼2020-11-21 12:23
                回复
                  最强大脑有了,还要学东西:——人类天生就有视觉但并非天生会开车,而从不会到会的过程其实脑袋里主要增加了两个大方向的能力:对道路环境的认知和预判,逐渐熟练的驾驶逻辑。
                  基于神经网络的 FSD 学车的逻辑与这不尽相同:HW 3.0 芯片让特斯拉有了量产车里的最强大脑,4D 视觉让特斯拉看得更远、更广和更准,但所谓感知,有「感」亦要有「知」,特斯拉的神经网络里既有视觉神经也有思考神经,和人一样,它们也需要学习和积累认知。特斯拉寄予 Autopilot FSD 的期望是让它成为可以在全世界所有道路上驾驶的司机,这就意味着 FSD 要学的东西非常多了。
                  「对道路环境的认知和预判」对计算机而言,往简单了说就是视觉图像识别和预测,认识各种道路上的特征,包括但不限于道路线、道路标识、道路空间、静态物体、动态物体。与人一样,神经网络识别特征也是通过「经验积累」。
                  两个你需要知晓的名词:——在说特斯拉的机器学习系统之前还有两个东西要特别介绍一下,一个是「队列」,另一个是「影子模式」。

                  其中「队列」指的是特斯拉这套系统中关联的自家上路车辆,在今年 2 月份已经有约 100 万台,这个数量随着交付量的增加会继续扩大。
                  这些遍布全球各地的车辆对于系统而言相当于一个个智能终端,通过车载摄像头采集的道路数据可以上传系统(注:特斯拉收集的数据是去 ID 处理过的,系统不知道数据具体来自哪台车,这样可以保护用户隐私)——也就是说通过「队列」,系统可以采集大量且多样化的道路数据。

                  「影子模式」则比较特殊。在「队列」车辆中除去主大脑其实还有一个「分身大脑」,它和车辆的主大脑一样可以获取车辆的各种传感器数据并输出各种预测以及驾驶决策指令。但与主大脑不同的是,「分身大脑」内的神经网络可能是系统下放的测试版,而且它做出的预测和各类指令不会用于车辆的控制。所以即便这个测试版神经网络的预测和指令出错了也没关系,因为反正系统也不会执行。
                  不过系统会记录「分身大脑」产出的预测和指令的实际正确率,并用此评价测试版神经网络的好坏。而其中高错误率预测对应的路段,系统会记录下相关素材用于后续的神经网络训练和测试。通过「影子模式」,特斯拉可以高效且安全地得到测试版神经网络的实际上路效果。
                  数据驱动的 AI 训练场:——


                  10楼2020-11-21 12:24
                  收起回复
                    数据驱动的 AI 训练场:——针对神经网络的机器学习,特斯拉准备了一套名为 DATA ENGINE 的闭环系统,其结构明确而且机制非常完善。

                    这套系统的运作大致是这样的:系统上传了某一 Autopilot 无法妥善通过场景的素材,其中一些在「影子模式」下报错率很高,我称这部分素材为初始素材。


                    接下来系统一方面会将初始素材收入「单元测试」素材库,另一方面系统会在「队列」中搜索并要求回传类似素材,回传的这部分素材可以称作海选素材。海选素材的数量非常可观,但它们与初始素材的匹配度并不会非常高,经过筛选标记后,海选素材中与初始素材匹配度高的也会被放入「单元测试」素材库。如此一来针对初始素材的源场景,系统快速地收集了大量类似场景下的「单元测试」素材。
                    在这之后,特斯拉会利用「单元测试」素材对神经网络进行专项的离线训练和测试,相关神经网络经训练并通过「单元测试」后对「单元测试」素材中的源场景具备了更强的处理能力。通过「单元测试」后的神经网络,特斯拉又会将其下放至「队列」并在「影子模式」下进行验证。针对再出现的不足,上述流程继续循环。


                    11楼2020-11-21 12:26
                    回复
                      流程背后:数据和训练机制——神经网络的核心功能之一是基于图像的特征识别,所以在特斯拉神经网络的深度学习过程中很多内容都与此相关。
                      以停止标识的识别为例,首先需要人为标记素材中的停止标识,让系统认识这个图案,明白素材标记位置这种红白像素的排列就是停止标识。完成这一过程后,系统就可以识别与图片素材相似度高的停止标识。

                      不过大千世界无奇不有,现实世界情况非常复杂。


                      依然以停止标识为例,停止标识有很多种不同的图案样式,出现的形式也千奇百怪,还有被遮挡、带灯光、有限定触发条件等等众多的奇葩场景。
                      非线性相关的「见多识广」


                      12楼2020-11-21 12:26
                      回复
                        非线性相关的「见多识广」:——要想系统能识别这些差异化的同类特征,方法只有一个 —— 收集以上场景的素材,用它们来训练神经网络。

                        简单来说,你收集素材越多,素材覆盖的场景越全,训练后的神经网络就越见多识广,它能应对的场景自然也就越多。
                        但这个过程中又有一个不能忽略问题:数据的有效性——神经网络起步的阶段,其学习的场景还不多,所以寻找「单元测试」素材难度并不大。但随着神经网络学习的场景越来越多,经验越来越丰富,大部分的场景它都可以识别通过了,所以这时候收集的数据很多都是重复的无用数据。
                        神经网络不会平白无故掌握新技能,只有给它提供与之前不一样的「单元测试」素材,它才能学到新东西。这些与之前不一样的罕见场景,业内通常称之为 corner case。

                        在机器学习的过程中 corner case 越往后越少,或者换种表达,越往后神经网络要进步所需的总数据量就越大,这种增加是呈指数模型增长的。而这也是为什么「行驶里程」在各家的自动驾驶中都是重中之重——特斯拉今年 4 月公布其收集的行驶数据为 30 亿英里。作为对比,Waymo 今年 1 月公布的里程仅为区区 0.2 亿英里。
                        需要自动化的不仅是造车:——特斯拉的整体神经系统由 48 条神经网络组成,包含 1,000 个独立的神经网络。其中针对单个特征识别神经网络的训练和测试特斯拉专门建立了前面提到的「单元测试」。「单元测试」是特斯拉从测试驱动的开发流程中汲取灵感而来,你可以将它理解为神经网络的同类特征多场景识别统考。

                        在这类统考中,特斯拉会列出多种场景的考题,神经网络必须在所有单项中都达到对应的准确率才可以通过考试。
                        针对没有通过测试的单项场景,开发者会继续对神经网络进行该场景的素材循环训练,直到其识别的准确率达到设定要求。当神经网络通过所有既定测试时,针对这一个特征识别的神经网络就完成从创建到可推送至影子模式的过程了。


                        13楼2020-11-21 12:27
                        回复
                          当神经网络通过所有既定测试时,针对这一个特征识别的神经网络就完成从创建到可推送至影子模式的过程了。

                          但如前面所说,系统内需要识别的特征类型有约 1,000 个,每一个都需要进行这样的「单元测试」,训练需要 70,000 GPU 小时——相比部分企业在这方面使用人海战术,以上的训练任务在特斯拉内部仅由一支几十人规模的精英团队负责完成。

                          这样的训练效率背后,是高度自动化的训练机制——为此特斯拉 AI 团队正在努力搭建一套用于训练神经元网络的模块化「快训系统」,系统中包含多种不同用途的神经网络初始模板。如果需要开发的新神经网络属于其中的某一大类,只需选择对应的模板自定义搭配即可快速生成初始文件。
                          在这之后,基于数据的神经网络学习循环,即搜索训练素材、标记特征、收集「单元测试」素材、完成「单元测试」流程、跑影子模式验证并循环的这个流程,「快训系统」会用尽可能多的自动化机制来完成。


                          14楼2020-11-21 12:28
                          回复
                            而特斯拉最终期望达成的效果就是开发者只需要调用模板做一个新神经网络单元,之后的训练流程可以在设定下由系统全自动完成——不过神经系统训练量依然巨大。

                            推特用户 James Wang 进行了粗略计算,如果在 40% 的浮点运算效率下用英伟达 V100 显卡来做这个事情,140 petaFLOP/s 的速度运行一天即为特斯拉每天的浮点运算需求量。

                            而这样运算量如果希望在 3 天内完成,需要超过 1,000 个 V100 显卡,该系统的费用约为 1,500 万美金——所以不难看出,AI 训练是既耗时又费钱。而面对这种情况,特斯拉准备了专门的硬件,一套性能极其夸张的超算系统!
                            Dojo:最强学习机——在自动驾驶日上马斯克透露特斯拉正在打造一台用于自家 AI 训练的超算,配合相关软件,特斯拉计划用其实现自动化无监督的视频级 AI 机器学习训练。马斯克表示,Dojo 不是集群 GPU 的架构,它将用特斯拉自研的芯片和专门为神经网络优化的计算机架构,这个超算系统预计会在明年面世。
                            今年 8 月,马斯克透露 Dojo 的浮点运算能力有望达 1 exaFLOP/s 级别。「exa」是 10 的 18 次方,目前全球没有任何一套超算系统的运算能力能达 1 exaFLOP,其中最接近的是日本的 Fugaku 超算,对应数据为 442010 TFlop/s,即 0.442 exaFlop/s。如果有 1 exaFLOP/s 的计算能力,完成一次前面所说的神经系统训练只需要不到 4 小时。

                            这对于特斯拉也许有点性能过剩,马斯克 9 月也在推特上表示特斯拉会在 Dojo 完工后推出商业化的服务器 web service。这也意味着 Dojo 还会给特斯拉带来服务器业务收入——一家车企,居然为了训练自家的自动驾驶系统,做出了可能是全球最强的超算——我以为自己已经习惯了特斯拉的各种「骚操作」,但这次我依然被震撼到了!——不仅因为超算是航天航空这样的顶尖科技领域才会用到的东西,还有这个事情背后体现出的软件对于特斯拉的价值。


                            15楼2020-11-21 12:29
                            收起回复
                              特斯拉的模仿游戏:——全世界的道路都是为人类驾驶而设计的,而人类驾驶靠的是视觉感知和后天的驾驶经验积累。如果细想,人类驾驶需要眼睛、视神经、大脑和驾驶思维,既有「硬件」需求,也有深度学习的软件需求。
                              特斯拉给车配备了摄像头,让车有了眼睛;特斯拉研发了神经元芯片,给车装上了强大的脑;FSD Beta 带来了 4D 视觉,让大脑中有了能看见多维世界的视神经;而 Software 2.0 则在 DATA ENGING 的不断循环中持续地学习增加驾驶经验……为了在为人类设计的道路上实现自动驾驶,它模仿了人类的功能结构,模仿了人类的驾驶行为甚至还模仿人类进步的方式……是的,特斯拉的自动驾驶其实是一场精心策划的模仿游戏。
                              作为一个拟人类驾驶机器,Autopilot 在尽可能地向人类学习,而且某些方面它甚至比它的模仿原型人类更加优秀,比如能同时追踪 360° 视角下的数十个目标,比如它的计算能力和精确度比人脑更强,比如它一天就可以记录超过 300 万英里的行驶里程……最庞大的「队列」、扩张最快的「队列」、行驶素材最多、行驶素材增长最快、最强自动驾驶芯片、最强 AI 训练计算机以及这一加持下大概率最高效 AI 训练系统,从商业竞争角度来看,特斯拉的身前早已空无一人了!而且,伴随着「队列」的增长,特斯拉为破译自动驾驶密码打造的这套由「队列」数据驱动的正反馈系统还在越来越快地运行,这也会让特斯拉身后的身影们越来越远……
                              对于 Autopilot,我们见证了它从 0 到 1 的诞生,也见证了它从 1 到 10 再到更多的进步过程:无保护左转、无车道线行驶、灵活避障、适时停车、适时越线……FSD Rewrite 之后将天花板抬到了前所未有的高度,房间里的那扇无人驾驶之窗甚至露出了一丝光亮!

                              那个到不了 100 的数字正在越来越接近 100!不过没有到达 100,能算 Full Self-Driving 吗?
                              我是这么觉得的:没有人可以彻底做到 100,Full Self-Driving 本质上是一个永远只可能无限接近而不可能彻底实现的伪命题——因为道路上永远都是先出现场景,再有后面的场景被收集以及后面的训练和学习过程,Autopilot 的素材库不管有多大,都永远只会是这个真实世界的子集。
                              但这没关系,我们的生活中有太多到不了 100 的事情了。然而当像素点到 100 万个的时候已经可以记录下一幅栩栩如生的画面,而图片一秒放 60 帧的时候已经是一段还原度很高的视频了……接近 100,本身就是一个非常有价值的事情,也是科技进步的目标!
                              时至今日,一台 2K 分辨率的手机已经让人难以看到像素点的存在,一个 240hz 的显示器也已经让人几乎感觉不到画面的间隔……而终有一天,我们也会感觉不到 FSD 和 100 的差距!
                              (全文结束)


                              16楼2020-11-21 12:30
                              回复