当前位置：首页文章

自动驾驶的ChatGPT时刻来了？

2024-06-19 浏览：1.10万评论：0

撰文 / 吴甘沙（驭势科技联合创始人、董事长兼CEO）

编辑 / 涂彦平

设计 / 赵昊然

Editor's notes

编者按

6月15日，第十六届中国汽车蓝皮书论坛进行到第二天，在当天下午的智能驾驶专场，驭势科技联合创始人、董事长兼CEO吴甘沙带来《面对或然的大模型ChatGPT时刻，自动驾驶创业公司如何应对》的主题演讲。

他提出，“也许大模型是真正的自动驾驶的终局。”马斯克说特斯拉的12.4版本性能提升5倍到10倍。这是否意味着它在模型的规模上有了一次巨大的提升？数十亿到百亿参数的多模态模型是否会出现涌现能力？

吴甘沙表示，“如果特斯拉失败了，就是百亿美金的投资之后还是没有收敛，它的FSD增长曲线到了一定程度开始走平的话，它可能面临着股市的惊天压力。但是如果它成功了，也许这个赛道上的大小公司会被甩开。”

他在演讲中谈到了作为自动驾驶创业公司，驭势科技的应对策略。

以下是吴甘沙的演讲实录，有删减。

非常感谢汽车商业评论的邀请，很高兴再次来到蓝皮书论坛。各位同行，各位媒体朋友，大家好。因为时间关系，我只讲两个问题：第一，大家说今天我们面临着大模型自动驾驶的ChatGPT时刻，它会不会发生；第二，作为自动驾驶的创业性公司，该如何应对。

ChatGPT时刻来了？

我们是不是真的面临这样的ChatGPT时刻？

这是特斯拉车主自发上传数据的一个统计曲线。这是一个城市FSD的数据，在11.4到12.3之间出现了一个快速提升的现象。当然这个数据随时在变化，但是基本上200多公里才会有一次“危险接管”。

我们看看国内，国内比较领先的小鹏。何小鹏说得比较实诚，高速上能够达到1000公里1次接管，城市里还不到10公里1次接管。

大家这么初看，感觉特斯拉确实是在快速地拉开差距，但是我们再仔细看一下，看它的12.3.6，其实它的一般接管是31公里1次接管，高速是134公里1次接管。

一方面我们能够看到它在快速地提升，但是如果我们区分危险接管和普通接管，会发现它普通接管的数据也不是遥遥领先。更何况，中国的路况要比美国复杂很多。

大家可以看看2015年的数据，每10万辆车每年导致多少条人命，中国其实是远远超过美国和德国，也就是说中国的交通路况复杂很多。你对比31公里一次接管和不到10公里一次接管，也并没有说特斯拉就是遥遥领先于小鹏。

所以，到目前为止，我们认为可能没有办法得出很准确的结论，除非我们今天看到新闻说特斯拉10台FSD的车要在上海跑了，那这样才能够避免关公战秦琼的这样一种比较。

那为什么我们还是要问这个问题，就是它是不是面临着一个突破的时刻呢？因为我们最近看到马斯克的一些面向投资人的说法：

第一，在过去这两年当中他们的算力提升了10倍以上，提升了一个数量级，从前面5760张A100的Dojo，到今年年底可能会增加到8.5万张的H100。这可是上百亿美元的投资。

第二，训练数据提升了10倍以上。因为Dojo刚刚开始的时候是100万个10秒的视频，但是最近一次接受采访已经达到了几千万个视频。

第三，车端算力差不多提升了5倍，从144TOPS的HW3.0（这个HW3.0只能够跑1亿上下的参数）到现在720TOPS 的HW4.0，而且针对Transformer做了特殊的优化。

所以，我们不由得猜想它是不是在模型的规模上有了一次巨大的提升？从今天的1亿参数到几十亿的参数，它会不会出现涌现能力（举一反三，触类旁通等）？这是我们现在特别期待要看到的。

马斯克在5月份预告了一下，说他们的12.4版本能够提升5倍到10倍。所以，结合这边的这些数据，就是训练算力提升10倍、数据提升10倍，模型提升10倍，性能变成了10倍。所以，这个真正发生是非常有意思的。

而且，我们对比一下大模型的训练，比如前面是10万亿个token，几万张卡训练100天，做预训练，再做有专家监督下的精调（Supervised Fine Tuning），最后是人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback)。

这样的例子跟我们人学开车特别类似。我们人学开车前面也有一个预训练的过程，前面18年没有学开车，只是学常识，形成了我的世界观，我的认知模型。这是18年的社会阅历，就像一个预训练的过程。然后到了18岁，我就去驾校找了一个教练来教我怎么开车，这又像专家监督下的Fine Tuning。然后我拿了驾照自己买了车，我从新手上路边开边练，磕磕碰碰，熟能生巧，慢慢地就开得越来越好了。这又像不断反馈下一个强化学习的过程。

所以，也许大模型是真正的自动驾驶的终局。我们今天说的那么多的corner case可能并不是最终靠人力来去穷尽，而是靠这样的一种方法来去穷尽。

2017年我跟旭东（Momenta CEO曹旭东）参加CVPR会议的时候，我们也在谈端到端。当时我就有一个想法，大模型就像我们的系统2，针对一些最难、少见交通状况，需要高算力、高功耗去思考，最后去解决。但是端到端像系统1，它可以类比我们人类驾驶的本能模式。我们今天绝大多数时间开车都是脑子里想着其他的事，听着音乐，以一种极低功耗、极低算力的方式开车，这是端到端的模式。不排除这个可能是我们未来自动驾驶实现的终局的一种模式。

当然如果特斯拉失败了，就是百亿美金的投资之后还是没有收敛，它的FSD增长曲线到了一定程度开始走平的话，它可能面临着股市的惊天压力，因为毕竟一年卖个200万台车可能不值那么高的估值。但是如果它成功了呢，也许这个赛道上的大小公司会被甩开。这个可能是我们下面要拭目以待的。

差异化竞争

我们是以L4商用车为主的一家公司，但是从2016年成立以来，我们一直有一支团队在做乘用车。当然这个团队的规模很小，刚才旭东说1300个人，我们不到十分之一。这么小的团队，我们该怎么做乘用车，今天也跟大家做一个分享。

像FSD这样的投资烈度毫无疑问我们没有办法去做，所以我们做差异化竞争，去对标EAP，做出来极致的智价比。比如我们在10万元的车上面能不能做到EAP。

什么是EAP？大家可以看到特斯拉的智驾就是三个级别，最上面的就是基础版AP，中间那个是EAP，下面是FSD。这个EAP就是我们经常说的高速NOA，行泊一体，它的报价要到32000元，而FSD是64000元。

今天的FSD或者城市NOA是在从90分到99分的过程当中，这里面需要巨大的投资。但是另一方面，EAP这32000元钱的东西，高速的NOA、行泊一体再加上通勤记忆行车，可能在99分到99.99分的过程当中。那么能不能把这套系统做到3000元钱而不是32000元钱？这可能又是一个值得去探索的地方。

就是一方面把体验从99分做到99.99分，另一方面要把成本极大地降低。我们在这里面也有一定的探索。

这是我们乘用车的一条产品线，最底端就是一体机。一体机这条产品线基本上都是基于地平线的，底端就是J2的，200万像素、800万像素。我刚才说的就是中间的产品，行泊一体。上面其实是L4跟城市NOA一起想要去构想的预控制器的形态。

中间有一个产品，成本是极低极低的，它是J2再加上E3，能够实现高速的NOA再加上基于超声波雷达的APA，就是一个基本的行泊一体，它是极致的成本。

再往上这是J3再加上E3，我们把它叫做“极致的智价比”，它在这个基础上加上一个融合的APA，另外再加上一个记忆行车。然后在这个基础上又有一个变种，中间再加上TDA4，这里面就是高速领航加上记忆行车之外，再加上记忆泊车。然后再到上面，就再加上城市NOA。这是这么一个产品线。

但是我们采用极高模块复用的设计方法，这样使得我们跟主机厂和Tier1合作的时候可以有非常灵活的身段。可以提供算法或者软件模块，可以提供整体的软件包和服务，也可以把硬件的参考设计给我们的合作伙伴，或者提供软硬件一体的方案，所以，它可以非常灵活。我们基础版的行泊一体和极致智价比的行泊一体，这两个产品都是在小几千块钱，但是能够提供对标EAP的一种体验。

在这个过程中我也介绍一下我们的方法论。其实我们最早对这个团队的要求就是模块化，软件高度模块化可复用，硬件可以支持各类的计算平台，从J3到TDA到恩智浦到英飞凌，包括我们国产的芯驰等等。总结一下，就是硬件能够适配各类的品牌，软件高度模块化。

但是我们前七年基本上是两条路线，就是行车和泊车都是分开去做的。然后就做了这么一个行泊一体的软件架构，这是整个重新开始架构的产品。这个产品我们也是基于SOA，进一步提升开发效率和功能的可扩展性。

同时，我们还做了很多的工作。这里我介绍一点。

因为像这样极致智价比的平台，一个J3再加上一个E3，它除了感知能够用神经网络，其他的很难用数据驱动的方法，很难用神经网络。但是如果今天基于人的规则的这种方法，其实有很多数据没什么用，因为人来不及处理，所以就会利用效率低。但是如果你运用数据驱动的方法，用神经网络，它的安全等级又比较低，它只能达到QM，没有办法达到更高的安全等级。

Joseph Sifakis这位老兄也是图灵奖获得者，他其实问了一个问题，为什么自动驾驶的车那么难？讨论讨论着最终还是走向一个方向，就是基于模型、基于规则，再加上数据驱动神经网络的方法进行糅合,这样的方法能不能在极其低端的芯片上跑起来。

我们拿目标选择作为一个案例，大家可以看到我们在一个MCU上面能够跑出来这么一套系统，一方面它是一个基于数据驱动的LSTM（Long Short Term Memory,长短期记忆）的网络，另一方面是基于规则，再加上一个synthersizer，这么一套系统。神经网络能跑在一个MCU的core上面，然后规则和synthesizer跑在另外一个core上面。当然神经网络的是QM，另外一个是rule-based，是ASIL D。

这些融合起来我们能够综合达到ASIL D功能安全等级。同时，它对代码空间、数据空间的占用，其实是在几百kb的级别，能够达到26262的认证。

我们能不能通过一套融合的系统，一方面满足数据驱动，满足更高的性能，另外一方面又是极致的成本，并满足SOD的要求。

另外的案例，我们通过生成性对抗网络，比如在数据选择、在规控这些今天我们的数据不是特别多的情况下，能够不断地通过生成性的对抗网络来生成更高质量的数据。

这里举一个案例，就是很小的神经网络的算法和基于规则的方式进行融合，那它要去处理的就是一辆车，它在cut-in。大家可以看到基于小神经网络的能够比基于规则提前2秒多就能发现cut-in的意图。总的来说能够大幅减少假阴性，另外把recall可以提升50%。

这套系统我们也用在了很多其他的功能上，比如，这是一个纯视觉的AEB，我们也是拿到了五星+的标准，能够实现85公里时速的一个刹停。

跟随第一梯队

我们还是要紧跟第一梯队，在算法上紧跟前沿，并且还是能够保证可模块化交付。

过去这几年，特斯拉在BEV Transformer，包括像这种无图的Lanes Network，包括从单帧到一个视频流，包括到Occupancy Network(占用网络)等等方面有了很多创新，下一步做各个不同模块的神经网络化，最后实现整体的端到端大一统的网络。

在这些算法方面我们也一直在跟随，像BEV+Transformer+ Occupancy Network这样的网络，我们做的一套系统，最近在一个国际会议Robo Drive Challenge上面拿到了第一名。我们有很多这样的算法，它从这个性能上面看还是非常不错的，这些算法我们都可以把它们作为模块来进行交付。

为大客户服务

创业公司没有办法投入那么多的GPU，也没有那么多的数据，但是谁有？我们的大客户可能有，尤其是一些大的OEM，有数据，也有算力。我们也可以为他们提供像数据闭环、运维平台、大算力训练平台的软件服务。

因为我们做L4，大家知道L4其实需要特别好的闭环，因为它需要快速地迭代。所以，我们在车端有一套黑匣子的数据储存系统（DSSAD），在云端也有一套不错的自动驾驶的训练平台。

特别是从去年开始，我们也在把一些大模型的技术应用进去，场景理解、预标注、数据挖掘等大模型。这是一个典型的做智驾公司或者是OEM该有的平台。那么我们可以做这种云端的container的交付，也可以做实际的一体机的交付。因为可能有些公司并不希望用云，而且它的数据量可能像这么一个24-192卡的一体机，就够用了，那么我们也可以交付这样的一体机，确保快速地部署，落地即用。这是第一点。

第二是我们的运维平台。运维平台我觉得比较有特色。为什么？L4的系统我们是比较早去尝试订阅服务的模式的。就是我卖了这么一个系统以后，因为这个系统里面加了一个AI司机，我每年针对AI司机能够收一点工资，这就是一个订阅服务。

但是这个订阅服务如果你做得不好，其实一方面你没有办法保障客户的满意度。假设说一辆车一天工作20个小时，24小时当中只有4个小时在检修，20个小时99.99%的可用率，也就是一年只有差不多一个小时是没有在工作状态，这个要求非常高。

另一方面，像L4的系统，比如一个激光雷达可能就几万块钱，一个域控又几万块钱，那一年的订阅费可能也就是几万块钱。如果说你不能有很好的一种运维平台，那你订阅服务的这种模式最终是会亏钱的。所以，我们做了一个很好的云服务平台，这样的运维的能力也是可以输出的。

最终做一个总结，我们这么一个小团队应该怎么去做乘用车的智驾。

第一，我们身段非常灵活，可以提供硬件参考设计、整体软件包，或者是单个模块的算法或者软件，或者，我们没有数据和没有算力，我们可以为有数据和算力的客户提供数据/云端服务。

第二，我们也有非常好的算法，一直在紧跟特斯拉的SOTA算法。我们可以模块化交付我们的算法模块，也可以交付整体的软硬件一体的产品，或者是软件包再加上硬件的参考设计。

这个产品我们就聚焦在EAP这种高速NOA再加上行泊一体，再加上记忆行车的这样一种形态上。这样的形态我们希望做到极致的智价比，能够下沉到10万块钱的平台，我们可以支持Tier1或者OEM把这样的产品打造出来。

这就是我分享的内容，谢谢大家！

声明：本文由太平洋号作者撰写，观点仅代表个人，不代表太平洋汽车。文中部分图片来自于网络，感谢原作者。

TA的精彩文章

查看全部

自动驾驶的ChatGPT时刻来了？

TA的精彩文章

热门文章

热门标签