无图全国都能开,端到端+VLM 理想智驾还有哪些黑科技?

2024-07-06 01:23:25 作者:liuxue1

  快速、高效、信息量密集是看完理想智驾夏季发布会后的最直观感受,全场都在高密度输出,酣畅淋漓。这次的重点有两件事,一是面向当下,在7月份内推送OTA 6.0版本,为所有理想AD Max的用户,带来全国都能开的无图NOA的功能;二是展望今后,分享今年下半年,理想智驾将继续成长的技术方案—端到端+VLM(视觉语言模型)。

 
一、7月内全量推送无图NOA,全国都能开!

  早在今年5月10日,理想就开启了1000名内测用户的无图NOA体验,6月份来到了万人规模,6月底向全量用户开启不限量招募(智驾里程需要达标)。相信对智驾感兴趣的理想车主朋友,已经用上无图NOA,欢迎在评论区给我们分享体验。

  哪些理想用户可以收到更新?

  这次是面向所有AD Max用户(购买的是带激光雷达的车型)的全量推送版本OTA6.0,将覆盖理想MEGA和理想L9、理想L8、理想L7、理想L6的AD Max车型,7月内推送。届时,全国都能开的无图NOA将上车。

  无图NOA的能力提升,在什么地方?

   

  1、哪里都可以开!(重感知,无图无先验)

  得益于感知、理解和道路结构构建能力的全面提升,无图NOA摆脱了对先验信息的依赖。用户在全国范围内有导航覆盖的城市范围内均可使用NOA,甚至可以在更特殊的胡同窄路和乡村小路开启功能。

  2、绕行丝滑-时空联合规划(横向控制+纵向控制,时间和空间模型并行运行)

  实现了横纵向空间的同步规划,并通过持续预测自车与他车的空间交互关系,规划未来时间窗口内的所有可行驶轨迹。基于优质样本的学习,车辆可以快速筛选最优轨迹,果断而安全地执行绕行动作。

  3、路口轻松过-上帝视角(导航信息、感知信息全融合)

  选路能力显著提升。无图NOA采用BEV视觉模型融合导航匹配算法,实时感知变化的路沿、路面箭头标识和路口特征,并将车道结构和导航特征充分融合,有效解决了复杂路口难以结构化的问题,具备超远视距导航选路能力,路口通行更稳定。   

  4、默契安心

  重点考虑用户心理安全边界,用分米级的微操能力带来更加默契、安心的行车体验。通过激光雷达与视觉前融合的占用网络,车辆可以识别更大范围内的不规则障碍物,感知精度也更高,从而对其他交通参与者的行为实现更早、更准确的预判。得益于此,车辆能够与其他交通参与者保持合理距离,加减速时机也更加得当,有效提升用户行车时的安全感。

  是不是全国都能开?是不是有路就好用?关注太平洋智驾,后续我们将带来实测内容。

  主动安全能力提升:

  这次OTA6.0,也为用户带来主动安全上的升级,同步将在7月内推送:

  1、复杂路口 AEB(自动紧急制动):

  行人、两轮车、三轮车典型的三种类型,从左、右、前靠近,做到了全覆盖。这三种对象从任何一个方向靠近,如果它侵占了理想汽车的安全系统区间,理想汽车都会启动AEB帮助用户主动刹停。

  2、夜间AEB(自动紧急制动):

  在高速上夜间行驶,周围基本上没有光照,没有开灯、没有反光条。理想AD Max的AEB能做到120公里时速完全刹停。

  3、全自动AES(自动紧急转向):

  解决“消失的前车”安全隐患场景。行驶过程中的我方车辆和前车,都以非常快的速度在高速上行驶,突然前前车急刹停,前车避让而我车距离很近不可能刹停。这种情况下理想汽车提供AES(自动紧急转向)功能,车辆会减速并避让过去,提升安全上限。

  4、全方位低速AEB(自动紧急制动):

  用户在日常生活的低速场景中,特别在地库停车环境复杂的情况下,可能会出现比如柱子、墩子,理想汽车的低速AEB,以上情况都可以刹停,避免剐蹭。

 
二、智驾新思路:端到端+VLM

  作为理想智驾展望未来的新技术,端到端+VLM的讲解部分偏向学术,比较深奥。我尽量以我的视角来给大家带入讲解。首先我们要肯定的是,这套技术论确实在智驾同质化、跟随化严重的当下,打开了新思路,也提出更好解决智驾场景问题的新方法。

  理想智能驾驶副总裁郎咸朋博士表示,新思路是来源于诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》中阐述了认知心理学中系统1与系统2的概念,这也是人类的认知模式。

  系统1可以看做为直觉、肌肉记忆。对应理解为,人根据自己过去的经验和习惯形成的直觉,可以做出快速的决策。如自动换挡或者在看到红灯时无需深思熟虑地停车。

  系统2则是深度思考能力,琢磨的能力。对应理解为,人需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。比如遇到突发紧急情况、复杂的交通或不熟悉的路段。

  系统1和系统2相互配合,也组成了人类认知和理解世界、做出决策的基础。想想自身解决一个简单或一个复杂的问题,是不是也需求这两种系统。所以,自动驾驶要解决的问题,也就是如何仿生的问题。   

  系统1和系统2是如何应用到自动驾驶中的?

  系统1,就是由各家厂商天天都在说的端到端(E2E)模型来实现,直接用来快速响应常规驾驶问题。是快系统。

  系统2,则是由VLM来实现。什么是VLM?就是视觉语言模型(Visual Language Model),

  这个模型擅长解读图片或视频里的信息,能用自然语言把看到的内容都描述出来,所以可以把它的能力理解为看图说话。

  所以在自动驾驶中,VLM可以用于场景理解,能识别和描述道路环境,这里面包含了思考的能力。通过大量数据训练,VLM就能理解交通场景中的复杂交互事件。是慢系统。

  即系统1,处理简单任务,足以应对驾驶车辆时95%的常规场景。系统2,解决复杂场景,占日常驾驶的约5%。系统1和系统2相互配合,分别确保大部分场景下的高效率和少数场景下的高上限,成为人类认知、理解世界并做出决策的基础。

  端到端和VLM分别是如何工作,如何配合呢?

  我们先说端到端。理想第一代的智驾大家都知道是重先验的NPN路口神经网络的方案,是典型的模块化方案,感知、定位、规划、导航、NPN等等。

  第二代智驾,也就是7月要全量推送的,目前正流行的分段式端到端,是感知和规控两个大模型。

  第三代智驾,我们所说的真正意义的端到端模型,它是一个One Model的结构,只有一个模型,输入的是传感器,输出的是行驶轨迹。

  端到端模型的输入信息,主要来源于摄像头和激光雷达。多传感器特征经过CNN主干网络的提取、融合,投影至BEV空间。为提升模型的表征能力,理想汽车还设计了记忆模块,兼具时间和空间维度的记忆能力。在模型的输入中,理想汽车还加入了车辆状态信息和导航信息,经过Transformer模型的编码,与BEV特征共同解码出动态障碍物、道路结构和通用障碍物,并规划出行车轨迹。

  黑盒特征,端到端方案已经不显示系统看到了什么,所以也不存在也传统的辅助驾驶感知界面让用户来观察。系统解码出动态障碍物、道路结构和通用障碍物,让用户在屏幕上看到,多次一举的目的,也是为了加强用户的安全感。

  多任务输出在一体化的模型中得以实现,中间没有规则介入,因此端到端模型在信息传递、推理计算、模型迭代上均具有显著优势。

  在实际驾驶中,端到端模型展现出更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力,以及更拟人的路径规划能力。如复杂道路通行,路口一堆违停车,需要从两车中间穿行,这样复杂场景,通过写规则是写不出来的。

  总结来说,端到端的优势就是高效传递,驾驶体验更聪明和更拟人;高效计算,驾驶时车辆会反应更及时和更迅速;高效迭代 ,更高频率的OTA。

  再来谈谈VLM视觉语言模型。它的算法架构由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,并将前视相机的图像和导航地图信息进行视觉信息编码,再通过图文对齐模块进行模态对齐,最终统一进行自回归推理,输出对环境的理解、驾驶决策和驾驶轨迹,传递给系统1辅助控制车辆。

  具官方介绍,理想汽车的VLM视觉语言模型参数量达到22亿,对物理世界的复杂交通环境具有强大的理解能力,即使面对首次经历的未知场景也能自如应对。

  VLM模型可以识别路面平整度、光线等环境信息,提示系统1控制车速,确保驾驶安全舒适。VLM模型也具备更强的导航地图理解能力,可以配合车机系统修正导航,预防驾驶时走错路线。同时,VLM模型可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则,在驾驶中作出合理决策。

  可以大家也注意到了一个问题,VLM是不是看起来非常厉害,但为啥没有在自动驾驶中广泛应用?

  时延,还是时延。大模型的特点,是拥有巨大的参数量,理想汽车的VLM视觉语言模型参数量达到了22亿。所以这也会导致模型的推理时间有较高延迟,少则几秒。别看就几秒钟,但放在自动驾驶场景当中,总不能说遇到一个场景,等车先思考4-5秒,显然这是无法满足自动驾驶对实时性的要求。所以,VLM模型更多应用在自动驾驶的仿真训练中,帮助车辆学会应对更多场景。

  理想就怎么能解决这个问题呢?

  从4.1秒的时延缩短到0.3秒时延,提升了13倍。优化路线如上图,涉及到理想从魔改行业原有方案,到创新方案。技术细节过于深奥,有从事相关行业或有技术背景的朋友,可以验证一下,我们在这就不展开了。不过,既然理想敢公开技术细节,也代表着取得了一定的进展,谁也不会留辫子给竞争对手。

  理想汽车基于快慢系统系统理论形成了自动驾驶算法架构的原型。系统1由端到端模型实现,具备高效、快速响应的能力。端到端模型接收传感器输入,并直接输出行驶轨迹用于控制车辆。系统2由VLM视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统1。如障碍物和夜间行驶时的减速建议,公交车道、潮汐车道的行驶建议。

  甚至还可以识别交警的动态手势,还有施工改道的指示牌。

  端到端+VLM的能力怎么验证呢?

  将在云端利用世界模型进行训练和验证。理想利用重建+生成的世界模型。 把真实数据通过3DGS(3D高斯溅射)进行重建,并使用生成模型补充新视角,两者结合所生成的场景既可以保证场景是符合真实世界的,也同时解决了新视角模糊的问题。

  在场景重建时,我们需要将场景中的动静态分离,核心思想是静态环境进行重建,动态物体进行重建和新视角生成,变成360°的新资产,将两者结合生成一个3D的物理世界,同时里面的动态资产可以被随意编辑和调整,实现场景的部分泛化。

  生成相对于重建具备更好的泛化性,可以自定义地改变天气、时间、车流等条件,生成不同的场景来考验模型的泛化能力,评价自动驾驶系统在各种条件下的适应能力。

  这种两种方式可以取长补短,生成相当考试前的模拟题,考验知识广度;重建相当于真题,考验知识深度。

  所以在这样的无限云端环境里,可以进行自动驾驶系统的充分学习和考试,确保系统的安全可靠。

  技术的落地是为产品服务,前不久我们找来华、蔚、小、理,也就是目前智驾头部厂的主力车型做了一次智驾横评对比。当时还是NPN方案的理想L7的表现,并不算亮眼,智驾可用范围少,规控策略僵硬是比较明显的感受。所以这次全量无图NOA后,按理是补齐了覆盖率和规则过重的问题。整体切换到无图方案后的理想AD Max的体验,到底如何?有多少进步?敬请关注太平洋智驾,我们后续将第一时间带来分享。

  这次发布会的最后还有一个彩蛋,除了全量推送无图NOA外,还有端到端+VLM系统的鸟蛋用户内测,十分期待。

>>点击查看今日优惠<<

    相关阅读
    点击加载更多