端到端正成为行业技术竞争的热点,不过围绕端到端的争议也在持续发酵。
近日,理想汽车董事长兼首席执行官李想表示,端到端自动驾驶只能解决L3(级辅助驾驶),解决不了L4(级自动驾驶)。而小鹏汽车董事长兼首席执行官何小鹏则认为,端到端模型下限能力有望在2025年快速提高。一旦提高后,不用2年时间,在全球范围内就可以达到(支持)超越L4的能力。采用端到端大模型之后,特斯拉的FSD和之前完全不一样,明年就有可能比人类“老司机”强。
车企广泛跟进 端到端成卖点
全国政协常委、经济委员会副主任,工信部原部长苗圩日前指出,要鼓励头部企业引领行业继续下大力气用人工智能大模型去训练车载操作系统和智驾的车控系统,打通“端到端”技术,打造整车的计算平台。
目前,除了特斯拉之外,国内的小鹏P7+等车型也已经使用了端到端智驾技术,而零跑汽车2024年下半年就声称,自研的端到端智驾系统将在2025年上车。
尽管对于端到端技术仍存在不同观点,但行业基本认可的事实是,自2023年8月特斯拉在美国推出端到端智驾系统FSD V12测试版后,端到端就成为智能汽车行业日益火爆的技术。至今,从问界到“蔚小理”等都在跟进端到端,并将此作为新车的卖点。
“端到端目前没有公认的准确定义,简而言之,就是智能驾驶系统的感知端到控制端。”北方大数据与人工智能研究院研究员曾文翔向《中国汽车报》记者表示,端到端主要依靠神经网络、信息无损传递来实现一系列功能,与以往的模块化架构主要依靠人工编程方式相比,提升了感知、预测到规划、控制整个过程的效率,也提升了自动驾驶系统的安全性能。
“端到端用先进的算法模型取代了传统算法和人工编写程序效率不高等问题。”在深圳先进技术研究院研究员俞荣锦看来,端到端的神经网络可以通过AI来自己学习,很快掌握海量的知识和技能,理论上可以不再需要模块化那样的人工编程。但是,现阶段如果完全依靠基于神经网络打造的端到端自动驾驶系统还不够“聪明”,测试表明,有时它可以在很复杂的道路交通场景中给出合理的规则,但有时也会犯低级的错误,甚至可能出现分不清红绿灯的情况,这被行业称为“上限很高,下限很低”。原因之一是神经网络学习的数据量不足,因此,目前包括华为、小鹏等车企推出的端到端智驾系统采用了“神经网络+编程”的方式,最大限度保证系统的安全性。
“其实李想和何小鹏所表达的内涵是一致的。”长三角研究院新能源应用技术研究中心研究员梁筱磊向记者表示,现实情况下,的确如李想所言,端到端自动驾驶只能解决L3级辅助驾驶,解决不了L4级自动驾驶。而何小鹏所说的端到端的模型下限能力有望在2025年快速提高,之后就可以支持超越L4级自动驾驶的能力,这是发展的趋势。在目前从车企到科技公司都在大力推动端到端技术快速演进的情况下,一些技术瓶颈将逐步被打破,端到端也会越来越“聪明”,从而会胜过人类老司机,这是发展的趋势。
本质是算力比拼
此前,在端到端刚刚兴起之际,部分车企对端到端的预期过高,但进入实际测试和应用阶段,才发现端到端的先进技术对于算力等保障能力的要求也是“水涨船高”。
从自动驾驶本义看,是要通过减少人工干预,甚至完全脱离人工干预情况下,在复杂道路交通环境中实现安全驾驶。而众所周知,目前的道路交通环境的复杂性,并不能完全用交通规则来覆盖。例如,机动车道上突然闯入的行人、自行车、两轮电动车等,这是在不遵守规则的情况下发生的,如何对端到端自动驾驶系统“说清楚”既要遵守交通规则,又要在类似突然情况下处理好行驶动作,是一件不容易的事。特别是“非规则”的情况可能千差万别,难以用一些理论模型来归纳概括,只能尽可能扩大数据库来“教”自动驾驶系统,这无形中就会提升算力需求。
事实上,不仅如此,端到端本身对于算力的要求大大超过了模块化阶段。“从特斯拉的FSD自动驾驶系统看,端到端所需算力成倍增加。”梁筱磊表示,特斯拉声称将AI大模型引入自动驾驶系统,其“端到端+大模型”的HW5(芯片)与之前的HW4相比,用3000行代码替代了原来的30多万行代码,但算力要求提升了10倍,整个平台算力需要达到3000~5000T0PS才能满足端到端的需求。
“‘端到端+大模型’决定了对于算力有较高的要求。”俞荣锦谈到,算力的增加,还体现在其他一些方面。例如,为了实现高效、准确的AI推理,车企及相关技术开发者可能需要花费更多精力在大模型优化、量化等技术上,以保证大模型与端到端配合的高效运行。同时,除了端到端智能驾驶系统本身对大算力的需求外,对云端算力要求也很高,这是因为端到端智能驾驶依赖于大规模数据集,系统训练过程非常耗费算力资源,尤其是为了让大模型具备对复杂路况有足够的识别能力,训练过程需要在大量的模拟场景和真实世界的数据上进行,可能涉及数亿、数十亿甚至更大的样本量,通常是样本量越大,系统就会越成熟,而这种大规模的算力需求,也推动了对高性能的计算芯片、计算模块等算力硬件的需求。
此外,对道路及交通规则的准确识别,也需要通过提升算力来保障。例如,国外一些城市的公路大多较为平坦,而国内一些城市公路却有很大起伏,如重庆、贵阳等地区,不仅弯道多而且高度差较大,端到端自动驾驶系统要准确识别,需要更多的训练数据和模型,也会增加对算力的需求。此外,有的城市道路右转线在直行线的左边,左转线在直行线右边的情况也现实存在,对此,需要自动驾驶系统学会识别这种不多见的规则,同样需要算力的支持。
目前,端到端智驾“卷”算力的程度已经超出之前的预期。目前,特斯拉超算中心的算力支持由其自研的D1芯片和自研的超级计算机Dojo组成,投资约10亿美元。而国内一些车企的端到端则更多使用了云计算方案,如小鹏汽车的云计算大模型等。“总体上看,除了自动化程度越高对于算力需求越大之外,道路交通状况的复杂程度也增加了端到端自动驾驶系统对算力的需求。”曾文翔表示。
总体处于初级应用阶段
行业中有人把模块化智驾系统比作在驾校学车,没有自主意识,且不会主动模仿学习的新手司机,教练(代码)说什么就做什么,但如果遇到教练没说过的就不会处理了。而端到端则是有自主意识并会主动模仿学习的新手司机,如果给它看过成百上千万优秀老司机怎么开车的视频后,它就会变成真正的老司机。
如今的新车市场上,已经有多个品牌的智能驾驶系统采用了端到端技术,也有不少品牌正在摩拳擦掌,即将推出端到端智驾系统。
2024年初,特斯拉在北美开始推送FSD V12,并于同年3月将FSD Beta改名为FSD Supervised,特斯拉智驾团队称基于端到端的FSD V12通过仅数月的训练,就已经完全超越了数年积累的FSD V11。同时,也被行业称为“一个端到端的生成大模型”“像人类司机一样”,尽管仍不完美,但令人印象深刻。就连曾经对特斯拉“有看法”的何小鹏,在试驾完FSD V12后也表示:“FSD V12.3.6表现极好,非常赞赏,要向其学习。”
随后,2024年7月,小鹏汽车宣布将向全球用户全量推送AI天玑系统XOS 5.2.0版本。小鹏汽车的端到端包括了“神经网络XNet+规划控制大模型XPlanner+大语言模型XBrain”。这被称为“三网合一”,其中,神经网络类似于人的眼睛,对现实世界中的可通行空间进行3D还原;XPlanner类似于人的肌肉和小脑直觉,通过海量数据的不间断训练,优化驾驶策略;规划控制大模型类似于人的大脑,会进行更深入的理解和意图推理,包括时序、环境、路牌文字等。2024年10月,小鹏汽车宣布AI天玑5.4.0正式开启公测,并首发搭载在小鹏P7+上。新版本为小鹏汽车带来了最强AI智能驾驶功能。根据数据统计,已经享受到公测版的P7+用户,在用户渗透率和里程渗透率上均取得了显著提升。
去年7月,理想汽车也发布了基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构。其分为两个系统,一颗Orin X芯片用于端到端,也就是快系统;另一颗Orin X芯片用于VLM,也就是慢系统。快系统处理常见的场景,而VLM则是处理复杂场景。
在2024年,全新岚图梦想家搭载了华为乾崑ADS 3.0的端到端自动驾驶系统。在这一系统中,GOD网络(通用障碍物检测网络)可以通过“激光雷达+摄像头”感知,来识别通用障碍物白名单外的异形物体,用3D来构建出障碍物的轮廓,从而对路上的障碍物进行精细识别,不但能够识别障碍物的动静态,还能分辨出救护车、警车、行人等。RCR网络(道路拓扑推理网络)则是为了进一步让智驾摆脱对高精地图的依赖,结合普通导航地图来与现实进行匹配和印证,再实时生成可用的行车地图。
时下,随着智能驾驶步入深水区,智驾AI大模型的训练离不开海量的、多样化的优质数据,特斯拉首席执行官马斯克认为,用100万个视频切片训练,勉强够用;200万个,稍好一些;300万个,就会让人惊叹;1000万个,那就好到难以置信了。因此,车企量产的智能驾驶车辆正成为最佳的数据采集工具。当足够多的量产智驾车在道路上行驶时,它们所收集的真实数据,将成为端到端智驾不断优化的关键资源。
此外,已经有很多车企及造车新势力在积极备战端到端智驾,并以此作为宣传卖点。近日,奇瑞汽车表示,在新车技术层面,要“All in端到端”。
“尽管关注度在持续升温,但行业认为目前端到端总体上还处于应用的初级阶段。”俞荣锦表示,一方面,从技术发展趋势来看,端到端是现阶段被多数车企看好的未来高阶智驾的方向,但目前由于对端到端所依赖的神经网络的了解和开发还不够透彻,所以现阶段端到端智驾的表现距离完美水平有一定差距。
相比已经普遍采用的模块式智驾系统,端到端的神经网络算法模型“聪明”与否,极度依赖海量的真实数据来训练,只有经过海量数据训练,神经网络才能从“小模型”变成好用的“大模型”。这也意味着,伴随着自动驾驶车辆行驶数据量的增加以及高阶智驾在算力等方面的持续投入,端到端智驾的发展会越来越好。另一方面,随着算力的投入和端到端开发复杂程度的提高,现阶段端到端的成本也有一定程度增加,随着未来的大规模推广应用,成本有望逐步下降。
向云端大模型进阶
现阶段行业内仍然对端到端的一些相关技术及其发展存在不同看法,但从部分已经或将要推出应用系统的车企产品看,现阶段的端到端智驾并不是完全的端到端。
俞荣锦表示,由于现阶段的端到端还存在开发不足等问题,准确率受到影响,因此各车企基本都采用了“端到端+”的方式来克服弊端。目前,端到端的不足包括端到端智驾系统的训练所需的数据规模比海量更加海量,随着智驾里程的增长以及自动驾驶系统能力的提升,端到端训练的数据量也会不断增长。来自车企的数据表明,截至2024年9月,小鹏汽车端到端的视频训练量为2000万个视频片段,特斯拉端到端智驾系统FSD的训练量则至少有5000万个视频片段。
此外,如果再按照训练频次和模型的迭代速度算,数据就更为巨大,像特斯拉端到端如果每天迭代一个小版本,假设需要用5000万个视频片段训练20个频次,每天就要训练10亿个视频片段。如果算力不足,端到端智驾模型迭代的速度就会放慢,准确性也会受到影响。而端到端智驾系统除了训练,还需要推理来支持决策,这对算力来说是个巨大考验。所以,特斯拉购买英伟达H100高性能芯片用于训练的算力支持,自研的Dojo计算机做推理算力支持。
由此,就容易理解车企在端到端技术路线上的不同。如华为乾崑ADS 3.0的端到端自动驾驶系统,不仅有GOD网络(通用障碍物检测网络)、RCR网络(道路拓扑推理网络),还加入了与PDP(预测决策规划网络)并行的本能安全网络,在很大程度上保障了系统的安全可靠。
而小鹏汽车的端到端包括了“神经网络XNet+规划控制大模型XPlanner+大语言模型XBrain”的“三网合一”形态,通过云端大模型提供支持。云端大模型的参数量是车端的80倍,云端强化训练后,车端大模型的上限会大幅提高。正是在端到端技术加持下,小鹏汽车智驾系统走向了以轻地图、轻雷达、重算力为核心的智能驾驶方案。针对复杂路况,能够实现点到点的辅助驾驶,包括自动通过高速ETC闸机、红绿灯识别、拥堵路段跟车以及主动变道超车等。尤其在体验和流畅性上,用户基本感觉不到任何断点,而且以端到端实现了“车位到车位”。因此,小鹏汽车方面认为,端到端只是开始,不是终局,真正的竞赛正在云端展开,云端大模型才是制胜的关键。
车企各自不同的技术路线,驱动着端到端的开发和应用走上快车道。“尽管技术路线不同,但都有合理的底层逻辑,最终也都会殊途同归,实现完全端到端的高级别自动驾驶。”曾文翔认为,与其他技术一样,智驾技术的发展也是一个不断探索的过程,目前看端到端适合高级别自动驾驶的优选,这是基于计算及云计算、神经网络、人工智能、大模型,以及芯片和计算模块、超级计算机等软硬件技术支持下作出的选择,而不是“拍脑门”的结果。
目前,随着智驾技术发展,端到端正在成为车企之间比拼智驾技术实力的分水岭。因此,一些车企往往把端到端作为营销的口号。“营销始终是与产品实力相结合的,否则只能‘搬起石头砸自己的脚’。”俞荣锦谈到,尽管目前有的车企将端到端作为营销的手段,但如果技术跟不上,很容易导致产品的市场销量和企业的品牌受损。
“目前的端到端不可能一步到位,以‘端到端+’的方式来推动端到端智驾的技术演进形式,是实际应用的必由之路,也是多数车企的共识。”梁筱磊认为,从目前智驾的发展趋势看,尽管在技术方面还有不同的探讨,也有不甚明确之处,但融合了多领域前沿技术的端到端很可能将成为汽车智能化的下一个目标,也不会止步于仅支持L3级智驾。从尊重科学的角度看,端到端的技术发展还需要时间,但未来一定能给消费者带来更好的智驾体验,让消费者感受到高阶智驾的诗和远方。