自动驾驶场景中,传统单模态感知系统在复杂交通环境和恶劣天气条件下目标检测准确率低、误判率高,且存在云端模型适配能力弱、持续学习能力差、网络延迟影响云-端交互时效性与可靠性等问题,难以满足自动驾驶对安全性和可靠性的高要求。
提出多模态协同感知大模型通用框架与训练方法,具备融合大于五种感知模态数据的强大能力;采用类脑启发的多模态协同感知大模型构造方法,提高模型学习能力,实现对多尺度交通场景的精准感知;开发多模态协同感知大模型自动驾驶场景适配技术,将目标识别准确率提升至85%以上;提出“大小模型持续互动学习”的联合进化新模式,增强模型适配和持续学习能力,并通过设计云端大小模型互动计算与感知增强方法,降低运行成本至5CPU小时;提出面向云控自动驾驶的低时延传输技术,利用强化学习驱动的云 - 端低延迟智能传输方法,设计规则和认知融合的传输机制,确保云 - 端交互往返传输延迟低于200ms;建设自动驾驶大模型验证与测试平台,并在示范区开展实测。
效益方面,在北京市高级别自动驾驶示范区(亦庄)累计完成12万公里路测,雨雾天气下目标检测准确率提升至63.80%,较传统单模态系统提高50.62个百分点;2025款小米SU7 Max车型集成相关技术后,误判率降至0.7次/千公里;与小米集团共建数据测试平台,形成全链路数据闭环体系,平台累计处理多模态数据总量约1.2PB,长尾复杂场景下模型精度提升约38.6%。竞争优势上,相比传统云端分离模式,新模式能显著增强模型适配和持续学习能力,降低运行成本;有效解决网络延迟长尾问题,保障云 - 端交互时效性与可靠性。创新性体现在提出多模态协同感知大模型通用框架、类脑启发构造方法、“大小模型持续互动学习”模式、低时延传输技术等多项原始创新技术。
20251024
信息传输、软件和信息技术服务业
本课题围绕自动驾驶领域“多模态数据融合与训练高效感知”这一关键科学问题,取得了多项突破性成果。在理论研究方面,本课题提出了一个多模态协同感知大模型通用框架与训练方法,该框架具备强大的数据融合能力,可融合大于五种感知模态数据。通过采用类脑启发的多模态协同感知大模型构造方法,多模态感知大模型的学习能力得到了显著提高,实现对多尺度交通场景的精准感知。在实际应用方面,本课题开发了多模态协同感知大模型自动驾驶场景适配技术,使得目标识别准确率提升至85%以上。为进一步优化模型性能和运行效率,本课题提出了“大小模型持续互动学习”的联合进化新模式,相比传统的云端分离模式,该模式能显著增强模型的适配能力和持续学习能力,并通过设计云端大小模型互动计算与感知增强方法,运行成本降低至5CPU小时,实现了高效低成本的云端计算与感知增强。在云控通信保障方面,本课题提出了面向云控自动驾驶的低时延传输技术,利用强化学习驱动的云-端低延迟智能传输方法,并设计了规则和认知融合的传输机制,有效解决了网络延迟的长尾问题,确保了云-端交互的往返传输延迟低于200ms,为自动驾驶系统提供了时效性与可靠性的保障。依托以上核心技术成果,本课题建设了自动驾驶大模型验证与测试平台,并在示范区开展了实测,并已形成用户使用报告。目前所提出的科技成果以论文和专利等形式进行报告,还联合本课题承担单位小米公司在其智能汽车端进行了测试验证,成果转化还处在进行过程中。
该课题聚焦多模态协同感知大模型技术研发及其在自动驾驶领域的深度融合,未来转化合作旨在推动技术从实验室走向产业化应用。合作需围绕以下几个方面展开:资金方面,期望合作方具备可持续投入能力,支持算法优化、硬件适配及实车测试等环节,初期预计需千万级资金用于技术中试与产品化开发;场地方面,需提供符合车规级标准的实验环境,包括封闭测试场、模拟城市道路场景及高性能计算中心;设备方面,要求配备多传感器融合采集平台、自动驾驶仿真系统及边缘计算设备;人员方面,需组建跨学科团队,涵盖感知算法工程师、车辆电子工程师与合规测试专家。合作将优先考虑具备汽车产业资源或智慧交通场景落地经验的企业,共同构建技术生态链。
仅限国内转让
未来预计将在以下6方面进行成果转化:(1)??多模态交互增强??:计划研发完成新一代VLA模型的智能网联汽车座舱适配,实现语音-手势-视线融合控制,响应延迟≤200ms,误触发率降低至1.2%3;基于亦庄测试数据优化VLA模型,支持实时路况AR-HUD投射,复杂路口导航准确率提升至98.5%。(2)??个性化服务扩展??:开发驾驶员状态监测模块,通过新提出的VLA模型分析面部微表情与语音情绪,疲劳检测F1-score达0.91; 在未来接入北京市智慧交通平台,实现充电桩预约、拥堵预警等服务的无缝推送。(3)??车-机器人协同网络??:计划在北京亦庄或望京商务区部署基于本项目所研发的VLA模型的智能驾驶车辆,,实现市政设施缺陷识别(mIoU 89.7%)与自主避障;构建“车-机-云”数据闭环,通过Gato通用智能体框架共享感知数据,降低边缘计算负载30%。(4)??标准化与生态共建??:参与制定《北京市具身智能系统接口规范》,推动传感器时空同步误差小于=行业标准;计划与北京市科委共建“具身智能联合实验室”,孵化大于3项专利技术。(5)??安全提升??:计划在试点区域交通事故率下降25%,实现智能驾驶车辆事故预警准确率95%。(6)??产业协同??:带动北京亦庄形成智能网联产业链,吸引上下游企业超20家,年产值突破50亿元。
中央引导地方专项
北京市科学技术委员会;中关村科技园区管理委员会
科技成果来源: 专利13项:1.图像识别方法、装置、电子设备及存储介质2.一种自动驾驶视频问答方法、模型训练方法及系统3.一种多模态的自动驾驶目标检测方法、系统和存储介质4.一种基于条件扩散的不完全多模态感知数据恢复方法及系统5.智能体驱动的任务处理方法及相关设备6.一种面向自监督训练的轻量化本地神经网络结构搜索方法7.一种面向边端设备的轻量化对比迁移学习方法8.基于自蒸馏学习的自动驾驶轨迹预测方法、装置、及设备9.一种三维人体骨骼姿态估计方法及模型训练方法10.强交互视频流传输质量优化方法、装置、控制器及系统11.在模拟存内计算NPU中部署神经网络的方法和电子设备12.一种面向嵌入式RTOS的内存动态自适应DNN 推理方法及系统13.一种基于深度强化学习的拥塞控制算法测试方法及系统 技术原理:本课题提出了一个多模态协同感知大模型通用框架与训练方法,该框架具备强大的数据融合能力,可融合大于五种感知模态数据。通过采用类脑启发的多模态协同感知大模型构造方法,多模态感知大模型的学习能力得到了显著提高,实现对多尺度交通场景的精准感知。在实际应用方面,本课题开发了多模态协同感知大模型自动驾驶场景适配技术,使得目标识别准确率提升至85%以上。为进一步优化模型性能和运行效率,本课题提出了“大小模型持续互动学习”的联合进化新模式,相比传统的云端分离模式,该模式能显著增强模型的适配能力和持续学习能力,并通过设计云端大小模型互动计算与感知增强方法,运行成本降低至5CPU小时,实现了高效低成本的云端计算与感知增强。在云控通信保障方面,本课题提出了面向云控自动驾驶的低时延传输技术,利用强化学习驱动的云-端低延迟智能传输方法,并设计了规则和认知融合的传输机制,有效解决了网络延迟的长尾问题,确保了云-端交互的往返传输延迟低于200ms,为自动驾驶系统提供了时效性与可靠性的保障。依托以上核心技术成果,本课题建设了自动驾驶大模型验证与测试平台,并在示范区开展了实测,并已形成用户使用报告。 关键技术指标: 亦庄示范区测试:在北京市高级别自动驾驶示范区(亦庄)累计完成12万公里路测,通过BEVFormer架构实现多摄像头数据融合,在雨雾天气下的目标检测准确率提升至63.80%,较传统单模态系统提高50.62个百分点。 小米汽车量产搭载:2025款小米SU7 Max车型集成基于 MiMo 系列大模型技术的多模态感知系统,支持多模态感知数据融合功能,通过视觉-语言协同模块实现实时交通标志语义解析,误判率降至0.7次/千公里。 数据闭环体系:与小米集团共建“智能驾驶”数据测试平台,形成覆盖采集、仿真、标注、训练及评估的全链路数据闭环体系,平台累计处理多模态数据总量约1.2PB。通过本项目提出的 RoboDriveVLM 轻量化模拟方法,使长尾复杂场景下的模型精度提升约 38.6%。 应用前景: ??安全提升??:计划在试点区域交通事故率下降25%,实现智能驾驶车辆事故预警准确率95%。 ??产业协同??:带动北京亦庄形成智能网联产业链,吸引上下游企业超20家,年产值突破50亿元。
