飞桨框架开源和生态建设

关注

联系合作

成果单位：北京百度网讯科技有限公司

合作方式：技术许可

所处阶段：中试

关键词： AI科学计算AI Agent交通物联网健康教育工业制造能源电力金融企业服务高性能模型库AI开发环境集约化推理部署统一资源调度偏微分方程求解多模态知识提取结构化数据分析科研问答长思维链数据库类人长思维链

成果评价

总得分（满分100）

资本强度（满分0）

该成果得分：0

小果解读

核心问题

大模型开发全流程中存在工具链分散、资源调度低效、国产算力支持不足的问题，导致开发效率低和生态自主性弱。2. AI科学计算领域面临偏微分方程求解效率低、多模态知识提取能力不足的技术瓶颈，制约科学问题求解的通用性。3. 行业AI Agent开发存在跨模态理解困难、定制成本高、长期一致性差等问题，限制智能体在复杂场景的应用。4. 开源生态建设缺乏产业赋能机制和国际影响力，开发者参与度低，生态规模受限。

解决方案

模型库与工具链集成：依托星河社区研发高性能模型库（适配1000+国产硬件模型），集成图形化开发环境、集约化推理部署（优化LoRA等场景）和统一资源调度（支持天数智芯等异构集群）技术，打通大模型全流程。2. AI for Science突破：攻克科学计算偏微分方程高效求解技术（SOTA精度），研发材料科研智能体（多模态知识提取+结构化分析），开源PaddleCFD等科学计算套件及90+案例。3. 行业AI Agent工具链：构建长思维链数据库与类人思维链，建设交通（具身认知驾驶智能体）、物联网（边缘端侧智能体）、健康（心理咨询智能体）、教育（Mentigo智能导师）四大行业工具链，降低定制成本。4. 开源生态建设：通过产业赋能覆盖494家北京企业，新增244名外部开发者贡献1299个PR，培育ERNIE-4.5-21B等国际标杆项目，累计Commits超110万次。

竞争优势

生态规模领先：建成中国最大AI学习社区（1700万开发者），深度学习开源生态规模居国内首位。2. 技术自主可控：全面支持国产算力，模型库与工具链高度集成，突破科学计算与行业Agent关键技术。3. 性能国际领先：材料科研智能体综合性能优于GPT-4等主流模型，科学计算套件覆盖流体力学等四大领域。4. 产业赋能显著：助力中车集团等494家企业智能化升级，开源项目国际影响力突出（如PaddleOCR下载量超900万次）。5. 创新模式独特：通过星河社区实现开源共建与产业协同，形成“技术突破-生态繁荣-产业反哺”的闭环。

成果描述

成果公开日期

2025-11-26

所属产业领域

信息传输、软件和信息技术服务业

项目名称

国产化人工智能创新联合体

项目课题来源

北京市科学技术委员会;中关村科技园区管理委员会

摘要

本课题依托飞桨框架，重点建设星河社区对大模型开发的支撑能力，在AI科学计算、AI Agent两大方向形成垂直领域生态示范。通过开源共建和产业赋能，助力开发者成长和广泛应用，促进自主可控的飞桨开源生态繁荣。（1）模型库和大模型全流程工具链能力集成本课题依托星河社区平台，突破了高性能模型库、高度集成的AI开发环境、集约化推理部署和统一资源调度等关键技术，全面打通了从大模型开发、训练、精调、压缩到推理全流程，实现了模型库和大模型工具链的高效集成和国产算力支持，进一步夯实了自主可控的国产深度学习生态基础。具体地，本课题基于星河社区研发了高性能模型库，汇聚了1000余个与飞桨框架和国产硬件适配的优质模型，覆盖文心大模型4.5系列、DeepSeek、LLaMA、Qwen等大模型，以及结合实际应用场景调优的PP系列特色产业模型和各领域经典模型，完备支持在线实训。针对开发者多样化实训需求，研发了高度集成的AI开发环境，支持图形化界面、CodeLab和iCoding等多种开发方式，并通过插件机制实现10余个飞桨开发套件在线应用。针对大模型在线推理资源占用高的技术瓶颈，研发了集约化推理部署技术，结合飞桨大模型部署实践，对LoRA、Prefix Tuning、用户独占等典型场景进行了定制优化，显著提升了模型推理部署效率与资源利用率。此外，为保障AI实训环境高效、稳定运行，研发了统一资源调度技术，按需灵活调度包含天数智芯、昆仑芯等国产硬件在内的异构硬件集群。目前飞桨星河社区注册开发者超过1700万，建成了中国最大的AI学习与实训社区。（2）AI for Science重点领域研究案例与智能组件研发本课题在AI科学计算关键技术上取得突破，攻克了科学计算偏微分方程高效求解技术，精度达到SOTA水平，为科学问题求解提供通用计算支撑。基于文心大模型和多模态数据检索增强方法，研发了具备多模态知识提取、结构化数据分析与科研问答等核心能力的材料科研智能体。在SciAssess基准测试中，该智能体在问答、推理和文档分析等多项任务中表现稳定，综合性能优于GPT-4、Llama、Gemini等国际主流大模型。为降低科研人员使用人工智能的技术门槛，本课题开源了支持流体力学、材料、物理和数学等领域的科学计算开发套件PaddleCFD、PaddleMaterials和PaddleScience。在材料科学、化学、地球物理、生态环境四个领域开发了20个研究案例，飞桨科学计算代码库累计开源案例超过90个。相关成果已在中国中车、中国航天空气动力技术研究院等实现应用。（3）面向行业场景AI Agent的工具链及应用建设本课题突破了传统系统在复杂环境下难以实现长期一致性、跨模态理解与类人化交互的技术瓶颈，在国内首次构建了行业级长思维链数据库与类人长思维链，为行业智能体提供了通用基础。基于此技术，依托文心大模型，建设了面向交通、物联网、健康和教育四大重点行业的Agent工具链和AI Agent应用，显著降低了行业智能体的定制开发成本。在交通行业，突破驾驶风格多重对齐技术，研发了具身认知增强的驾驶智能体，实现从感知、决策到评估的全链条优化；在物联网行业，攻克了Agent友好的流式工具链技术，研发了边缘端侧智能体，统一异构设备接口，实现多设备语义融合；在健康行业，提出了SSupporter工具链与CA+Agent框架，研发了心理咨询智能体，可显著提升服务质量和陪伴效果。在教育行业，提出了“阶段–状态–策略”三元决策框架，研发了智能导师智能体Mentigo，可显著提升学生的学习专注度与创造力水平。（4）基于星河社区的开源共建和产业赋能本课题充分发挥北京人工智能创新策源与产业引领优势，项目期内，通过飞桨生态建设赋能北京市企业494家，在工业制造、能源电力、金融、通信、企业服务等行业实现应用，助力中车集团、南方电网、中国电信、中国商飞、北京奔驰、北京铁科英迈、北京十沣科技等企事业单位智能化升级。开发者也在参与各种生态活动中成长，为飞桨贡献代码的外部开发者新增244名，贡献了1299个PR（代码合入请求）。飞桨开源生态国际影响力显著提升，培育了一批具有国际影响力的开源项目和模型，典型如轻量级思考模型ERNIE-4.5-21B-A3B-Thinking荣登Hugging Face 全球模型趋势总榜和文本模型榜首；PaddleOCR-VL发布当日即登顶Hugging Face Trending榜单；PaddleOCR累计下载量已超过900万次，是Github社区中唯一一个star数超过6万的中国OCR开源项目。作为国内最早开源的深度学习框架，目前飞桨累计Commits已突破110万次，收获了6万条Issues和13万条Pull Requests，建成了我国最大的深度学习开源生态。