稀疏模块化大模型技术研究及示范应用

联系合作
新一代信息技术
信息内容消费
成果单位: 北京面壁智能科技有限责任公司
合作方式: 自行实施
所处阶段: 概念
关键词: 知乎AI搜索联盟业务多模态检索对话交互稀疏模块化模型模块化基础理论模块化结构建模模块化能力学习适配异构稀疏计算框架
总得分 (满分100)
0
资本强度 (满分0)
该成果得分:0

核心问题

大模型训练难度高、计算能耗大、推理速度慢、可解释性弱,以及多模态大模型在计算、学习和存储方面存在瓶颈,同时解决信息消费应用产业技术联盟日常业务中知识管理分散、办公效率较低的问题。

解决方案

本成果围绕以功能模块化为核心的多模态大模型技术体系与应用开展技术研究,突破模型模块化基础理论体系、模块化结构建模机制、模块化能力的高效学习与适配方法、面向模块化模型的异构稀疏计算框架等关键技术难点。具体包括利用大模型神经元稀疏激活和特异性等特性,将大模型拆解为多个模块,对特定输入只需少量模块参与计算,从而降低计算能耗和提高推理速度。同时,研发多模态AI搜索系统,实现对话式的图文多模态数据检索功能,包括多模态检索、对话式交互、观点聚合和知识问答等能力。

竞争优势

本成果属于原始创新,具有显著的创新性,突破了传统稠密模型混合专家化方式的局限,通过稀疏模块化技术,实现了模型模块化架构在学习过程中的自发涌现形成,提供了系统性的理论算法、学习机制和计算优化支撑。在应用层面,研发的多模态AI搜索系统针对信息消费应用产业技术联盟业务特性,实现了高效的知识管理和办公效率提升,具有显著的应用效益和竞争优势。

成果公开日期

20251124

所属产业领域

信息传输、软件和信息技术服务业

项目名称

中央引导地方专项

项目课题来源

北京市科学技术委员会;中关村科技园区管理委员会

摘要

稀疏模块化是指利用大模型神经元稀疏激活和特异性等特性将大模型拆解为多个模块,对特定输入只需要少量模块参与计算,是通往万亿参数大模型重要的技术突破口。稀疏模块化技术整体处于研究起步阶段,谷歌的GShard和Switch??Transformer、OpenAI的GPT-4、清华大学的MoEfication等大模型技术,已初步验证了在大模型中引入稀疏模块化建模思想的有效性,然而这些模型主要采用稠密模型混合专家化方式构建,其模块化架构并非神经网络在学习过程中自发涌现形成,在理论算法、学习机制和计算优化等方面缺少系统支撑。针对大模型训练难、计算能耗高、推理速度慢、可解释性弱等问题,本课题围绕以功能模块化为核心的多模态大模型技术体系与应用开展技术研究,突破模型模块化基础理论体系、模块化结构建模机制、模块化能力的高效学习与适配方法、面向模块化模型的异构稀疏计算框架等关键技术难点,解决多模态大模型的计算、学习和存储的瓶颈,并在关键技术研究成果基础上,研发多模态AI搜索系统,在知乎进行示范应用。基于稀疏模块化大模型技术,智者四海(北京)技术有限公司开发了“知乎新型 AI 多模态融合搜索系统”,在中关村现代信息消费应用产业技术联盟(以下简称 “联盟”)开展示范应用,旨在解决联盟日常业务中知识管理分散、办公效率较低等痛点,现形成应用报告如下:该系统针对联盟业务特性,实现了对话式的图文多模态数据检索功能:一是进行多模态检索。可快速定位联盟近 5 年政策文件、行业案例等7500 余份纯文本及图文混合资料,支持关键词语义联想。二是通过对话式交互满足用户动态需求(如自然语言提问 “汇总 2024 年中关村信息消费重点项目技术方向”,支持多轮追问补充),还具备观点聚合(自动分类行业报告中 “技术趋势”“政策建议” 等维度观点,标注来源文档)、知识问答(基于联盟内部培训资料,解答 “企业申报补贴条件” 等问题)等能力。

试试对话AI技术经理人
WENXIAOGUO
问小果
该成果有哪些相似成果?
该成果可能有哪些需求方?
该成果的市场前景如何?
北京面壁智能科技有限责任公司的相关成果还有哪些?