多模态数据生成方法、装置、系统、电子设备和存储介质

查看全文
202410896723复制
CN202410896723.8复制
人工智能
摘要
本公开提供了一种多模态数据生成方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域,具体涉及一种视觉智能体,该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型,可应用于AIGC(AI‑Generated Content)、人机交互等场景。具体实现方案为:根据来自目标对象的输入内容,确定目标对象的意图;响应于输入内容包括图像,根据意图,从视觉专家模型库中选取视觉专家模型,对图像进行处理,得到视觉专家结果;根据意图,从多模态模型库中选取多模态模型,基于视觉专家结果,对输入内容进行多模态处理,得到多模态处理结果;以及根据视觉专家结果和多模态处理结果,生成输出内容。
申请人
北京百度网讯科技有限公司
第一发明人
岳海潇
著录信息
20240704
20240906
申请日
首次公开日
授权(公告日)
维持时间:年
预估到期:
申请号
202410896723
申请日
20240704
公开(公告)号
CN118607576A@FMGK20240906
当前申请(专利权)人
北京百度网讯科技有限公司
公开(公告)日
20240906
原始申请(专利权)人
北京百度网讯科技有限公司
原始申请(专利权)人地址
100085 北京市海淀区上地十街10号百度大厦2层
发明(设计)人
岳海潇、付延年、倪子涵
代理人
王文思
代理机构
中科专利商标代理有限责任公司
IPC分类号
G06N3/006
G06N20/00
G06V10/70
G06F40/30