多模态数据生成方法、装置、系统、电子设备和存储介质

查看全文

202410896723复制

CN202410896723.8复制

人工智能

摘要

本公开提供了一种多模态数据生成方法，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型技术领域，具体涉及一种视觉智能体，该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型，可应用于AIGC（AI‑Generated Content）、人机交互等场景。具体实现方案为：根据来自目标对象的输入内容，确定目标对象的意图；响应于输入内容包括图像，根据意图，从视觉专家模型库中选取视觉专家模型，对图像进行处理，得到视觉专家结果；根据意图，从多模态模型库中选取多模态模型，基于视觉专家结果，对输入内容进行多模态处理，得到多模态处理结果；以及根据视觉专家结果和多模态处理结果，生成输出内容。

申请人

北京百度网讯科技有限公司

第一发明人

岳海潇

著录信息

20240704

20240906

申请日

首次公开日

授权(公告日)

维持时间：年

预估到期：