摘要
本公开提供了一种多模态数据生成方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型技术领域,具体涉及一种视觉智能体,该视觉智能体集成有视觉专家模型、多模态大模型以及大语言模型,可应用于AIGC(AI‑Generated Content)、人机交互等场景。具体实现方案为:根据来自目标对象的输入内容,确定目标对象的意图;响应于输入内容包括图像,根据意图,从视觉专家模型库中选取视觉专家模型,对图像进行处理,得到视觉专家结果;根据意图,从多模态模型库中选取多模态模型,基于视觉专家结果,对输入内容进行多模态处理,得到多模态处理结果;以及根据视觉专家结果和多模态处理结果,生成输出内容。