360人工智能研究院@AAAI:多模态理解与生成的生态思考与前沿探索
在人工智能的技术变革浪潮中,360集团从业务到研发全面拥抱AI技术,360人工智能研究院发挥自身的技术积累和智力优势,承担多模态理解和多模态生成模型的战略研发任务。近日研究院在多模态理解方向的工作IAA和在多模态生成方向的工作BDM被AI领域的top会议AAAI接收,让我们一起来了解一下研究院的这两篇工作以及背后的深度思考。§IAA:赋予语言模型多模态能力的创新架构
·Arxiv: https://www.arxiv.org/abs/2408.12902
·Github: https://github.com/360CVGroup/Inner-Adaptor-Architecture
1. 解决的关键问题
当前多模态大模型在训练中,为提升多模态能力通常需要打开内嵌语言模型参数参与学习,这虽然能够提高模型在多模态任务上的指标,但也产生“副作用”:语言模型原有的文本理解能力因参与多模态训练而发生灾难性遗忘。主流以 LLaVA 系列为代表的桥接式结构多模态模型,在经过多模态数据训练后,内嵌语言模型在文本任务上的能力会产生明显下滑。
2)语言模型的多模态插件生态问题
IAA试图解决的第二个关键问题,是希望把多模态理解能力像文生图领域中的 ControlNet 一样,作为插件添加到基座的语言模型之上,与现在要求一个模型完成所有工作的方式不同,通过一个基座模型+针对不同任务的插件模型,形成全新的语言模型生态体系。2. 创新的网络结构
1)保持基座语言模型参数不变,避免灾难性遗忘
IAA 在网络设计上保持基座语言模型参数不变,对于多模态知识的学习,则通过多个新增的插入层进行专门处理。新增的插入层在语言模型的不同深度处,与原本以文本为导向的 transformer 层进行交互,使冻结的语言模型能够获取多模态能力。
2)一套模型权重可应对不同任务,降低部署成本
在通用多模态benchmark上,IAA与其它相关工作的指标比较验证了IAA在保持模型原有能力的同时,能有效提升其在多模态任务上的表现。
IAA 网络只需要部署一套模型权重,即可应对不同任务。text-only 任务和多模态任务分别走不同的工作流,避免了翻倍的部署成本。此外,IAA 插件结构不仅适用于多模态任务,对于需要在基座模型能力上特别加强的任务,如 code、math 等任务,一样可以通过插件的方式进行专门增强。
§BDM: 兼容SD生态的中文原生AI绘画
·Arxiv: https://arxiv.org/abs/2309.00952·Github: https://github.com/360CVGroup/Bridge_Diffusion_Model1. 解决的关键问题
1)原生中文及生成模型的世界观偏见
以 SD 为代表的英文 AI 绘画模型,包括且不限于SD1.4/1.5/2.1/3.5以及DALLE、Midjourney、Flux等,普遍带有明显的英文世界偏见,生成的人物形象更偏向于白人和男性,中文概念难以被准确生成。中文 AI 绘画模型的研发有多种方式,从易到难包括英文模型 + 翻译、英文模型 + 隐式翻译、英文模型 + 隐式翻译 + 微调、英文模型的结构使用中文数据从头训练等。除了最后一种方式外,其它方法都无法解决彻底解决模型偏见问题,这也是之前引发全网热议的“红烧狮子头”、“车水马龙”等现象背后的原因所在。上述方案中,完全从头训练可以完美解决AI绘画模型的世界观偏见问题,但也需要付出相应的代价:除了训练成本之外,还需要面对无法利用围绕SD等开源模型形成的庞大社区以及社区中积累的大量优秀插件等群体智力资产的问题。在克服AI绘画模型世界观偏见的基础上,进一步实现对开源社区的兼容,是BDM工作所要解决的第二个关键问题。2. 独特的模型结构
1)x-language分支网络,学习不同语言数据
BDM从模型结构上是一种类似ControlNet的分支网络思路,以不同的网络分支学习不同语言的数据,因此从原理上BDM不仅可以实现原生中文图像生成,也可以实现任意X语言的图像生成,并保证生成的图像符合对应语言文化的认知。英文部分可以直接复用已有的开源模型,从而实现与开源社区的无缝兼容。2)生成图像符合中文文化认知,兼容开源社区生态。
BDM使用10亿量级的中文图文数据进行训练,并兼容SD1.5社区生态。下图展示了BDM对不同的SD1.5风格微调模型具有很好的兼容性,特别是BDM同时保持了中文形象的输出能力,更多案例请详见AAAI论文。结语
多模态理解与生成是未来大模型技术发展的重要方向,360人工智能研究院在支撑集团AI战略的同时,也积极参与推进中文大模型研究社区的产学研交流和共同进步,本次分享相关工作均已完整开源,研究院Github主页:https://github.com/360CVGroup,欢迎合作交流。