本文作者:访客

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

访客 2025-05-17 10:31:02 45291
谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量摘要: 谢赛宁等团队推出了统一多模态模型Blip3-o,实现了图像理解和生成的统一,并在多个基准测试中达到新高。他们提出了一种新方法,使用扩散Transformer来生...

谢赛宁等团队推出了统一多模态模型Blip3-o,实现了图像理解和生成的统一,并在多个基准测试中达到新高。他们提出了一种新方法,使用扩散Transformer来生成语义丰富的CLIP图像特征,这种方法不仅提高了训练效率,还提升了生成质量。

谢赛宁SFR等新作,统一多模态BLIP3-o登场,先理解后生成,端掉VAE刷新SOTA 提升图像生成质量

研究团队发现,先进行图像理解训练,再进行图像生成训练的顺序预训练策略具有实用优势,既能保持图像理解能力,又能培养强大的图像生成能力。网页端可以免费体验该模型的Demo。

在多模态模型研究中,图像理解和生成的统一受到越来越多的关注。尽管对图像理解的设计选择进行了广泛研究,但关于图像生成统一框架的最佳模型架构和训练方法的研究仍然不足。基于此背景,团队开始对统一多模态模型进行全面研究,重点关注图像表示、建模目标和训练策略。

他们提出了一种新的统一架构,包括两部分:图像理解部分使用CLIP对图像进行编码,并计算目标文本标记与预测文本标记之间的交叉熵损失;图像生成部分则通过自回归模型生成一系列中间视觉特征,然后将其作为扩散Transformer的条件输入,生成CLIP图像特征,以逼近地面真实的CLIP特征。通过使用CLIP编码器,图像理解和图像生成共享同一个语义空间,从而有效地统一了这两项任务。

在图像生成部分,团队尝试了三种设计方案,所有设计都使用了自回归+扩散框架,但图像生成组件各不相同。结果显示,CLIP+Flow Matching在GenEval和DPG-Bench上获得了最佳的提示对齐得分,而VAE+Flow Matching产生的FID最低,表明美学质量较高。然而,FID有其局限性,它量化的是与目标图像分布的风格偏差,往往忽略了真正的生成质量和即时配准。最终,团队确定CLIP+Flow Matching是最有效的设计选择。

在训练策略方面,团队比较了联合训练和顺序训练。联合训练虽然可能使图像理解和生成任务互惠互利,但总数据量和数据比例会影响协同效应。相比之下,顺序训练更具灵活性,允许冻结自回归骨干并保持图像理解能力,将所有训练能力用于图像生成。受LMFusion和MetaQuery启发,团队选择了顺序训练来构建统一的多模态模型。

实验结果证明,CLIP嵌入与流匹配loss搭配使用,可以提高训练效率和输出质量。基于这些见解,团队推出了BLIP3-o,这是一个最先进的统一模型系列,使用60k指令调整数据集BLIP3o-60k进行了增强,大大提高了提示对齐和视觉美感。为了方便未来的研究,他们完全开源了模型,包括代码、模型权重、训练脚本以及预训练和指导调整数据集。目前,团队正在积极开发统一模型的应用,包括迭代图像编辑、视觉对话和逐步视觉推理。

这项研究由Salesforce、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学等机构共同完成。团队中大部分成员是华人,共同一作包括马里兰大学博士生Jiuhai Chen、弗吉尼亚理工大学博士生Zhiyang Xu、纽约大学博士生Xichen Pan以及华盛顿大学博士生Yushi Hu。项目负责人是Salesforce的高级应用科学家Le Xue。

文章版权及转载声明

作者:访客本文地址:https://ddwi.cn/ddwi/11452.html发布于 2025-05-17 10:31:02
文章转载或复制请以超链接形式并注明出处爱美网

阅读
分享