突破传统!FUDOKI 模型让多模态生成与理解更灵活、更高效

近年来领域发生了翻天覆地的变化,尤其是(LLMs) 在多模态任务上取得了显著进展。这些模型在理解和生成语言的能力上展现出了强大的潜力,但目前大多数多模态模型依然采用自回归 () 架构,推理过程较为单一、缺乏灵活性。为此,香港大学和华为诺亚方舟实验室的研究团队提出了一种全新的模型——FUDOKI,旨在打破这一局限。

FUDOKI 的核心创新在于其全新的非掩码离散流匹配 (DiscreteFlowMatching) 架构。与传统的自回归模型不同,FUDOKI 通过并行去噪机制,能够实现双向信息整合,从而显著提升模型在复杂推理和生成任务中的表现。该模型不仅在与文本理解之间架起了桥梁,还实现了两者的统一建模。

图源备注:图片由 生成,图片授权服务商

这一模型的优势在于其去掩码的设计,使得生成过程更加灵活。FUDOKI 在推理过程中允许动态调整生成结果,仿佛让机器学习到了人类的思维方式。此外,FUDOKI 在生成图像方面的表现尤为出色,在 GenEval 基准上取得了 0.76 的成绩,超越了同尺寸的自回归模型,展现出高质量的生成效果和语义准确性。

FUDOKI 的构建依赖于度量诱导的概率路径和动力学最优速度。这些技术使得模型能够在生成过程中综合考虑每个 token 的语义相似性,从而实现更加自然的文本和图像生成。同时,在模型训练上,FUDOKI 利用预训练的自回归模型进行初始化,降低了训练成本,提升了效率。

FUDOKI 的推出不仅为多模态生成和理解提供了新的视角,还为通用人工智能的发展奠定了更为坚实的基础。未来,我们期待 FUDOKI 能够带来更多的探索与突破,推动人工智能技术的进一步发展。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

​ChatGPT 语音功能升级,实时翻译对话更自然流畅

2025-6-10 1:23:31

AI 资讯

蚂蚁数科加速推进 AI 战略,设立 「AI+产业创新」 实验室

2025-6-11 1:20:49

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索