突破传统！FUDOKI 模型让多模态生成与理解更灵活、更高效

AI 资讯
25 年 6 月 11 日
编辑

小强

近年来人工智能领域发生了翻天覆地的变化，尤其是大型语言模型（LLMs）在多模态任务上取得了显著进展。这些模型在理解和生成语言的能力上展现出了强大的潜力，但目前大多数多模态模型依然采用自回归 (AR) 架构，推理过程较为单一、缺乏灵活性。为此，香港大学和华为诺亚方舟实验室的研究团队提出了一种全新的模型——FUDOKI，旨在打破这一局限。

FUDOKI 的核心创新在于其全新的非掩码离散流匹配（DiscreteFlowMatching）架构。与传统的自回归模型不同，FUDOKI 通过并行去噪机制，能够实现双向信息整合，从而显著提升模型在复杂推理和生成任务中的表现。该模型不仅在图像生成与文本理解之间架起了桥梁，还实现了两者的统一建模。

图源备注：图片由 AI 生成，图片授权服务商 Midjourney

这一模型的优势在于其去掩码的设计，使得生成过程更加灵活。FUDOKI 在推理过程中允许动态调整生成结果，仿佛让机器学习到了人类的思维方式。此外，FUDOKI 在生成图像方面的表现尤为出色，在 GenEval 基准上取得了 0.76 的成绩，超越了同尺寸的自回归模型，展现出高质量的生成效果和语义准确性。

FUDOKI 的构建依赖于度量诱导的概率路径和动力学最优速度。这些技术使得模型能够在生成过程中综合考虑每个 token 的语义相似性，从而实现更加自然的文本和图像生成。同时，在模型训练上，FUDOKI 利用预训练的自回归模型进行初始化，降低了训练成本，提升了效率。

FUDOKI 的推出不仅为多模态生成和理解提供了新的视角，还为通用人工智能的发展奠定了更为坚实的基础。未来，我们期待 FUDOKI 能够带来更多的探索与突破，推动人工智能技术的进一步发展。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

突破传统！FUDOKI 模型让多模态生成与理解更灵活、更高效

ChatGPT 语音功能升级，实时翻译对话更自然流畅

蚂蚁数科加速推进 AI 战略，设立「AI+产业创新」实验室

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

​ChatGPT 语音功能升级，实时翻译对话更自然流畅

蚂蚁数科加速推进 AI 战略，设立 「AI+产业创新」 实验室

Trae - 字节跳动推出的 AI 编程工具

DeepSeek 负载均衡优化策略

Firecrawl /search API 发布！一键搜索+抓取，AI 数据处理进入新时代！

米其林星级餐厅用 AI 设计菜谱引争议: 千元晚餐竟是 ChatGPT"创作"?

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

ChatGPT 语音功能升级，实时翻译对话更自然流畅

蚂蚁数科加速推进 AI 战略，设立「AI+产业创新」实验室