​苹果利用 「归一化流」 技术推出创新 AI 生图模型 TarFlow

苹果公司最近发布了一篇重要论文,展示了他们在领域的最新进展。与业界普遍采用的扩散模型或自回归模型不同,苹果选择了一条被广泛忽视的道路——归一化流 (NormalizingFlows) 技术。该技术的核心是通过数学变换,将真实世界的数据 (例如图像) 转化为结构化的噪声,并能将其恢复为清晰的图像样本。

归一化流的最大优势在于它能够精确计算生成图像的概率,而这是许多扩散模型无法做到的。这使得归一化流在那些对概率要求较高的任务中显得格外重要。不过,这种技术的研发成本相对较高,且早期模型常常存在模糊和缺乏细节的问题。

在此次研究中,苹果推出了一种名为 TarFlow(TransformerAutoRegressiveFlow) 的新型归一化流模型。该模型的工作原理是将一张待生成的图像分割成多个小块,并逐块生成相应的像素值。每个小块的生成都依赖于已生成部分的内容,这样可以有效避免将图像压缩为固定词汇表时造成的质量损失。

然而,TarFlow 在生成高分辨率图像时仍面临挑战,因此苹果提出了增强版的 STARFlow(ScalableTransformerAutoRegressiveFlow)。该模型通过在 「潜空间」 中进行工作,首先生成图像的压缩表示,然后利用解码器进行放大。这种方法不仅提升了生成效率,同时也避免了大量像素值的预测,先关注图像的整体结构。

此外,STARFlow 在处理文本提示方面也有了显著改进。它不再依赖于内建的文本编码器,而是能够调用现有的语言模型,比如的小型语言模型 Gemma,这样就可以更灵活地处理用户的语言指令。通过这种方式,STARFlow 能够专注于图像细节的生成与优化,进一步提升了生成图像的质量。

苹果在 生图领域的探索标志着他们在技术创新上的持续努力,也为未来的技术提供了新的思路和方向。

划重点:

🌟苹果采用 「归一化流」 技术开发新的 AI 生图模型,区别于传统的扩散模型。

🖼️TarFlow 模型通过拆分图像块生成,避免了压缩造成的质量损失。

🚀STARFlow 在潜空间工作,并支持调用现有语言模型优化文本提示处理。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

英国数据中心面临 AI 可持续发展挑战

2025-6-25 1:23:10

AI 资讯

首个本地运行的机器人智能模型 Gemini Robotics 上线,开启具身智能新篇章

2025-6-26 1:20:30

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索