Stability AI 开源 Stable Audio Open Small，手机秒变音频创作神器

StabilityAI 联合芯片巨头 Arm 正式开源StableAudioOpenSmall，一款专为移动设备优化的 341M 参数文本到音频生成模型。这款轻量化模型能在 ArmCPU 上本地运行，生成高质量立体声音频，标志着 AI 音频生成技术向边缘计算和移动设备的重大迈进。

技术亮点: 轻量高效，移动端本地生成

StableAudioOpenSmall 基于 StabilityAI 此前发布的 StableAudioOpen 模型，通过深度优化，参数量从 1.1B 压缩至 341M，显著降低了计算需求。得益于 Arm 的 KleidiAI 库支持，模型能在智能手机上以不到 8 秒的速度生成最长 11 秒的 44.1kHz 立体声音频，无需云端处理，适合离线场景。

该模型采用潜在扩散模型（LatentDiffusionModel），结合 T5 文本嵌入和基于变压器的扩散架构（DiT），通过简单的英文文本提示 (如「128BPM 电子鼓循环」或「海浪拍岸的声音」) 即可生成音效、鼓点、乐器片段或环境音。AIbase 测试表明，模型在生成短音频片段时细节丰富，尤其适合音效设计和音乐制作。

开源与许可: 赋能开发者与创作者

StableAudioOpenSmall 遵循 StabilityAI 社区许可，对研究人员、个人用户及年收入低于 100 万美元的企业免费开放，模型权重和代码已在 HuggingFace 和 GitHub 上发布。大型企业需购买企业许可，确保技术在商业化中的可持续性。这种分级许可策略降低了技术门槛，鼓励全球开发者探索音频生成应用。

此外，模型训练数据全部来自 Freesound 和 FreeMusicArchive 的免版税音频，确保了版权合规性，规避了如 Suno 和 Udio 等竞争对手因使用受版权保护内容而引发的风险。

性能与创新:ARC 后训练提升效率

StableAudioOpenSmall 引入了对抗性相对对比（ARC）后训练方法，无需传统蒸馏或无分类器指导，结合相对对抗损失和对比鉴别器损失，显著提升了生成速度和提示遵循性。研究显示，模型在 H100GPU 上生成 12 秒音频仅需 75 毫秒，在移动设备上约 7 秒，且在 CLAP 条件多样性得分上达到 0.41，位居同类模型之首。

主观测试中，模型在多样性（4.4）、质量 (4.2) 和提示遵循性 (4.2) 上均获得高分，展现了其在生成音效和节奏片段方面的优异表现。其 Ping-Pong 采样技术进一步优化了少步推理，兼顾速度与质量。

行业意义: 推动移动 AI 与创意民主化

StableAudioOpenSmall 的发布标志着 AI 音频生成技术向移动端和边缘计算的转型。与依赖云处理的竞争对手不同，该模型的离线运行能力为移动场景（如实时音效生成）提供了便利，覆盖全球 99% 的智能手机用户。AIbase 分析认为，这种技术普及将重塑音频创作生态，让普通用户也能参与专业级音效设计。

然而，模型也存在局限性: 仅支持英文提示，对非西方音乐风格的表现较弱，且无法生成逼真的人声或完整歌曲。StabilityAI 表示，未来将优化多语言支持和音乐风格多样性，以提升全球适用性。

项目：https://huggingface.co/stabilityai/stable-audio-open-small

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

Stability AI 开源 Stable Audio Open Small，手机秒变音频创作神器

技术亮点: 轻量高效，移动端本地生成

开源与许可: 赋能开发者与创作者

性能与创新:ARC 后训练提升效率

行业意义: 推动移动 AI 与创意民主化

谷歌重磅发布 Gemini for Education！免费 AI 工具席卷全球教育

字节跳动 EX-4D 震撼开源：单目视频秒变自由视角 4D 大片

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

技术亮点: 轻量高效，移动端本地生成

开源与许可: 赋能开发者与创作者

性能与创新:ARC 后训练提升效率

行业意义: 推动移动 AI 与创意民主化

相关文章：

谷歌重磅发布 Gemini for Education！免费 AI 工具席卷全球教育

字节跳动 EX-4D 震撼开源：单目视频秒变自由视角 4D 大片

盘点免费且靠谱的 AI 大模型 API，统一封装，任性调用

亚马逊拟在北卡罗来纳州投资 100 亿美元 扩展人工智能基础设施

智源发布 RoboOS2.0 与 RoboBrain2.0：首个支持 MCP 机制的机器人

AI 威胁使 SecOps 团队精疲力竭并面临风险

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

亚马逊拟在北卡罗来纳州投资 100 亿美元扩展人工智能基础设施