语音编辑像改 Word？阶跃星辰发布 30 亿参数音频编辑模型 Step-Audio-EditX

AI 资讯
25 年 11 月 11 日
编辑

小强

音频创作门槛被彻底击穿。国内 AI 独角兽阶跃星辰（StepStepFunAI）于 11 月 9 日正式发布全球领先的 LLM 级音频编辑模型——Step-Audio-EditX，首次实现「用自然语言指令编辑语音」的革命性体验。用户只需输入「把这段话改成川渝 rapper 的嚣张语气」或「结尾加一个害羞的笑声」，模型即可精准调整音色、情绪、节奏甚至呼吸停顿，让语音编辑如修改文档般直观、高效。

30 亿参数，性能不减反升

Step-Audio-EditX 的核心突破在于其极致高效的模型压缩技术。团队将原始 130 亿参数模型精炼至仅 30 亿，不仅大幅降低部署成本，更在关键指标上实现反超。模型支持零样本语音克隆——仅需一句参考音频，无需目标人物提供任何训练数据，即可高保真复现其音色; 同时支持多轮迭代编辑，用户可连续发出细化指令（如「再温柔一点」「笑声延长 0.3 秒」），逐步逼近理想效果。

方言与情感，拿捏得死死的

该模型对中文语境的理解尤为惊艳，流畅支持普通话、英语、四川话、粤语，方言表达中的地域情绪与语用习惯自然真实。在盲测中，评测员一致认为其「川渝段子的市井感」「粤语语气词的细腻度」远超同类产品。

硬刚闭源商用模型，三项指标全面领先

AIbase 获取的对比数据显示，Step-Audio-EditX 在三大核心维度碾压 Minimax 与字节跳动 Doubao 等闭源方案:

自然度评分:4.72/5（Minimax4.51，Doubao4.38）

情感准确率:93.7%（领先第二名 6.2 个百分点）

音色保持度:98.1%，几乎无损还原

应用场景爆发: 从短视频到无障碍服务

这一技术正催生全新内容形态:

短视频博主可一键切换「元气少女」「毒舌导师」等人设声音;

有声书创作者单人完成多角色情感对白;

四川话搞笑视频经 AI 重制，秒变美式脱口秀风格出海;

听障用户的语音合成系统首次具备「情感温度」，不再冰冷机械。

AIbase 认为，Step-Audio-EditX 的意义远超工具升级——它正在重构音频内容的生产逻辑。当语音不再是「录制即定型」的线性媒介，而成为可反复雕琢的「活文本」，亿万创作者将获得前所未有的表达自由。下一步，若阶跃星辰开放 API 或集成至手机系统，这把「AI 魔法剪刀手」或将真正进入每个人的口袋，让每一次发声，都可被重新想象。

产品入口:https://stepaudiollm.github.io/step-audio-editx/

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

语音编辑像改 Word？阶跃星辰发布 30 亿参数音频编辑模型 Step-Audio-EditX

一句话生成专业 PPT！开源神器 Presentation-AI 免费上线，本地运行、碾压 Gamma.app

Step-Audio-EditX 发布:30 亿参数音频 LLM 打开语音「可编辑时代」

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

一句话生成专业 PPT！开源神器 Presentation-AI 免费上线，本地运行、碾压 Gamma.app

Step-Audio-EditX 发布:30 亿参数音频 LLM 打开语音 「可编辑时代」

IDC 发布全球 ICT 市场预测:AI 算力驱动未来五年 7.6 万亿美元市场

中国企业大模型调用量突破 10 万亿 Tokens，开源趋势引领未来

即梦 AI 正式上线火山引擎 面向企业开放 API 服务

OpenAI 放开 ChatGPT Projects 功能，可以免费用

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

Step-Audio-EditX 发布:30 亿参数音频 LLM 打开语音「可编辑时代」

即梦 AI 正式上线火山引擎面向企业开放 API 服务