语音编辑像改 Word?阶跃星辰发布 30 亿参数音频编辑模型 Step-Audio-EditX

音频创作门槛被彻底击穿。国内 独角兽阶跃星辰 (StepStepFunAI) 于 11 月 9 日正式发布全球领先的 级音频编辑模型——Step-Audio-EditX,首次实现 「用自然语言指令编辑语音」 的革命性体验。用户只需输入 「把这段话改成川渝 rapper 的嚣张语气」 或 「结尾加一个害羞的笑声」,模型即可精准调整音色、情绪、节奏甚至呼吸停顿,让语音编辑如修改文档般直观、高效。

30 亿参数,性能不减反升

Step-Audio-EditX 的核心突破在于其极致高效的模型压缩技术。团队将原始 130 亿参数模型精炼至仅 30 亿,不仅大幅降低部署成本,更在关键指标上实现反超。模型支持零样本语音克隆——仅需一句参考音频,无需目标人物提供任何训练数据,即可高保真复现其音色; 同时支持多轮迭代编辑,用户可连续发出细化指令 (如 「再温柔一点」「笑声延长 0.3 秒」),逐步逼近理想效果。

方言与情感,拿捏得死死的

该模型对中文语境的理解尤为惊艳,流畅支持普通话、英语、四川话、粤语,方言表达中的地域情绪与语用习惯自然真实。在盲测中,评测员一致认为其 「川渝段子的市井感」「粤语语气词的细腻度」 远超同类产品。

硬刚闭源商用模型,三项指标全面领先

获取的对比数据显示,Step-Audio-EditX 在三大核心维度碾压 Minimax 与字节跳动 Doubao 等闭源方案:

自然度评分:4.72/5(Minimax4.51,Doubao4.38)

情感准确率:93.7%(领先第二名 6.2 个百分点)

音色保持度:98.1%,几乎无损还原

应用场景爆发: 从短视频到无障碍服务

这一技术正催生全新内容形态:

短视频博主可一键切换 「元气少女」「毒舌导师」 等人设声音;

有声书单人完成多角色情感对白;

四川话搞笑视频经 AI 重制,秒变美式脱口秀风格出海;

听障用户的语音合成系统首次具备 「情感温度」,不再冰冷机械。

AIbase 认为,Step-Audio-EditX 的意义远超工具升级——它正在重构音频内容的生产逻辑。当语音不再是 「录制即定型」 的线性媒介,而成为可反复雕琢的 「活文本」,亿万创作者将获得前所未有的表达自由。下一步,若阶跃星辰开放 API 或集成至手机系统,这把 「AI 魔法剪刀手」 或将真正进入每个人的口袋,让每一次发声,都可被重新想象。

产品入口:https://stepaudiollm.github.io/step-audio-editx/

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

一句话生成专业 PPT!开源神器 Presentation-AI 免费上线,本地运行、碾压 Gamma.app

2025-11-11 1:22:53

AI 资讯

Step-Audio-EditX 发布:30 亿参数音频 LLM 打开语音 「可编辑时代」

2025-11-11 1:23:10

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索