Step-Audio-EditX 发布:30 亿参数音频 LLM 打开语音 「可编辑时代」

在文本生成与已被彻底重塑的时代,语音编辑仍是最难以 「像写文本那样」 直观操作的领域。而近日,StepFunAI 发布的全新Step-Audio-EditX 正在改变这一现状。该模型基于 30 亿参数的音频语言模型 (AudioLLM)首次将语音编辑转化为类似文本标记级别的可控操作,而非传统的波形信号处理任务。

根据团队在最新论文 :2511.03601 中介绍,Step-Audio-EditX 的目标是让开发者能够 「像改一句文本那样,直接编辑语音的情感、语调、风格甚至呼吸声」。

从 「模仿声音」 到 「精准控制」

目前多数零样本 TTS 系统仅能从短参考音频中复制情感、口音和音色,听起来自然却缺乏控制力。文本中的风格提示往往被忽略,尤其在跨语言、跨风格任务中效果不稳定。

Step-Audio-EditX 选择了完全不同的路径——不再依赖复杂的解耦编码器结构,而是通过改变数据结构与训练目标实现可控性。模型通过大量文本相同、属性差异显著的语音对和语音三元组进行学习,从而掌握如何在文本不变的前提下调整情感、风格与副语言信号。

双码本分词与 3B 音频 架构

Step-Audio-EditX 延续了 Step-Audio 的双码本分词器 (DualCodebookTokenizer):

  • 语言流: 采样率 16.7Hz,包含 1024 个标记;

  • 语义流: 采样率 25Hz,包含 4096 个标记;

  • 两者以 2:3 比例交错排列,保留语音中的韵律与情感特征。

在此基础上,研究团队构建了一个 30 亿参数的紧凑型音频 LLM。模型使用文本 LLM 初始化,并在混合语料库上训练 (文本与音频标记比例 1:1)。它能读取文本或音频标记,并始终输出双码本标记序列。

音频重建由独立解码器完成:流匹配模块预测梅尔频谱图,BigVGANv2 声码器将其转为波形。整个模块在 20 万小时高质量语音上训练,显著提升了音色与韵律的自然度。

大间隔学习与合成数据策略

Step-Audio-EditX 的关键创新是 「大间隔学习」(LargeMarginLearning)。模型在保持文本不变的前提下,通过三元组和四元组样本训练,学习在 「差异明显」 的语音属性间转换。

团队使用了覆盖中、英、粤语和四川话的 6 万名说话人数据集,并构建了合成三元组以强化情感与风格控制。每组样本由人工配音演员录制 10 秒片段,StepTTS 系统生成中性与情感版本,再由人工与模型双重评分筛选质量最高的样本。

副语言 (如笑声、呼吸、填充停顿) 编辑基于 NVSpeech 数据集,通过克隆和标注去除实现时域监督,无需额外边距模型。

SFT+PPO: 让模型学会听懂指令

训练分为两个阶段:

  1. 监督微调 (SFT): 模型在统一的聊天格式中同时学习 TTS 和编辑任务;

  2. 强化学习 (PPO): 通过奖励模型优化对自然语言指令的响应。

奖励模型基于 SFT 检查点初始化,使用 Bradley-Terry 损失在大间隔偏好对上训练,直接在标记级别计算奖励,无需解码波形。PPO 再结合 KL 惩罚项平衡音质与偏差。

Step-Audio-Edit-Test: 评测标准

为量化控制能力,团队提出了 Step-Audio-Edit-Test 基准,采用 Gemini2.5Pro 作为评审模型,从情感、风格、副语言三维度评估。

结果显示:

  • 中文情感准确率从 57.0% 提升至 77.7%;

  • 风格准确率从 41.6% 提升至 69.2%;

  • 英文结果表现类似。

副语言编辑平均得分也从 1.91 升至 2.89,已接近主流商业系统水平。更令人惊讶的是,Step-Audio-EditX 对闭源系统如 -4ominiTTS、ElevenLabsv2、种子 TTS2.0 等均能带来显著提升

Step-Audio-EditX 代表了可控语音合成的一次真正跃迁。它放弃传统的波形级信号操作,以离散标记为基础,结合大间隔学习与强化优化,使语音编辑的体验首次接近文本编辑的流畅度。

在技术与开放性上,StepFunAI 选择了全堆栈(包括模型权重与训练代码),极大地降低了语音编辑研究的门槛。这意味着未来开发者可以像修改文字一样,精准控制语音的情绪、语气与副语言特征

项目地址:https://stepaudiollm.github.io/step-audio-editx/

论文:https://arxiv.org/pdf/2511.03601

GitHub:https://github.com/stepfun-ai/Step-Audio-EditX

在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

语音编辑像改 Word?阶跃星辰发布 30 亿参数音频编辑模型 Step-Audio-EditX

2025-11-11 1:23:01

AI 资讯

5000 万美元种子轮融资!斯坦福教授创立 Inception,用 「扩散式大模型」 挑战 GPT-5,代码生成速度超 1000 token/秒

2025-11-11 1:23:19

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索