Step-Audio-EditX 发布:30 亿参数音频 LLM 打开语音「可编辑时代」

在文本生成与图像生成已被大模型彻底重塑的时代，语音编辑仍是最难以「像写文本那样」直观操作的领域。而近日，StepFunAI 发布的全新开源项目Step-Audio-EditX 正在改变这一现状。该模型基于 30 亿参数的音频语言模型（AudioLLM），首次将语音编辑转化为类似文本标记级别的可控操作，而非传统的波形信号处理任务。

根据团队在最新论文 arXiv:2511.03601 中介绍，Step-Audio-EditX 的目标是让开发者能够「像改一句文本那样，直接编辑语音的情感、语调、风格甚至呼吸声」。

从「模仿声音」到「精准控制」

目前多数零样本 TTS 系统仅能从短参考音频中复制情感、口音和音色，听起来自然却缺乏控制力。文本中的风格提示往往被忽略，尤其在跨语言、跨风格任务中效果不稳定。

Step-Audio-EditX 选择了完全不同的路径——不再依赖复杂的解耦编码器结构，而是通过改变数据结构与训练目标实现可控性。模型通过大量文本相同、属性差异显著的语音对和语音三元组进行学习，从而掌握如何在文本不变的前提下调整情感、风格与副语言信号。

双码本分词与 3B 音频 LLM 架构

Step-Audio-EditX 延续了 Step-Audio 的双码本分词器（DualCodebookTokenizer）:

语言流: 采样率 16.7Hz，包含 1024 个标记;
语义流: 采样率 25Hz，包含 4096 个标记;
两者以 2:3 比例交错排列，保留语音中的韵律与情感特征。

在此基础上，研究团队构建了一个 30 亿参数的紧凑型音频 LLM。模型使用文本 LLM 初始化，并在混合语料库上训练（文本与音频标记比例 1:1）。它能读取文本或音频标记，并始终输出双码本标记序列。

音频重建由独立解码器完成:扩散变换器流匹配模块预测梅尔频谱图，BigVGANv2 声码器将其转为波形。整个模块在 20 万小时高质量语音上训练，显著提升了音色与韵律的自然度。

大间隔学习与合成数据策略

Step-Audio-EditX 的关键创新是「大间隔学习」（LargeMarginLearning）。模型在保持文本不变的前提下，通过三元组和四元组样本训练，学习在「差异明显」的语音属性间转换。

团队使用了覆盖中、英、粤语和四川话的 6 万名说话人数据集，并构建了合成三元组以强化情感与风格控制。每组样本由人工配音演员录制 10 秒片段，StepTTS 系统生成中性与情感版本，再由人工与模型双重评分筛选质量最高的样本。

副语言（如笑声、呼吸、填充停顿）编辑基于 NVSpeech 数据集，通过克隆和标注去除实现时域监督，无需额外边距模型。

SFT+PPO: 让模型学会听懂指令

训练分为两个阶段:

监督微调（SFT）: 模型在统一的聊天格式中同时学习 TTS 和编辑任务;
强化学习（PPO）: 通过奖励模型优化对自然语言指令的响应。

奖励模型基于 SFT 检查点初始化，使用 Bradley-Terry 损失在大间隔偏好对上训练，直接在标记级别计算奖励，无需解码波形。PPO 再结合 KL 惩罚项平衡音质与偏差。

Step-Audio-Edit-Test:AI 评测标准

为量化控制能力，团队提出了 Step-Audio-Edit-Test 基准，采用 Gemini2.5Pro 作为评审模型，从情感、风格、副语言三维度评估。

结果显示:

中文情感准确率从 57.0% 提升至 77.7%;
风格准确率从 41.6% 提升至 69.2%;
英文结果表现类似。

副语言编辑平均得分也从 1.91 升至 2.89，已接近主流商业系统水平。更令人惊讶的是，Step-Audio-EditX 对闭源系统如 GPT-4ominiTTS、ElevenLabsv2、豆包种子 TTS2.0 等均能带来显著提升。

Step-Audio-EditX 代表了可控语音合成的一次真正跃迁。它放弃传统的波形级信号操作，以离散标记为基础，结合大间隔学习与强化优化，使语音编辑的体验首次接近文本编辑的流畅度。

在技术与开放性上，StepFunAI 选择了全堆栈开源（包括模型权重与训练代码），极大地降低了语音编辑研究的门槛。这意味着未来开发者可以像修改文字一样，精准控制语音的情绪、语气与副语言特征。

项目地址:https://stepaudiollm.github.io/step-audio-editx/

论文:https://arxiv.org/pdf/2511.03601

GitHub:https://github.com/stepfun-ai/Step-Audio-EditX

在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

Step-Audio-EditX 发布:30 亿参数音频 LLM 打开语音「可编辑时代」

从「模仿声音」到「精准控制」

双码本分词与 3B 音频 LLM 架构

大间隔学习与合成数据策略

SFT+PPO: 让模型学会听懂指令

Step-Audio-Edit-Test:AI 评测标准

语音编辑像改 Word？阶跃星辰发布 30 亿参数音频编辑模型 Step-Audio-EditX

5000 万美元种子轮融资！斯坦福教授创立 Inception，用「扩散式大模型」挑战 GPT-5，代码生成速度超 1000 token/秒

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

从 「模仿声音」 到 「精准控制」

双码本分词与 3B 音频 LLM 架构

大间隔学习与合成数据策略

SFT+PPO: 让模型学会听懂指令

Step-Audio-Edit-Test:AI 评测标准

相关文章：

语音编辑像改 Word？阶跃星辰发布 30 亿参数音频编辑模型 Step-Audio-EditX

5000 万美元种子轮融资！斯坦福教授创立 Inception，用 「扩散式大模型」 挑战 GPT-5，代码生成速度超 1000 token/秒

编程新贵 Lovable 豪言 12 个月内 ARR 冲击 10 亿美元！月增长 800 万美元

DeepSeek 神秘新模型登陆 LmArena，"快乐机器人"命名引爆 AI 圈热议

通义 APP 推出知识库功能，助力用户高效管理个人与官方信息

快手可灵 2.1 首尾帧功能全新上线

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

从「模仿声音」到「精准控制」

5000 万美元种子轮融资！斯坦福教授创立 Inception，用「扩散式大模型」挑战 GPT-5，代码生成速度超 1000 token/秒