TEN Agent 开源 TEN VAD 与 Turn Detection,助力语音 AI 超低延迟

TENAgent 团队近日宣布,其核心模型**TENVoiceActivityDetection(VAD)**和**TENTurnDetection**正式,为构建实时、多模态的语音 提供了强大的技术支持。

这一举措标志着 TEN 框架在推动语音交互技术民主化与开源协作方面的重大进展。以下是 整理的最新资讯,深入解析这两大核心模型的功能、优势及对行业的潜在影响。

TENVAD: 低延迟高性能的语音活动检测

TENVAD 是一款专为企业级应用设计的实时语音活动检测器,以低延迟、轻量化和高性能著称。根据官方信息及社交媒体反馈,TENVAD 能够精确到帧级别检测语音活动,显著优于业界常用的 WebRTCVAD 和 SileroVAD。以下是其核心亮点:

-**低计算复杂度**:TENVAD 的库体积小,计算复杂度低,支持跨平台 C 语言兼容,覆盖 Linuxx64、Windows、macOS、Android 和 iOS 等多种操作系统,同时提供针对 Linuxx64 的 Python 绑定和 Web 端的 WASM 支持。[](https://huggingface.co/TEN-framework/ten-vad)

-**高精度与低延迟**: 相比 SileroVAD,TENVAD 在语音到非语音的转换检测中延迟更低,能快速识别短暂停顿,适合实时交互场景。测试显示,其实时因子 (RTF) 在多种 CPU 平台上表现优异。[](https://huggingface.co/TEN-framework/ten-vad)

-**最新开源进展**: 年 6 月,TEN 团队开源了 ONNX 模型及预处理代码,支持在任何支持 ONNX 的平台和硬件架构上部署,进一步增强了灵活性。此外,WASM+JS 的支持扩展了其在 Web 端的应用可能性。

社交媒体上,开发者对 TENVAD 的开源表示高度认可,认为其性能超越传统 VAD 模型,为实时语音助手开发提供了强有力的工具。

TENTurnDetection: 智能对话轮次管理

**TENTurnDetection**是一款专为全双工语音通信设计的智能轮次检测模型,旨在解决人机对话中最具挑战性的问题之一: 准确判断用户何时结束发言并进行上下文感知的中断处理。以下是其关键特性:

-**语义分析能力**: 基于 Qwen2.5-7B 的 Transformer 模型,TENTurnDetection 通过分析对话的语义上下文和语言模式,精准区分用户发言的 「完成」、「等待」 和 「未完成」 状态。例如,它能识别 「嘿,我想问个问题……」 为未完成发言,从而避免不必要的 AI 打断。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)

-**多语言支持**: 目前支持英语和中文,能够准确识别多语言对话中的轮次信号,适用于全球化应用场景。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)

-**优异性能**: 在公开测试数据集上,TENTurnDetection 在各项指标上均超越其他开源轮次检测模型,尤其在动态实时对话中表现出色。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)

-**自然交互体验**: 结合 TENVAD,TENTurnDetection 使 AI 代理能够像人类一样等待合适的发言时机,或在适当的语境下处理用户中断,从而打造更自然的对话体验。[](https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/)

TENAgent 生态: 多模态实时 的基石

TENAgent 是 TEN 框架的展示项目,整合了 TENVAD、TENTurnDetection 等核心组件,支持语音、视频、文本等多模态实时交互。以下是其在生态中的作用:

-**无缝集成**:TENVAD 与 TENTurnDetection 作为 TEN 框架的插件,开发者可通过简单配置将其融入语音代理开发流程,支持与 Deepgram、 等服务的集成。

-**多场景应用**:TENAgent 支持从智能客服、实时翻译到虚拟伴侣等多种用例。例如,结合 GoogleGemini 多模态 API,TENAgent 可实现实时视觉和屏幕共享检测,扩展了其在教育、医疗等领域的应用。

-**开源协作**:TEN 框架的全部组件 (除 TENVAD 部分代码外) 均已完全开源,鼓励社区开发者贡献代码、修复 Bug 或提出新功能。TEN 团队通过 GitHubIssues 和 Projects 提供协作渠道,吸引了广泛的开发者参与

项目:https://github.com/TEN-framework/ten-framework

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Chai-2 震撼发布:AI 驱动零样本抗体设计,药物研发提速百倍

2025-7-2 1:21:39

AI 资讯

Qwen-TTS 重磅发布:方言语音合成新突破,真实感媲美真人

2025-7-2 1:21:56

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索