腾讯发布 Youtu-Embedding: 助力企业级智能服务

近日,优图实验室正式了一款名为 Youtu-Embedding 的文本表示模型,旨在提升企业级智能客服和知识库管理等领域的效率。该模型通过精确提取信息,避免了在特定领域中的误导性生成问题。这一问题常常出现在企业级应用中,尤其是当用户询问特定问题时,模型可能会根据通用语料生成不相关的答案。

Youtu-Embedding 能够有效应对模型在不同领域表现不佳的现象。模型在通用语料上训练良好,但在法律、医疗等专业领域的应用效果却可能大打折扣。腾讯针对这一痛点,从零开始训练该模型,利用了高达 3 万亿 Token 的中英文语料,为模型的语言理解能力奠定了坚实基础。此外,腾讯还提供了丰富的人工标注数据,确保模型在真实业务场景中的适用性。

为了让模型更好地理解用户的真实意图,腾讯引入了大规模弱监督训练。通过这种训练方式,Youtu-Embedding 能够识别不同表述但相似意图的句子,进而在语义空间中建立准确的映射关系。比如,用户询问 「这款产品保修多久?」 和 「坏了可以免费修吗?」 两个问题,虽然表达方式不同,但都在问保修政策。

在多任务训练方面,腾讯设计了一套创新的微调框架,确保模型能够适应不同的任务需求。模型采用统一的数据格式和差异化的损失函数,能够有效提升文本相似度、检索和分类等任务的能力。同时,动态采样机制让模型在训练过程中合理分配精力,从而在各类任务中均衡发展。

Youtu-Embedding 已经在中文语义评测基准 CMTEB 上取得了 77.46 的高分,成为表现最优秀的中文语义模型之一。这款模型适用于多种应用场景,包括智能问答、内容推荐和知识管理等,特别是在构建检索增强生成系统 (RAG) 中显示出极大的潜力。

腾讯优图实验室持续致力于开源技术的发展,除了 Youtu-Embedding 之外,还推出了 Youtu-Agent 和 Youtu-GraphRAG 等项目,为开发者提供了更多的工具和资源,以促进 的快速发展。

项目:https://github.com/TencentCloudADP/youtu-embedding

划重点:

🌟Youtu-Embedding 是腾讯开源的文本表示模型,旨在提高企业智能客服和知识库管理的效率。

🔍该模型通过大规模弱监督训练和多任务协同进化,增强了对用户意图的理解。

📈在中文语义评测基准 CMTEB 上,Youtu-Embedding 获得了 77.46 的高分,显示出其强大的性能和应用潜力。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

谷歌在美国投资 90 亿美元,推动人工智能未来

2025-10-15 1:21:22

AI 资讯

农业智能化新突破! 中国农业大学发布神农大模型 3.0

2025-10-15 1:21:38

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索