小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

AI 资讯
25 年 8 月 8 日
编辑

小强

小红书 HiLab 近日发布并开源了其首个自研多模态大模型dots.vlm1。该模型基于 12 亿参数的 NaViT 视觉编码器和 DeepSeekV3 大语言模型，从零开始完全训练，其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型，如 Gemini2.5Pro 和 Seed-VL1.5，标志着开源多模态模型的性能达到了新的高度。

自研创新，性能领跑

dots.vlm1 的核心亮点在于其原生自研的 NaViT 视觉编码器。与传统基于成熟模型微调的方式不同，NaViT 从零训练，并支持动态分辨率，能够更好地适应多样化的真实图像场景。该模型还通过结合纯视觉与文本视觉的双重监督，极大提升了其泛化能力，尤其是在处理表格、图表、公式、文档等非典型结构化图片时表现出色。

在数据方面，HiLab 团队构建了规模庞大且清洗精细的训练集。他们通过自主重写网页数据和自研 dots.ocr 工具处理 PDF 文档，显著提升了图文对齐的质量，为模型的跨模态理解能力打下了坚实基础。

评测表现，媲美顶尖闭源模型

在主流国际多模态评测集上，dots.vlm1 的综合表现令人瞩目。它在 MMMU、MathVision 和 OCRReasoning 等多项基准测试中，达到了与 Gemini2.5Pro 和 Seed-VL1.5 相当的水平。在复杂的图表推理、STEM 数学推理以及长尾细分场景识别等应用中，dots.vlm1 展现出卓越的逻辑推理和分析能力，完全胜任奥数等高难度任务。

尽管在文本推理的极复杂任务上与 SOTA 闭源模型仍有差距，但其通用数学推理和代码能力已与主流大语言模型持平。

HiLab 团队表示，未来将继续优化模型。他们计划扩大跨模态数据规模，并引入强化学习等前沿算法，进一步提升推理泛化能力。通过开源 dots.vlm1，小红书致力于为多模态大模型生态系统带来新的动力，推动行业发展。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

自研创新，性能领跑

评测表现，媲美顶尖闭源模型

微软大漏勺！GPT-5 信息提前泄露将推出四种变体

重磅!OpenAI 旗舰模型 GPT-5 详细信息疑似在 GitHub 上提前泄露

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

自研创新，性能领跑

评测表现，媲美顶尖闭源模型

相关文章：

微软大漏勺！GPT-5 信息提前泄露 将推出四种变体

重磅!OpenAI 旗舰模型 GPT-5 详细信息疑似在 GitHub 上提前泄露

李开复预测：中国大模型未来或只剩三大巨头

英伟达发布 Llama Nemotron Nano VL AI：登顶 OCRBench，高精度文档处理解决方案

英国电影协会警告：AI 技术对影视行业构成直接威胁

豆包 App「一句话 P 图」 功能全新升级 基于 SeedEdit 3.0 实现全面优化

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

微软大漏勺！GPT-5 信息提前泄露将推出四种变体

豆包 App「一句话 P 图」功能全新升级基于 SeedEdit 3.0 实现全面优化