近日,AIbase 从社交媒体平台获取
ShisaV2405B: 日本
据 AIbase 了解,Shisa.AI
测试数据显示,ShisaV2405B 在多项日语基准测试中超越了 GPT-4 及 GPT-4Turbo,甚至与
专注日语优化,微调技术再升级
Shisa.AI 是一家总部位于东京的初创公司,专注于为日本市场开发和部署先进的开源 AI 语言和语音模型。AIbase 了解到,与早期模型相比,ShisaV2 系列放弃了昂贵的持续预训练和分词器扩展,聚焦于优化后训练流程,通过合成数据驱动的方法显著提升了模型性能。
其核心数据集 ultra-orca-boros-en-ja-v1 经过过滤、再生和重采样,被认为是目前
广泛适用的模型家族,覆盖 7B 至 405B
ShisaV2 系列涵盖了从 7B 到 405B 参数的不同规模模型,满足从轻量级设备到高性能计算的多样化需求。AIbase 获悉,这些模型在日语语法、角色扮演、翻译等任务上表现出色,特别是在 shisa-jp-ifeval(日语指令遵循测试)、shisa-jp-rp-bench(日语角色扮演基准) 和 shisa-jp-tl-bench(日英翻译基准) 等测试中,均优于各自的基础模型。
值得一提的是,ShisaV2405B 在训练中融入了少量韩语和繁体中文数据,进一步增强了其多语言能力,为跨语言应用场景提供了更多可能性。
开源精神推动全球 AI 创新
Shisa.AI 的努力不仅提升了日语 AI 的性能,还通过开源方式推动了全球 AI 社区的发展。AIbase 注意到,ShisaV2 系列的训练日志已在 WeightsandBiases 平台公开,训练过程使用了 AWSSagemaker 的 4 节点 H100 集群,结合 Axolotl、DeepSpeed 和 LigerKernel 等先进技术,确保了高效的模型开发。
此外,Shisa.AI 计划开源其日语专用基准测试工具,助力日语大型语言模型的研究和评估,为全球开发者提供更多支持。
未来展望: 日本 AI 的全球竞争力
Shisa.AI 的成功表明,即便是小型 AI 实验室,也能在全球 AI 竞赛中占据一席之地。其开源模型和数据集的发布,为日语 AI 应用的普及提供了强有力的支持。AIbase 认为,随着 Shisa.AI 不断更新其模型和资源,日本在全球 AI 领域的地位将进一步巩固。
对于有复杂日语任务需求的开发者,ShisaV2 系列无疑是一个值得尝试的强大工具。AIbase 建议关注 Shisa.AI 官方网站和 HuggingFace 页面,获取更多技术细节和模型体验机会。
Shisa.AI 通过其 ShisaV2 系列模型,展示了日本在 AI 领域的创新实力。无论是学术研究还是商业应用,这些开源模型都为日语 AI 的未来发展铺平了道路。