专注于金融市场研究的人工智能实验室 nof1 宣布启动大型模型交易实测项目 AlphaArena,以检验不同主流大模型在真实金融环境中的交易决策与风险控制能力。此次测试在去中心化交易平台 Hyperliquid 上进行,所有模型均以相同提示与统一数据输入运行,每个模型获得 1 万美元真实资金进行独立交易。
参与测试的共有六款领先 AI 模型,分别为 GPT-5、Gemini2.5Pro、Grok-4、ClaudeSonet4.5、DeepSeekV3.1 与 Qwen3Max。在测试周期结束时,结果显示表现最为突出的是 DeepSeekV3.1 与 Grok-4,两者收益率均超过 14%,并列第二名; 而 Gemini2.5Pro 的表现不佳,出现高达 4257% 的亏损,成为本轮测试中最意外的结果。
nof1 表示,AlphaArena 的目标并非单纯比较模型优劣,而是验证不同架构在高波动市场中的策略稳定性与风险响应机制,为未来基于 AI 的自主量化交易提供技术与方法论参考。这项实验的推出,也反映出大模型正从文本理解与推理任务,快速向真实金融决策与资产管理场景拓展。









