Meta 生成 AI 副总裁否认了公司为提高新模型 Llama 4 在特定基准测试中的表现而进行调整的传言,称其 「根本不属实」。他明确指出,公司并未在测试集上训练模型以抬高分数。
该传言源自社交媒体,声称 Meta 人为提高了 Llama 4 Maverick 和 Scout 模型的基准测试结果。有报告称这些模型在某些任务上表现不佳,以及 Meta 使用未发布版本在 LM Arena 获得高分,助长了此猜测。
Meta 高管承认,不同云服务商托管的模型质量存在差异,表示模型刚发布,需要几天时间进行调整。公司将继续修复错误并与合作伙伴协作。

