桥水基金最新研究：前沿 AI 模型金融判断准确率未达 80% 可信门槛，GPT 和 Claude 仅有 50~70%

It之家1小时前

IT之家 7 月 3 日消息，桥水基金旗下 AIA Labs 联合 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 对包括 GPT、Claude 和 Gemini 在内的前沿大语言模型在基础金融信息筛选任务进行了测试，但结果表现不佳，而基于开源模型微调的自研模型在准确率和成本上均具有显著优势。研究团队从投资分析师的日常工作中提取了六项典型任务，包括判断一篇财经文章对高管层是否具有参考价值、判断央行文件是否预示未来利率变化方向等。报告指出，这些任务对专业投资者而言非常基础，但他们往往难以用语言清晰描述自己的判断逻辑。在前沿模型测试中，Gemini、Claude 和 GPT 各版本在使用基础提示词时平均准确率仅约 50%。即使经过专家撰写的详细提示词和三级分类体系（“相关且有趣”“相关但无趣”“不相关”）优化后，准确率提升至 70% 左右，仍未达到研究人员设定的 80% 可信部署门槛。报告还指出，模型迭代并未在该任务上带来显著进步，例如 GPT-5.4 比 GPT-5.2 价格高出 43%，但准确率仅略有提升。研究团队随后采用微调方案，以阿里开源模型 Qwen3-235B 为基座，通过 Thinking Machines Lab 的 Tinker 平台进行训练。训练数据集构建过程中，团队最初采购了非专业标注服务，但发现大量标签存在错误。由于专家标注成本高昂，团队设计了一套验证机制：先用有缺陷的标签训练模型，再让模型重新评估同一批数据，将模型判断与原始标签不一致的争议样本交由专家校正，以此在保证质量的同时控制成本。经过多轮训练优化 —— 包括交错批次训练、CISPO 损失函数与非对称裁剪、以及基于最佳验证准确率检查点的同策略蒸馏 —— 最终微调模型在测试中达到 84.7% 的准确率，优于测试中最佳前沿模型的 78.2%，错误率降低了 29.8%。同时，由于模型规模更小，推理成本仅为前沿模型的约十四分之一。报告指出，这一结果再次证明前沿模型并未囊括所有可用数据，大量专有企业数据和未编码的人类专业知识仍存在于大模型的知识盲区中，尤其是那些企业有意保持私密的数据。通过工具链微调开源模型，企业可以保留模型权重、数据乃至算力基础设施的控制权，避免将专有数据交给前沿实验室后成为其产品竞争的基础。桥水方面表示，该模型已投入日常使用，并认为这种针对特定组织需求定制的“差异化智能”将是未来方向。参考资料：《Learning to Replicate Expert Judgment in Financial Tasks - Thinking Machines Lab》

原文来源：https://www.ithome.com/0/972/445.htm