谷歌更新安卓开发最佳 AI 模型榜单：Gemini 3.5 Flash 成本最贵，约为 DeepSeek V4 Flash 的 17.5 倍

It之家1小时前

IT之家 6 月 16 日消息，谷歌昨日（6 月 15 日）更新其 Android Bench 榜单，自家 Gemini 3.5 Flash 模型成绩明显低于外界预期。IT之家注：Android Bench 是谷歌官方推出的安卓开发任务基准测试，用来评估不同 AI 模型在代码编写、问题解决与开发辅助方面的实际能力。该测试更贴近真实开发场景，专门衡量 AI 模型完成安卓开发任务的能力，因此对开发者选择模型有较强参考价值。根据谷歌官方更新的 Android Bench 榜单，OpenAI 的 GPT-5.5 模型以 74 得分位居榜首，GPT-5.4 模型以 72.4 得分位居第二。谷歌自家的 Gemini 3.1 Pro Preview 以 72.4 得分位居第三；而 Claude Opus 4.7（68.7 分）和 Opus 4.6（66.6 分）位居第四和第五。其中让 Android Authority 等媒体感到惊讶的是，谷歌 Gemini 3.5 Flash 只拿到 63.7 分，最终排在第 6，未进入前 5。在平均 Token 消耗量（每次基准测试包括 100 个任务，执行 10 次计算平均消耗）方面，谷歌 Gemini 3.5 Flash 平均消耗 3.559 亿 Tokens，折合单次运行平均成本 147.1 美元（现汇率约合 996.1 元人民币），成为整个榜单里最贵的模型。谷歌在 I/O 2026 上发布 Gemini 3.5 Flash 时，称其是迄今最强的 Flash 模型，并强调编码能力更稳健，也更适合 AI 智能体与复杂工作流。谷歌还表示，这款模型在部分内部基准测试中优于 Gemini 3.1 Pro，输出速度最高可达竞争性前沿模型的 4 倍。但 Android Bench 给出的结论并不一致，至少在真实的安卓开发任务场景里，Gemini 3.5 Flash 没有体现出应有优势。Gemini 3.1 Pro Preview 不仅分数更高，成本也大约只有 Gemini 3.5 Flash 的 1／3，这让开发者很难忽视它在性价比上的落差。此外基于页面信息，智谱的 GLM 5.1 以 59.7 分位居第七；而 Kimi K2.6 以 58.6 分位居第八，DeepSeek V4 Pro 以 55.4 分位居第十；而 DeepSeek V4 Flash 以 52.7 分位居第 12 位，折合单次运行平均成本只需要 8.4 美元（现汇率约合 56.9 元人民币）。Gemini 3.5 Flash 单次运行平均成本是 Deepseek V4 Flash 的 17.5 倍。相关阅读：《谷歌发布 Gemini 3.5 Flash 模型：AI 输出速度 4 倍于 GPT-5.5》

原文来源：https://www.ithome.com/0/964/750.htm