谷歌更新安卓开发最佳 AI 模型榜单:Gemini 3.5 Flash 成本最贵,约为 DeepSeek V4 Flash 的 17.5 倍
It之家1小时前

IT之家 6 月 16 日消息,谷歌昨日(6 月 15 日)更新其 Android Bench 榜单,自家 Gemini 3.5 Flash 模型成绩明显低于外界预期。IT之家注:Android Bench 是谷歌官方推出的安卓开发任务基准测试,用来评估不同 AI 模型在代码编写、问题解决与开发辅助方面的实际能力。该测试更贴近真实开发场景,专门衡量 AI 模型完成安卓开发任务的能力,因此对开发者选择模型有较强参考价值。根据谷歌官方更新的 Android Bench 榜单,OpenAI 的 GPT-5.5 模型以 74 得分位居榜首,GPT-5.4 模型以 72.4 得分位居第二。谷歌自家的 Gemini 3.1 Pro Preview 以 72.4 得分位居第三;而 Claude Opus 4.7(68.7 分)和 Opus 4.6(66.6 分)位居第四和第五。其中让 Android Authority 等媒体感到惊讶的是,谷歌 Gemini 3.5 Flash 只拿到 63.7 分,最终排在第 6,未进入前 5。在平均 Token 消耗量(每次基准测试包括 100 个任务,执行 10 次计算平均消耗)方面,谷歌 Gemini 3.5 Flash 平均消耗 3.559 亿 Tokens,折合单次运行平均成本 147.1 美元(现汇率约合 996.1 元人民币),成为整个榜单里最贵的模型。谷歌在 I/O 2026 上发布 Gemini 3.5 Flash 时,称其是迄今最强的 Flash 模型,并强调编码能力更稳健,也更适合 AI 智能体与复杂工作流。谷歌还表示,这款模型在部分内部基准测试中优于 Gemini 3.1 Pro,输出速度最高可达竞争性前沿模型的 4 倍。但 Android Bench 给出的结论并不一致,至少在真实的安卓开发任务场景里,Gemini 3.5 Flash 没有体现出应有优势。Gemini 3.1 Pro Preview 不仅分数更高,成本也大约只有 Gemini 3.5 Flash 的 1/3,这让开发者很难忽视它在性价比上的落差。此外基于页面信息,智谱的 GLM 5.1 以 59.7 分位居第七;而 Kimi K2.6 以 58.6 分位居第八,DeepSeek V4 Pro 以 55.4 分位居第十;而 DeepSeek V4 Flash 以 52.7 分位居第 12 位,折合单次运行平均成本只需要 8.4 美元(现汇率约合 56.9 元人民币)。Gemini 3.5 Flash 单次运行平均成本是 Deepseek V4 Flash 的 17.5 倍。相关阅读:《谷歌发布 Gemini 3.5 Flash 模型:AI 输出速度 4 倍于 GPT-5.5》