JetBrains 开源 120 亿参数 Mellum2 模型
cnBeta.COM.TW RSS订阅ugmbbc2小时前
JetBrains 近日宣布,将其面向软件工程系统的新一代机器学习模型 Mellum2 正式开源。这距离公司在 2025 年开源首个 Mellum 模型仅过去一年多时间,当时的 Mellum 是一款专注代码补全的小型模型,参数规模约为 40 亿。与之相比,Mellum2 的总参数量扩大到 120 亿,但 JetBrains 强调,通过采用稀疏专家混合(Mixture-of-Experts,MoE)架构,每个 token 实际参与计算的仅为约 25 亿活跃参数,从而在标准硬件上依然能够保持较快推理速度。 阅读全文