英伟达开源 TwoTower AI 模型:保留 98.7% 质量,Token 生成提速 2.42 倍
It之家2小时前

IT之家 7 月 3 日消息,英伟达昨日(7 月 2 日)发布博文,宣布推出 Nemotron-Labs-TwoTower,是一种基于预训练自回归骨干网络的离散扩散语言模型,致力于解决大模型 Token 生成速度瓶颈。在开源方面,该模型以开源权重形式在 Huggingface 平台发布,授权协议为 NVIDIA Nemotron Open Model License。参数方面,该模型总参数为 60B,采用双塔(TwoTower)架构,包括 30B 的自回归模型(AR)/context Tower 和 30B 的扩散 / 降噪 Tower,每个 Tower 激活 3B 模型,128 个可路由专家。架构方面,TwoTower 最大的亮点,在于拆分传统扩散语言模型中的网络任务,将文本生成任务中的上下文表示与去噪过程分离到两个独立的神经网络“塔”中。其中一个塔(上下文塔)保持冻结,专注于维护文本的自回归上下文;另一个塔(去噪器塔)经过训练,负责对噪声块进行去噪,两个塔通过逐层交叉注意力连接协作。性能方面,英伟达表示从综合基准测试质量来看,双塔架构保留 98.7% 的质量表现,但是实际运行时间吞吐量提高了 2.42 倍。IT之家附上相关测试结果如下:任务Nemotron-3-Nano-30B-A3B (AR)Nemotron-Labs-TwoTower (diffusion)MMLU (5-shot, acc)78.5678.24MMLU-Pro (5-shot, CoT EM)62.5960.93ARC-Challenge (25-shot, acc_norm)91.7292.66WinoGrande (5-shot, acc)76.0976.09RACE (0-shot, acc)88.9088.90HumanEval (0-shot)79.2775.58MBPP-Sanitized (3-shot)74.7174.28GSM8K (8-shot, acc)92.4990.14MATH-500 (4-shot)84.4080.60MMLU Global Lite (5-shot)73.9773.94MGSM (8-shot, avg acc)80.8080.40Quality retained100%98.7%Generation throughput (× AR)1.0×2.42×