Google Gemma 4引入多令牌预测,设备端AI推理速度最高提升3倍
#世界AI快讯 时间2026-05-09 15:45:25

Google Gemma 4模型引入多令牌预测技术和推测性解码机制,使本地设备和边缘设备上的AI推理速度最高提升约3倍。这项技术有助于让更强大的AI模型在手机、笔记本和消费级硬件上运行得更快。
传统大语言模型通常逐个生成token,因此响应速度容易受到硬件性能限制。多令牌预测则可以提前生成多个可能的后续token,并由主模型快速验证,从而减少等待时间,提高输出效率。
这一突破意味着AI应用将进一步从云端走向本地设备。对于重视隐私保护、低延迟交互和离线使用的场景来说,本地AI模型的实用性将显著增强,也为移动端AI助手、个人知识库、教育工具和设备端智能应用打开更大空间。
评论
0 条登录后才可以发表评论。
立即登录