Google Gemma 4引入多令牌预测，设备端AI推理速度最高提升3倍_照护行业动态

AI照护资讯

首页 AI照护资讯照护行业动态

#照护行业动态时间2026-05-09 15:45:25

Google Gemma 4模型引入多令牌预测技术和推测性解码机制，使本地设备和边缘设备上的AI推理速度最高提升约3倍。这项技术有助于让更强大的AI模型在手机、笔记本和消费级硬件上运行得更快。

传统大语言模型通常逐个生成token，因此响应速度容易受到硬件性能限制。多令牌预测则可以提前生成多个可能的后续token，并由主模型快速验证，从而减少等待时间，提高输出效率。

这一突破意味着AI应用将进一步从云端走向本地设备。对于重视隐私保护、低延迟交互和离线使用的场景来说，本地AI模型的实用性将显著增强，也为移动端AI助手、个人知识库、教育工具和设备端智能应用打开更大空间。