AI 计算内存消耗巨大,英伟达支持的初创公司给出新解法
#AI热点与创业 时间2026-05-06 13:59:11

随着人工智能模型规模持续扩大,计算过程中的内存占用问题日益突出。一家获得英伟达支持的初创公司 RadixArk 正在通过软件优化来缓解这一痛点,其核心产品已吸引多家顶级投资机构关注。
SGLang:AI 推理的“中间层”优化引擎
RadixArk 开发了一款名为 SGLang 的开源软件引擎,作为 AI 模型与底层硬件之间的中间层,能够让模型在处理查询时更高效地利用短期内存,从而显著降低整体算力需求和运行成本。
该引擎最初诞生于非营利组织 Large Model Systems Organization(LMSYS Org),该组织还孵化了 Chatbot Arena 等项目,后来 SGLang 被拆分并独立发展为 RadixArk 公司。公司 CEO Ying Sheng 此前曾在 xAI 工作,后离开创立该初创公司。
SGLang 的核心创新在于对 KV cache(键值缓存)的管理。当前 AI 模型在推理过程中会使用 KV cache 来存储已计算的内容,避免每次都从头重新计算。但这种缓存机制会大幅增加内存占用。
RadixArk 的方案是将对话片段组织成一种类似文件系统的结构——Radix tree(基数树)。当新查询到来时,系统会扫描提示词的开头部分,检查是否与已处理过的内容匹配。如果匹配成功,则直接复用之前的计算结果,跳过重复步骤,从而大幅提升推理速度并降低成本。
公司联合创始人兼技术负责人 Banghua Zhu 表示:“很多推理工作都与如何管理这些 KV cache 有关。如果你把它们保存下来,下次生成下一个 token 时就可以直接复用。”
联合创始人将这种做法比作餐厅厨房的备菜流程:提前将蔬菜切好、酱料调好,这些“预处理食材”可以快速用于制作多种不同菜品。
融资与未来规划
RadixArk 已完成种子轮融资,融资金额达 1 亿美元,投后估值 4 亿美元。投资方包括 Accel、Spark Capital、英伟达的 NVentures 以及博通 CEO Hock Tan 等。
Accel 合伙人 Ivan Zhou 在谈到投资理由时表示:“目前唯一能做的就是让芯片更高效。如果你只能生产 10 个芯片,但需求是 100 个,那么唯一的办法就是让每个芯片的运行效率相当于能处理 10 个芯片的需求,而这正是 RadixArk 正在做的事情。”
公司目前主要聚焦 AI 推理(inference)优化,但已明确表示将向模型训练领域扩展。今年 11 月,RadixArk 发布了名为 Miles 的强化学习框架。
CEO Ying Sheng 表示:“我们希望成为既能生产最佳模型、又能托管最佳模型的‘工厂’。推理只是窗口,而窗口背后包括训练在内的所有环节。”
在当前 AI 算力供不应求的背景下,RadixArk 通过软件层面的创新,为缓解内存瓶颈提供了一种不同于单纯堆砌硬件的路径,也反映出行业对“软硬结合”优化方案的日益重视。
评论
0 条登录后才可以发表评论。
立即登录