Thinking Machines 想打造能“边听边说”的AI：让对话真正像打电话一样自然_AI热点与创业

AI新闻中心

首页 AI新闻中心 AI热点与创业

Thinking Machines 想打造能“边听边说”的AI：让对话真正像打电话一样自然

#AI热点与创业时间2026-05-13 11:24:00

当前主流的AI对话系统，本质上仍然是“轮流说话”的模式——用户说完一句话，AI再思考并回复。这种“半双工”式的交互，虽然在很多场景下已经足够实用，但距离真正自然的人类对话还有明显差距。人类在交谈时，往往是边听边想、边回应，甚至会打断对方、调整语气、实时修正理解。

由前OpenAI首席技术官Mira Murati于去年创立的AI初创公司 Thinking Machines Lab，正试图打破这一限制。他们正在研发一种全新的“交互模型”（interaction models），目标是让AI能够在处理用户输入的同时，同步生成响应，实现真正的全双工（full-duplex）对话体验。

简单来说，这就像打电话一样：双方可以同时说话、同时倾听，而不是严格的“一问一答”。这种模式能让对话更加流畅、自然，也更接近人类真实的交流方式。

技术突破：0.4秒响应延迟，超越主流模型

Thinking Machines Lab 开发的全双工模型 TML-Interaction-Small，在响应速度上取得了显著进展。根据公司公布的基准测试，该模型的响应延迟仅为 0.40秒，已经达到自然人类对话的水平，并且在速度上优于OpenAI和Google的同类模型。

这种低延迟能力对于实现“边听边说”至关重要。只有当AI能够快速处理语音输入并几乎实时生成回复时，用户才会感觉对话是连贯的，而不是卡顿的“机器人式”交流。

目前，该模型仍处于研究预览阶段。公司计划在未来几个月内推出有限的研究预览版本，并在2026年晚些时候进行更广泛的发布。虽然基准测试结果令人印象深刻，但实际在真实世界场景中的表现，仍有待大规模用户验证。

为什么“边听边说”如此重要？

现有的AI对话系统大多采用半双工模式，这在很多应用场景中已经够用，但在需要高度自然交互的领域存在明显局限。例如：

· 客户服务：用户可能在说话过程中补充信息或改变需求，AI如果只能等用户说完再回复，容易造成信息滞后和体验割裂。

· 教育与培训：实时互动、打断追问、即时反馈是有效学习的关键。

· 个人助理与陪伴：自然、流畅的对话能显著提升用户粘性和信任感。

· 多模态交互：结合语音、视觉和上下文的复杂场景，更需要AI具备同时处理输入和输出的能力。

Thinking Machines 的目标，正是让AI从“工具”向“对话伙伴”进化，让交互不再受限于技术瓶颈，而是更接近人类本能的沟通方式。

从“AI心理治疗师”到交互模型

Thinking Machines Lab 的灵感，最初来源于创始人之一在日常散步时构建的一个AI心理治疗师产品。虽然该产品本身用户接受度有限，但团队发现，底层支撑低延迟语音交互的技术架构，却引起了众多初创公司的兴趣。这促使他们将方向转向语音交互基础设施，并最终发展出今天的交互模型研究。

这一路径也反映了当前AI行业的一个趋势：从追求通用大模型能力，逐步转向垂直场景的深度优化，尤其是对交互体验的极致打磨。

挑战与未来展望

实现真正可靠的全双工AI对话，面临诸多技术挑战：

· 上下文理解与打断处理：AI如何判断何时该打断、何时该继续倾听？

· 多说话者场景：在多人对话中如何准确区分不同声音？

· 一致性与幻觉控制：在高速生成响应的同时，如何保持回答的准确性和连贯性？

· 计算资源与延迟平衡：低延迟往往需要更强的实时推理能力，对基础设施提出更高要求。

Thinking Machines Lab 的研究，为行业提供了一个新的方向。如果他们能够成功“驯服”这种同时听与说的交互范式，将对语音AI、客服系统、智能硬件、元宇宙交互等领域产生深远影响。

目前，该公司仍处于早期阶段，但凭借创始团队在OpenAI的深厚背景，以及对交互本质的深刻洞察，他们的研究值得持续关注。

真正自然的AI对话，或许不再遥远。

AI新闻中心