简体中文
关闭
AI新闻中心

Thinking Machines 想打造能“边听边说”的AI:让对话真正像打电话一样自然

#AI热点与创业 时间2026-05-13 11:24:00

当前主流的AI对话系统,本质上仍然是轮流说话的模式——用户说完一句话,AI再思考并回复。这种半双工式的交互,虽然在很多场景下已经足够实用,但距离真正自然的人类对话还有明显差距。人类在交谈时,往往是边听边想、边回应,甚至会打断对方、调整语气、实时修正理解。

由前OpenAI首席技术官Mira Murati于去年创立的AI初创公司 Thinking Machines Lab,正试图打破这一限制。他们正在研发一种全新的交互模型interaction models),目标是让AI能够在处理用户输入的同时,同步生成响应,实现真正的全双工(full-duplex对话体验。

简单来说,这就像打电话一样:双方可以同时说话、同时倾听,而不是严格的一问一答。这种模式能让对话更加流畅、自然,也更接近人类真实的交流方式。


技术突破:0.4秒响应延迟,超越主流模型

Thinking Machines Lab 开发的全双工模型 TML-Interaction-Small,在响应速度上取得了显著进展。根据公司公布的基准测试,该模型的响应延迟仅为 0.40,已经达到自然人类对话的水平,并且在速度上优于OpenAIGoogle的同类模型。

这种低延迟能力对于实现边听边说至关重要。只有当AI能够快速处理语音输入并几乎实时生成回复时,用户才会感觉对话是连贯的,而不是卡顿的机器人式交流。

目前,该模型仍处于研究预览阶段。公司计划在未来几个月内推出有限的研究预览版本,并在2026年晚些时候进行更广泛的发布。虽然基准测试结果令人印象深刻,但实际在真实世界场景中的表现,仍有待大规模用户验证。

为什么“边听边说”如此重要?

现有的AI对话系统大多采用半双工模式,这在很多应用场景中已经够用,但在需要高度自然交互的领域存在明显局限。例如:

· 客户服务:用户可能在说话过程中补充信息或改变需求,AI如果只能等用户说完再回复,容易造成信息滞后和体验割裂。

· 教育与培训:实时互动、打断追问、即时反馈是有效学习的关键。

· 个人助理与陪伴:自然、流畅的对话能显著提升用户粘性和信任感。

· 多模态交互:结合语音、视觉和上下文的复杂场景,更需要AI具备同时处理输入和输出的能力。

Thinking Machines 的目标,正是让AI工具对话伙伴进化,让交互不再受限于技术瓶颈,而是更接近人类本能的沟通方式。


“AI心理治疗师”到交互模型

Thinking Machines Lab 的灵感,最初来源于创始人之一在日常散步时构建的一个AI心理治疗师产品。虽然该产品本身用户接受度有限,但团队发现,底层支撑低延迟语音交互的技术架构,却引起了众多初创公司的兴趣。这促使他们将方向转向语音交互基础设施,并最终发展出今天的交互模型研究。

这一路径也反映了当前AI行业的一个趋势:从追求通用大模型能力,逐步转向垂直场景的深度优化,尤其是对交互体验的极致打磨。


挑战与未来展望

实现真正可靠的全双工AI对话,面临诸多技术挑战:

· 上下文理解与打断处理AI如何判断何时该打断、何时该继续倾听?

· 多说话者场景:在多人对话中如何准确区分不同声音?

· 一致性与幻觉控制:在高速生成响应的同时,如何保持回答的准确性和连贯性?

· 计算资源与延迟平衡:低延迟往往需要更强的实时推理能力,对基础设施提出更高要求。

Thinking Machines Lab 的研究,为行业提供了一个新的方向。如果他们能够成功驯服这种同时听与说的交互范式,将对语音AI、客服系统、智能硬件、元宇宙交互等领域产生深远影响。

目前,该公司仍处于早期阶段,但凭借创始团队在OpenAI的深厚背景,以及对交互本质的深刻洞察,他们的研究值得持续关注。

真正自然的AI对话,或许不再遥远。

相关标签:

分享本文
Thinking Machines 想打造能“边听边说”的AI:让对话真正像打电话一样自然

Thinking Machines 想打造能“边听边说”的AI:让对话真正像打电话一样自然

当前主流的AI对话系统,本质上仍然是“轮流说话”的模式——用户说完一句话,AI再思考并回复。这种“半双工”式的交互,虽然在很多场景下已经足够实用,但距离真正自然的人类对话还有明显差距。人类在交谈时,往...

评论

0 条
暂无评论,快来抢沙发。

Copyright © 2026 IAICA 版权所有  隐私政策 用户协议 Cookie说明 备案号:沪ICP备11018632号-8

18351659883