Skip to content

【开源推荐】用 TEN Agent 快速打造 Voice Agent,让AI 能听能说 #6060

@SyunWong

Description

@SyunWong

仓库地址:https://github.com/TEN-framework/TEN-Agent
快速体验:https://agent.theten.ai

解决痛点】更多的人通过语音与 AI 进行交互,无论是 AI 口语陪练,还是 AI 智能外呼,或者是智能硬件陪伴,Voice Agent 具有广阔的应用空间。在实际应用中,想要让 AI 听得清、说得准,就需要面对低延迟传输、音频3A处理等大量问题。

TEN Agent 基于开源框架 TEN Framework,为开发者提供快速、高效的工具来构建实时对话式 Voice Agent,让 AI 能听能说。

TEN Agent 支持多模态互动,支持语音、图像等多种输入方式,并具备实时语音打断功能,能为用户带来自然的交互体验。通过https://agent.theten.ai 即可进行快速体验。

TEN Agent 已集成 Gemini 2.0,OpenAI Realtime、DeepSeek、RTC 等多种模型及组件,已适配 Dify、Coze 主流编排工具,同时支持 ESP32。  

Image

🚀 核心特点

  • 免费开源框架
    TEN Agent 基于主流对话式 Voice Agent开源框架 TEN Framework,用户可免费使用

  • 完整的音视频传输解决方案,低延时、可打断
    默认集成的RTC 包含了完整音视频传输解决方案,尤其是音频3A处理(回声消除、自动增益控制、主动降噪),无惧周围环境、让 AI 听得更清,实现更自然的交互

  • 集成全球主流模型,可高效快速开发
    已集成全球主流的 LLM、STT、TTS ,其中包含 Gemini 2.0,OpenAI Realtime、DeepSeek、RTC 等模块及组件,并且保持快速更新,能帮助用户快速开发

  • 接入 dify.ai 和 Coze 等主流编排工具
    用户只需将已搭建好的 chatbot 的 API Key 贴入 TEN Agent中,即可让自己的chatbot 能通过语音进行对话

  • 支持 ESP 32,让智能硬件也能交流
    已支持 ESP 32,用户可通过 TEN + ESP 32快速打造 AI 语音聊天硬件,可广泛应用于智能语音助手、智能家居等领域


💡 应用场景

  • 🤖 AI 语音聊天助手,如个人助手、虚拟陪伴等
  • 🗒️ 智能陪伴硬件,如 AI 玩具等
  • 🧑‍🏫 AI 智能外呼中心 
  • 🎧 同声传译与AI 会议翻译

👀 使用示例

  • 用TEN Agent 和Gemini 分享你的猫猫(视频图像识别+屏幕共享+实时语音交流)
TEN+Gemini.mp4
  • TEN:storyteller with image generator讲故事的同时生成图片
TEN.Story.teller.with.image.generator.mov
  • TEN+ESP32:与智能硬件聊天
TEN+ESP32.mov
  • TEN+SPI:给AI心理医生打电话
TEN.+SIP.mov

💻 快速开始

https://github.com/TEN-framework/TEN-Agent?tab=readme-ov-file#next-step

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions