🐾claw-stack
插件 OpenClaw 生态

Voice Control

随时随地与 AI 助手自然对话——零付费语音 API

概览

Voice Control 将你的 OpenClaw 变成免提 AI 助手。基于 WebRTC,完全自托管——MLX-Whisper 本地语音识别、Edge-TTS 免费文字转语音、LiveKit 实时音频。生成一次性链接,在手机上打开,开口说话即可。

0
付费 STT/TTS API
1h
链接有效期
Apple Silicon
优化平台
WebRTC
音频传输

能力

核心功能

所有组件本地运行或使用免费服务——语音功能零持续 API 成本。

本地 STT(MLX-Whisper)

语音识别完全在你的 Apple Silicon Mac 上通过 MLX-Whisper large-v3-mlx-4bit 运行。无云端 API,无使用费,音频不离开你的机器。

免费 TTS(Edge-TTS)

文字转语音由微软免费的 Edge-TTS 服务驱动——高质量自然声音,无订阅或按字计费。

WebRTC(LiveKit)

通过 WebRTC 实时音频流,使用 LiveKit 自托管。低延迟双工音频,可在任何浏览器或 iOS Safari 中可靠使用。

支持 iPhone

随时随地用 iPhone 呼叫你的 AI。Tailscale 提供受信任的 HTTPS 端点,iOS Safari 连接无证书警告。

语音触发工具调用

通过对话自然触发:让 Claude 读取文件、运行 Shell 命令、搜索记忆库或列出活动会话。

Tailscale 远程访问

在你的 Tailscale 网络中随处可访问。一次性通话链接 1 小时后过期,每次会话从新开始,保持安全。

架构

工作原理

完全自托管的音频流水线——从你的麦克风到 Claude 的声音,没有任何内容离开你的网络。

每次通话经过确定性的六步流水线。语音由 Silero VAD 检测,由 MLX-Whisper 在设备上本地转录,由 Claude 处理,然后由 Edge-TTS 转换回音频——整个过程通过 WebRTC 实时完成。

1
麦克风 / iPhone 通过 WebRTC 捕获音频
2
VAD Silero 检测语音边界
3
STT MLX-Whisper 本地转录
4
Claude LLM 生成回复和工具调用
5
Edge-TTS 将回复合成为音频
6
扬声器 通过 LiveKit 回传音频

一次性链接流程

运行 ./call.sh——生成签名 JWT + 唯一房间

链接通过 Tailscale DNS 投递(受信任的 Let's Encrypt 证书)

在 iPhone 或浏览器打开——通过 token server 完成 WebRTC 握手

音频通过 LiveKit 流向语音 Agent

链接 1 小时后过期——下次通话,新链接

STT

MLX-Whisper

本地,Apple Silicon

TTS

Edge-TTS

微软免费

Transport

LiveKit

自托管 WebRTC

Access

Tailscale

零配置 VPN

覆盖范围

语音能做什么

语音 Agent 拥有 OpenClaw 工具的完整访问权——你能打字的,现在都能说。

提问

与 Claude 自然对话——随手提问、头脑风暴,或免手动获取快速答案。

运行命令

通过语音在 Mac mini 上执行 Shell 命令——无需键盘。

搜索记忆

大声查询你的 OpenClaw 记忆库,立即获得语音答复。

读取文件

让 Claude 读取系统上的任意文件并朗读摘要或解释。

列出会话

了解哪些 Agent 在活动、哪些任务在运行,或有哪些会话存在——直接问就行。

控制 Agent

引导子 Agent、检查任务状态,在任何地方通过语音编排你的 OpenClaw 环境。

即将上线

加入候补名单

第一时间获知此插件上线。

加入候补名单