本地 STT(MLX-Whisper)
语音识别完全在你的 Apple Silicon Mac 上通过 MLX-Whisper large-v3-mlx-4bit 运行。无云端 API,无使用费,音频不离开你的机器。
随时随地与 AI 助手自然对话——零付费语音 API
概览
Voice Control 将你的 OpenClaw 变成免提 AI 助手。基于 WebRTC,完全自托管——MLX-Whisper 本地语音识别、Edge-TTS 免费文字转语音、LiveKit 实时音频。生成一次性链接,在手机上打开,开口说话即可。
能力
所有组件本地运行或使用免费服务——语音功能零持续 API 成本。
语音识别完全在你的 Apple Silicon Mac 上通过 MLX-Whisper large-v3-mlx-4bit 运行。无云端 API,无使用费,音频不离开你的机器。
文字转语音由微软免费的 Edge-TTS 服务驱动——高质量自然声音,无订阅或按字计费。
通过 WebRTC 实时音频流,使用 LiveKit 自托管。低延迟双工音频,可在任何浏览器或 iOS Safari 中可靠使用。
随时随地用 iPhone 呼叫你的 AI。Tailscale 提供受信任的 HTTPS 端点,iOS Safari 连接无证书警告。
通过对话自然触发:让 Claude 读取文件、运行 Shell 命令、搜索记忆库或列出活动会话。
在你的 Tailscale 网络中随处可访问。一次性通话链接 1 小时后过期,每次会话从新开始,保持安全。
架构
完全自托管的音频流水线——从你的麦克风到 Claude 的声音,没有任何内容离开你的网络。
每次通话经过确定性的六步流水线。语音由 Silero VAD 检测,由 MLX-Whisper 在设备上本地转录,由 Claude 处理,然后由 Edge-TTS 转换回音频——整个过程通过 WebRTC 实时完成。
一次性链接流程
运行 ./call.sh——生成签名 JWT + 唯一房间
链接通过 Tailscale DNS 投递(受信任的 Let's Encrypt 证书)
在 iPhone 或浏览器打开——通过 token server 完成 WebRTC 握手
音频通过 LiveKit 流向语音 Agent
链接 1 小时后过期——下次通话,新链接
STT
MLX-Whisper
本地,Apple Silicon
TTS
Edge-TTS
微软免费
Transport
LiveKit
自托管 WebRTC
Access
Tailscale
零配置 VPN
覆盖范围
语音 Agent 拥有 OpenClaw 工具的完整访问权——你能打字的,现在都能说。
与 Claude 自然对话——随手提问、头脑风暴,或免手动获取快速答案。
通过语音在 Mac mini 上执行 Shell 命令——无需键盘。
大声查询你的 OpenClaw 记忆库,立即获得语音答复。
让 Claude 读取系统上的任意文件并朗读摘要或解释。
了解哪些 Agent 在活动、哪些任务在运行,或有哪些会话存在——直接问就行。
引导子 Agent、检查任务状态,在任何地方通过语音编排你的 OpenClaw 环境。
即将上线
第一时间获知此插件上线。