VoiceMode (mbailey/voicemode) — это MCP-сервер и плагин-экосистема, который добавляет полноценные голосовые интерфейсы к AI-ассистентам (например, Claude Code), позволяя пользователю вести двухсторонние голосовые диалоги с LLM через микрофон и динамики. Решение превращает текстовые AI-интерфейсы в “voice-first” опыт с поддержкой speech-to-text, text-to-speech, локальных голосовых моделей и облачных API (например, OpenAI), обеспечивая максимально естественное взаимодействие с агентами без клавиатуры.
Ключевые особенности:
Real-time voice conversations через MCP Позволяет агенту принимать голосовой ввод в реальном времени, преобразовывать его в текст и возвращать голосовой ответ, создавая непрерывный диалоговый поток между пользователем и LLM.
STT и TTS (локальные и облачные) Поддерживает Whisper (speech-to-text) и Kokoro (text-to-speech) для локальной работы, а также OpenAI-compatible API для облачной обработки речи. Это дает баланс между приватностью и качеством распознавания.
Интеграция с Claude Code и MCP-клиентами Работает как MCP-plugin, подключаемый через uvx или Claude plugin system, позволяя использовать голос прямо в dev-окружении и AI coding workflows.
Low-latency streaming voice pipeline Оптимизирован для минимальной задержки: включает streaming audio processing, smart silence detection и real-time synthesis, чтобы разговор ощущался естественным.
Offline-first режим Можно полностью работать локально без облака, используя локальные модели речи и аудио-обработку, что важно для приватности и офлайн-сценариев.
Cross-platform поддержка Работает на Linux, macOS, Windows (WSL) и NixOS, с простым CLI/installer setup через Python/uv ecosystem.
Для кого:
Платформа ориентирована на разработчиков, AI power users, инженеров и пользователей MCP-экосистемы, которые хотят взаимодействовать с LLM без клавиатуры. Особенно полезна для тех, кто работает в Claude Code, занимается разработкой, отладкой или multitasking-сценариями (например, кодинг во время прогулки или параллельной работы руками).
Сценарии использования: Голосовое программирование через Claude Code без клавиатуры Hands-free работа с AI во время прогулок или multitasking Быстрые запросы к агенту без переключения контекста Голосовой AI-ассистент для разработки и debugging Offline voice assistant для приватных окружений Conversational coding workflows с continuous speech interaction Accessibility use cases (упрощение работы с AI для hands-free пользователей) Цены и доступность:
VoiceMode распространяется как open-source проект (MIT лицензия) и доступен бесплатно через GitHub и PyPI. Установка выполняется через uvx voice-mode или MCP plugin system. Дополнительные расходы могут возникать только при использовании облачных STT/TTS API (например, OpenAI), если пользователь не использует локальные модели.