Kokoro TTS MCP Server (mberg/kokoro-tts-mcp) — это MCP-сервер для генерации озвучки текста через модель Kokoro TTS, который позволяет AI-агентам создавать аудио (MP3/WAV) из текста и при необходимости сохранять файлы локально или загружать их в S3. По сути, это “text-to-speech tool layer” для MCP-экосистемы, превращающий LLM-агентов в голосовые интерфейсы с возможностью воспроизведения или экспорта результата.
Ключевые особенности:
Kokoro TTS генерация речи Использует модель Kokoro (ONNX-based TTS) для преобразования текста в естественно звучащую речь с поддержкой различных голосов, языков и настроек интонации.
Генерация аудиофайлов (MP3/WAV) Сервер создает аудиофайлы из текста и сохраняет их локально, что позволяет использовать результат вне MCP-клиента (например, в приложениях или пайплайнах).
S3 / cloud storage интеграция Поддерживает загрузку сгенерированных аудиофайлов в Amazon S3 или совместимые storage-сервисы, что удобно для масштабируемых AI-приложений.
Настройки голоса и скорости Позволяет управлять голосом (voice ID), скоростью речи, языком и другими параметрами синтеза через environment variables.
Локальный self-hosted запуск Запускается локально через Python + uv, без обязательного облака, что делает его удобным для приватных AI-ассистентов и офлайн-агентов.
Инструмент MCP для voice pipeline Предоставляет MCP tool-интерфейс (text_to_speech сценарии через клиент), что позволяет агентам автоматически озвучивать ответы или генерировать аудиоконтент.
Для кого:
Платформа ориентирована на AI-разработчиков, MCP-инженеров, product-команды и создателей голосовых интерфейсов, которым нужно добавить text-to-speech функциональность в AI-агентов, ассистентов или автоматизированные workflow. Особенно полезна для voice-first приложений, accessibility решений и AI-контента (подкасты, озвучка текстов, voice bots).
Сценарии использования: Озвучка ответов AI-агента в реальном времени Генерация аудиоверсий статей, документов или отчетов Voice-интерфейсы для MCP-ассистентов (text → speech) Автоматическое создание аудиоконтента (подкасты, гайды) Интеграция TTS в multi-agent workflows Accessibility решения (озвучивание интерфейсов и данных) Offline voice generation для приватных систем Цены и доступность:
Проект распространяется как open-source (Apache 2.0) и доступен бесплатно через GitHub. Для работы требуется локальная установка модели Kokoro TTS (ONNX веса и voice embeddings), а также Python-окружение и зависимости (включая ffmpeg для конвертации в MP3). Дополнительные расходы могут возникать только при использовании AWS S3 (если включена загрузка в облако).