MCP-серверы

kokoro tts mcp kokoro tts mcp логотип

Сайт https://github.com/mberg/kokoro-tts-mcp
Цена Бесплатный доступ
Основные направления Персональная продуктивность и ассистенты, МСР для синтеза речи

Kokoro TTS MCP Server (mberg/kokoro-tts-mcp) — это MCP-сервер для генерации озвучки текста через модель Kokoro TTS, который позволяет AI-агентам создавать аудио (MP3/WAV) из текста и при необходимости сохранять файлы локально или загружать их в S3. По сути, это “text-to-speech tool layer” для MCP-экосистемы, превращающий LLM-агентов в голосовые интерфейсы с возможностью воспроизведения или экспорта результата.

Ключевые особенности:

Kokoro TTS генерация речи Использует модель Kokoro (ONNX-based TTS) для преобразования текста в естественно звучащую речь с поддержкой различных голосов, языков и настроек интонации.

Генерация аудиофайлов (MP3/WAV) Сервер создает аудиофайлы из текста и сохраняет их локально, что позволяет использовать результат вне MCP-клиента (например, в приложениях или пайплайнах).

S3 / cloud storage интеграция Поддерживает загрузку сгенерированных аудиофайлов в Amazon S3 или совместимые storage-сервисы, что удобно для масштабируемых AI-приложений.

Настройки голоса и скорости Позволяет управлять голосом (voice ID), скоростью речи, языком и другими параметрами синтеза через environment variables.

Локальный self-hosted запуск Запускается локально через Python + uv, без обязательного облака, что делает его удобным для приватных AI-ассистентов и офлайн-агентов.

Инструмент MCP для voice pipeline Предоставляет MCP tool-интерфейс (text_to_speech сценарии через клиент), что позволяет агентам автоматически озвучивать ответы или генерировать аудиоконтент.

Для кого:

Платформа ориентирована на AI-разработчиков, MCP-инженеров, product-команды и создателей голосовых интерфейсов, которым нужно добавить text-to-speech функциональность в AI-агентов, ассистентов или автоматизированные workflow. Особенно полезна для voice-first приложений, accessibility решений и AI-контента (подкасты, озвучка текстов, voice bots).

Сценарии использования: Озвучка ответов AI-агента в реальном времени Генерация аудиоверсий статей, документов или отчетов Voice-интерфейсы для MCP-ассистентов (text → speech) Автоматическое создание аудиоконтента (подкасты, гайды) Интеграция TTS в multi-agent workflows Accessibility решения (озвучивание интерфейсов и данных) Offline voice generation для приватных систем Цены и доступность:

Проект распространяется как open-source (Apache 2.0) и доступен бесплатно через GitHub. Для работы требуется локальная установка модели Kokoro TTS (ONNX веса и voice embeddings), а также Python-окружение и зависимости (включая ffmpeg для конвертации в MP3). Дополнительные расходы могут возникать только при использовании AWS S3 (если включена загрузка в облако).