Grafana MCP Server — это официальный MCP-сервер от Grafana, который подключает AI-ассистентов напрямую к экосистеме Grafana, позволяя моделям искать и анализировать дашборды, запрашивать метрики из Prometheus, исследовать логи в Loki, отслеживать трейсы в Tempo и управлять инцидентами — и все это через единый интерфейс естественного языка.
Ключевые особенности:
Поиск и анализ дашбордов: Инструменты search_dashboards, get_dashboard_by_uid и get_dashboard_panels позволяют AI-ассистенту находить нужные дашборды по ключевым словам, извлекать их полное описание и получать данные конкретных панелей, предоставляя пользователю готовую аналитику без ручной навигации.
Прямые запросы метрик из Prometheus: query_prometheus выполняет как мгновенные, так и диапазонные PromQL-запросы, позволяя AI самостоятельно извлекать метрики CPU, памяти, латентности и любых кастомных показателей для расследования инцидентов.
Исследование логов через Loki: Инструменты list_loki_label_names, list_loki_label_values и query_loki_logs дают модели возможность сначала изучить структуру индексированных логов, а затем выполнять точечные LogQL-запросы по конкретным сервисам и временным интервалам.
Анализ распределенных трейсов в Tempo: query_tempo_traces и get_tempo_trace_by_id открывают доступ к полным деревьям вызовов, позволяя AI отслеживать путь запроса через все микросервисы и находить узкие места или источники ошибок.
Управление алертами и инцидентами: Инструменты list_alert_rules, get_alert_rule_by_uid и get_alertmanager_alerts предоставляют полную картину текущих срабатываний и конфигурации правил, позволяя AI находить корреляции между алертами и первопричинами в метриках или логах.
Просмотр и комментирование инцидентов: list_incidents, get_incident и add_comment_to_incident позволяют AI-ассистенту участвовать в процессе управления инцидентами, добавляя контекст и результаты анализа прямо в активные расследования.
Для кого: Ориентирован на SRE-команды, DevOps-инженеров и разработчиков, уже использующих стек Grafana (Grafana Dashboards, Prometheus, Loki, Tempo) для наблюдаемости инфраструктуры и приложений. Идеально подходит для организаций, желающих ускорить расследование инцидентов, автоматизировать рутинный анализ дашбордов и предоставить AI-ассистентам полный контекст по всему стеку мониторинга через единый MCP-интерфейс.
Сценарии использования:
Комплексное расследование инцидента: SRE спрашивает Claude “почему сервис оплаты деградировал 10 минут назад”, и AI через query_prometheus проверяет метрики, через query_loki_logs извлекает логи ошибок, а через get_alertmanager_alerts находит связанные срабатывания — собирая полную картину за секунды.
Ежедневный аудит состояния систем: AI-ассистент по расписанию обходит активные алерты, проверяет ключевые дашборды через get_dashboard_panels и формирует сводку о здоровье инфраструктуры на естественном языке.
Поиск корреляций между логами и трейсами: модель извлекает трейс медленного запроса через get_tempo_trace_by_id, находит связанные с ним логи через Loki и выявляет конкретный микросервис, вызывающий задержку.
Документирование и аудит дашбордов: AI обходит все дашборды через search_dashboards, анализирует панели и формирует каталог с описанием назначения каждого дашборда для онбординга новых инженеров.
Цены и доступность: Сам MCP-сервер имеет открытый исходный код (Apache 2.0 License), написан на Go и распространяется через GitHub. Может быть запущен локально или как удаленный сервер. Для работы требуется доступ к экземплярам Grafana, Prometheus, Loki и Tempo с соответствующими URL и токенами аутентификации. Сама Grafana Cloud и self-hosted версии Grafana имеют собственные тарифные планы, не связанные с MCP-сервером.