fetcher mcp

Сайт	https://github.com/jae-jae/fetcher-mcp
Цена	Бесплатный доступ
Основные направления	Инжиниринг данных и извлечение, МСР для извлечения данных

Fetcher MCP — это MCP-сервер для извлечения содержимого веб-страниц с использованием headless-браузера Playwright, который решает проблему получения данных с современных динамических сайтов, требующих исполнения JavaScript. В отличие от традиционных веб-скраперов, Fetcher MCP способен обрабатывать SPA-приложения, обходить антибот-защиту и извлекать очищенный контент с автоматическим удалением рекламы, навигации и прочего информационного шума, предоставляя AI-агентам структурированные данные в формате Markdown или HTML.

Ключевые особенности:

Полная поддержка JavaScript: Использование Playwright headless-браузера вместо статических HTTP-запросов позволяет серверу загружать и исполнять JavaScript на целевых страницах, что критически важно для работы с современными веб-приложениями, SPA-сайтами и динамически подгружаемым контентом.

Интеллектуальное извлечение контента: Встроенный алгоритм Readability автоматически выделяет основной контент страницы, удаляя рекламные блоки, навигационные меню, сайдбары и другие несущественные элементы, что позволяет AI-моделям получать только значимую информацию без информационного мусора.

Гибкие форматы вывода: Поддержка как Markdown (по умолчанию), так и HTML-формата возвращаемого контента с настраиваемым параметром returnHtml, что обеспечивает совместимость с различными downstream-приложениями и предпочтениями AI-моделей.

Параллельная обработка множества URL: Инструмент fetch_urls позволяет одновременно загружать содержимое нескольких веб-страниц через много-вкладочный режим Playwright, что радикально ускоряет пакетные операции сбора данных и исследовательские задачи.

Оптимизация ресурсов и трафика: Автоматическая блокировка некритичных ресурсов — изображений, стилей, шрифтов и медиафайлов — существенно снижает потребление трафика и ускоряет загрузку страниц при сохранении полного текстового содержимого.

Обход антикраулерных механизмов: Специальный параметр waitForNavigation с настраиваемым таймаутом позволяет дожидаться завершения редиректов, CAPTCHA-проверок и других верификационных механизмов перед извлечением контента, что повышает успешность получения данных с защищенных сайтов.

Режим отладки с визуализацией: Параметр —debug и динамический флаг debug в запросах открывают видимое окно браузера, что позволяет вручную пройти аутентификацию на сайтах, использующих логин-формы, и получить доступ к контенту за авторизацией.

Автоматическая установка браузера: Инструмент browser_install автоматически устанавливает Chromium и системные зависимости при их отсутствии, устраняя необходимость ручной настройки окружения.

Гибкое развертывание: Поддержка запуска через npx без установки, Docker-развертывания с docker-compose и healthcheck-мониторингом, а также dual-транспортный режим с одновременной работой Streamable HTTP и SSE эндпоинтов для совместимости с различными MCP-клиентами.

Для кого: Разработчики AI-приложений и MCP-клиентов, которым нужно извлекать контент с JavaScript-зависимых сайтов, недоступных для обычных HTTP-скраперов. Исследователи и аналитики, собирающие данные с множества источников одновременно и нуждающиеся в очищенном, структурированном контенте без рекламы. Создатели RAG-систем и поисковых AI-агентов, требующих надежного пайплайна извлечения веб-контента для индексации и анализа. Команды, работающие с сайтами за аутентификацией, которым нужна возможность ручного входа через режим отладки.

Сценарии использования:

Извлечение контента с динамических SPA-сайтов: AI-агент запрашивает страницу интернет-магазина с бесконечной прокруткой, Playwright исполняет JavaScript, дожидается подгрузки всех товаров, алгоритм Readability очищает контент от интерфейсных элементов, и агент получает структурированный список продуктов в Markdown.

Параллельный сбор данных с множества источников: AI-агент за один вызов fetch_urls с массивом из 20 URL новостных статей одновременно загружает все страницы, извлекает основной контент каждой и агрегирует результаты в сводный дайджест с четким разделением между источниками.

Обход антибот-защиты и ожидание верификации: AI-агент запрашивает страницу с CAPTCHA-проверкой, используя waitForNavigation: true, сервер дожидается завершения редиректа и верификации, после чего успешно извлекает контент, который был бы недоступен при обычном HTTP-запросе.

Доступ к контенту за аутентификацией: AI-агент включает режим отладки с видимым окном браузера, пользователь вручную вводит логин и пароль на сайте, после успешной аутентификации агент продолжает извлечение контента с сохранением сессии.

Подготовка данных для RAG-систем: AI-агент систематически обходит страницы документации продукта, извлекает очищенный контент в Markdown с подавлением медиа-ресурсов для экономии трафика и передает структурированные тексты в систему индексации знаний.

Цены и доступность: Сервер полностью бесплатен и распространяется с открытым исходным кодом на GitHub под лицензией MIT (1.1k звезд, 96 форков). Установка не требует клонирования репозитория — запуск одной командой npx -y fetcher-mcp с автоматической загрузкой зависимостей. Для работы требуется Chromium, который устанавливается автоматически через инструмент browser_install. Docker-образ доступен в GitHub Container Registry для production-развертывания. Никаких API-ключей, платных подписок или регистраций не требуется — весь функционал работает локально на собственной инфраструктуре пользователя.Долгосрочное сопровождение

Похожие MCP

dbhub

markdownify mcp

mcp alchemy

mcp mongo server

web3 research mcp

Бесплатный доступ к Chat GPT и другим нейросетям