Как определить сгенерированный текст: методы определения текста, созданного ИИ

Прошло немного времени с момента появления нейросетей в общем доступе. Но, помимо очевидных плюсов ИИ, выявились и минусы, которые уже сейчас досаждают многим людям. Не будем обвинять в этом нейросети – они всего лишь инструмент, который просто выполняет задания. Ответственность – всегда на людях, которые его используют.

Яркий пример проблем – многие всерьез обеспокоены тем, как определить сгенерированный текст. Конечно, большинство пользователей это пока что мало волнует. Станет волновать чуть позже, когда недостоверной информации в сети станет больше.

Сейчас о том, как распознать сгенерированный текст, переживают редакторы, владельцы новостных ресурсов (они ведь не с потолка берут новости, а среди них могут быть и фейковые). Плюс – преподаватели, которым дипломная работа или реферат студента нужна для определения его уровня знаний. Его, а не искусственного интеллекта.

А так как популярные языковые модели обучаются на все больших массивах данных, улучшают свою работу, определение подлинности контента становится первоочередной задачей – для всех, кто работает с какими-либо текстами. В этой статье мы рассмотрим, как проверять контент с помощью специальных сервисов.

Зачем это нужно

Ну, сгенерирован – в чем проблема? Ведь текст красивый, связный, информация в нем подана логично. Какая разница?

Разница есть, и ее легко понять на таких примерах:

Преподаватели. Рефераты, сочинения, эссе, курсовые и дипломные нужны не для издевательств над бедными учениками и студентами. Это – часть их обучения. И возможность оценить их знания. Если студент или ученик приносит «творчество» ChatGPT – о каких знаниях может идти речь.
Редактор, СЕО-специалист, владелец сайта, сотрудничающий с копирайтерами. Ему будет очень неприятно выяснить, что он заплатил определенную сумму за работу ИИ, созданную за минуту. А копирайтер в это время смотрел сериал. Да и качество работ, если сравнивать их с «живыми» текстами, не настолько высокое, как может показаться сразу.
Человек, погруженный в новости. Он заинтересован в правдивой информации, которую достаточно сложно искать. Но если нейросети могут генерировать километры текста, легко, быстро, по любому заданию – отличать ложь от правды станет намного сложнее (и сейчас нелегко, но в перспективе ситуация будет более грустной).
Любой пользователь, который хочет найти экспертную информацию по интересующей теме. К примеру, в тексте, созданном ИИ, все логично и убедительно расписано. Но информация неверная! Пользователь – не эксперт, чтобы в ней разбираться, соответственно, прочитанному верит. Хорошо, если речь идет о чем-то, далеком от обычной жизни или некритичном. Хуже, если пользователь читает «экспертную» статью, чтобы последовать ее рекомендациям. А ИИ может ошибаться, потому что не понимает смысла того, что создает. Искусственный интеллект не умеет понимать.

По этим причинам многим специалистам и пользователям нужно знать, как проверить, сгенерирован ли текст с помощью AI.

Как определить «машинный» контент

Для проверки существуют специальные сервисы, и, пожалуй, самый знаменитый – «Антиплагиат». Да, было мало проблем с копипастом, добавился чат-бот GPT. И среди функций «Антиплагиата» появилась новая – для выявления «машинного» контента.

Как «Антиплагиат» определяет сгенерированный текст? Алгоритм подразумевает сравнение предложений или отрывков с теми, что есть в базе данных детектора (да, его тоже обучают). Подозрительными будут шаблонные предложения, «водянистые» фрагменты, логические ошибки и даже искажение фактов, недостоверный материал. На самом деле работа детектора сложна, но схожа с работой ИИ. Хотя это логично – обнаружить творение робота помогает другой робот.

Какими еще сервисами пользоваться

Но не «Антиплагиатом» единым – есть и другие сервисы с той же функцией:

AI Content Detector;
Grammar;
GPTZero;
Text.ru;
Content at Scale.

Есть и другие сервисы – каждый работает по своему алгоритму, но все они выдают вполне достоверный результат. Да, бывают ложные срабатывания, но их не так и много.

Полезные советы

Хорошо, мы знаем, как «Антиплагиат» видит работу ИИ. Но ведь эту систему можно обойти? Да, можно. Правда, это потребует определенных усилий, так как алгоритмы не распознают «переработанный» человеком текст. Что вполне логично. Впрочем, если человек потрудился и «переработал» эссе, курсовую или диплом– наверное, можно поставить ему «зачет».

Но можно обойтись и без сервисов. Есть несколько признаков, по которым вы сами сможете распознать генерацию:

ИЯ слишком конкретны и «практичны», им не даются абстрактные рассуждения. Даже сказки у них получаются «суховатыми», если не редактировать и не уточнять результат. Машинный язык отличается от человеческого.
Нейросеть может написать вымышленный факт, если у нее недостаточно информации. Ну, хорошо, человеческий мозг тоже это любит, умеет, практикует. Но более творчески.
Нет глубины, экспертности, вдумчивости – все сгенерированные тексты слишком «общие».

Итоги

Как найти и как обойти сгенерированный текст – проблема, которая волнует тех, кто погружен в тему искусственного интеллекта или вынужден иметь дело с результатами его работы. Но обнаружение генераций это пока не слишком сложно, благодаря специальным сервисам. Они развиваются так же активно, как и нейросети, поэтому обнаружение генераций будет успешным и дальше – пока искусственный интеллект существует в своем теперешнем виде.