Ну что тебе в тире моём?

Ну что тебе в тире моём?

Успех нейросетей в генерации текстов породил новое направление в отрасли антиплагиатчиков и подобных лжеэкспертов, которые на голубом глазу заявляют, что их системы с 257-процентной точностью определяют плагиат, находят забытый сонет Шекспира и сгенерированный с помощью LLM текст. При этом алгоритмы детектирования, как правило, не раскрываются — ведь это коммерческая тайна. Ну а ещё явное свидетельство того, насколько ненадёжны эти системы и насколько велик процент ложноположительных срабатываний в действительности.

Один из «надёжных» признаков сгенерированного большой языковой моделью текста — наличие длинного тире (а не дефиса или минуса) и типографских кавычек-ёлочек «», а не “”. Ещё часто ссылаются на «характерные для нейронок» речевые обороты.

Но постойте, разве качественная типографика — это не признак работы квалифицированного автора? Как и сбалансированное логичное построение текста? Почему внезапно хороший текст непременно должен быть написан нейросетью? Ведь нейронки могут имитировать любой стиль повествования, если дать им образец. И никакие «паттерны» не будут работать. Да и автор тоже может писать в разных стилях в зависимости от задачи. И использовать разные структуры текста и соответствующую им пунктуацию.

72 тире: преступление века

Мне недавно сообщили — со всей серьёзностью медэксперта, ставящего диагноз по фотографии, — что 72 длинных тире на 17 000 знаков моего текста есть неопровержимое доказательство нейрогенерации.

Давайте посчитаем. 17 000 знаков — примерно 2 500 слов русского текста. 72 тире — одно на каждые 236 знаков, или на каждые 35 слов. Одно тире на два-три предложения. Для аналитического текста, насыщенного составными конструкциями, уточнениями и авторскими ремарками — совершенно нормальная частота.

Но дело даже не в арифметике. В русском языке тире — системный знак препинания с обширной областью применения. Тире ставится на месте пропущенной связки «есть» или «это»: «Москва — столица». Тире ставится в бессоюзных сложных предложениях. Тире выделяет вставки. Тире используется при обобщающих словах. Тире оформляет прямую речь. Розенталь описывает десятки случаев обязательного тире — и любой автор, владеющий этими правилами, неизбежно использует его часто.

Откройте Довлатова — тире стоит через строчку, это часть его ритма. У Цветаевой тире встречается чаще точек — её авторский знак. Бродский ставил тире там, где другие не ставили бы ничего. Видимо, все они тоже были нейросетями — просто ретро-GPT с хорошим промптом.

Считать знаки препинания и на этом основании делать выводы о нейроавторстве — всё равно что определять национальность повара по количеству соли в супе. Технически вы что-то считаете. К реальности это отношения не имеет.

Как устроены детекторы и почему они не работают

Ладно, оставим типографику в покое. Разберём, что есть в арсенале детекторов на самом деле, — и посмотрим, стоит ли оно хоть чего-нибудь.

Перплексия и «бёрстовость»

Самый старый подход. Перплексия — мера «неожиданности» текста для языковой модели. Логика такая: скармливаем текст нейросети и смотрим, насколько каждое следующее слово предсказуемо. Предсказуемый текст — машинный, потому что LLM генерируют «наиболее вероятные» продолжения. Непредсказуемый — человеческий, потому что люди существа хаотичные.

«Бёрстовость» (burstiness) — разброс перплексии по тексту. У человека перплексия прыгает: то простое предложение, то витиеватая конструкция, то жаргонное словечко. У машины всё ровно, как пульс у мертвеца.

Звучит логично? Вот только это не работает.

Перплексия зависит от эталонной модели. Текст, предсказуемый для GPT-2, может быть непредсказуемым для Claude или GPT-5.2, и наоборот. Никакой «абсолютной перплексии» не существует — только перплексия относительно конкретной модели в конкретный момент.

Хуже того: модели обучены на человеческих текстах. Всё, что попало в обучающую выборку, — а это миллиарды документов, — будет иметь низкую перплексию просто потому, что модель это «помнит». Декларация независимости США? Определяется как ИИ-текст. Статьи из Википедии? Аналогично. Учебники, справочники, техническая документация — всё «подозрительно предсказуемо» для модели, которая на всём этом училась.

Но самое скверное — перплексия систематически дискриминирует тех, кто пишет грамотно и просто. Стэнфордское исследование (Liang et al., 2023) показало: семь детекторов на базе перплексии ошибочно пометили как ИИ более 61 % эссе иностранных студентов. 97 % их работ были помечены хотя бы одним детектором. Причина банальна: ограниченный словарный запас и строгое следование грамматике дают низкую перплексию. Детектор делает заключение — машина. На деле — студент, который старался писать правильно и был за это наказан.

GPTZero, пионер этого подхода, давно перешёл на «многокомпонентную систему», признав, что одной перплексии недостаточно. Точность, впрочем, от этого сильно не выросла.

Вероятностные методы

Вместо перплексии целого текста анализируется вероятность каждого токена: насколько он «ожидаем» с точки зрения модели. DetectGPT (Mitchell et al., 2023) идёт дальше: слегка возмущает текст, подменяя слова, и проверяет, как меняется логарифм вероятности. Если вероятность стабильно падает — текст «на распределении» модели, значит, сгенерирован.

Красивая математика. Только вот она ломается при малейшем изменении параметров генерации. Повысил температуру — вероятностный профиль стал «человеческим». Пропустил через перефразировщик — детектор капитулирует. Copyleaks, заявляющий 99,1 % точности, после обработки текста сервисом StealthWriter показывает ровно 0 %. Не «почти ноль» — ноль. Полная и безоговорочная капитуляция. Текст, который тридцать секунд назад был «100 % ИИ», внезапно стал «100 % человек». Надёжная система, ничего не скажешь.

Классификаторы: нейросеть против нейросети

Красивая на первый взгляд концепция: обучим нейросеть отличать машинный текст от человеческого. OpenAI — создатель самой мощной на тот момент текстовой модели — выпустил такой классификатор в январе 2023 года. И через шесть месяцев тихо его закрыл. Точность определения ИИ-текста — 26 %. Подбрасывание монетки дало бы 50 %. Создатели GPT не смогли построить работающий детектор для собственного продукта, причём ложноположительные срабатывания (человеческий текст, обозванный нейрогенерацией) составили 9 %. Это должно было закрыть тему — но бизнес есть бизнес.

Корневая проблема классификаторов — обобщение. Обучили на GPT-3.5 — не ловит GPT-4. Обучили на английском — не работает на русском. Обучили на эссе — пасует перед техдокументацией. Каждая новая модель, каждый домен, каждый язык требуют переобучения. А новых моделей появляется больше, чем детекторы успевают научиться узнавать.

Отдельного упоминания заслуживает Sapling: заявленная точность 97 %, но при этом 87–90 % оригинальных научных статей, написанных живыми людьми, помечаются как ИИ-текст. Если обвинить всех подряд — ошибёшься только в десяти процентах случаев. Формально точно, практически — бессмысленно.

Стилометрия

Самый наукообразный подход. Измеряется всё: длина предложений, глубина синтаксических деревьев, частота частей речи, лексическое разнообразие. Идея в том, что у каждого автора свой «стилистический отпечаток», и ИИ якобы отличается от человека по совокупности признаков.

На практике современные модели воспроизводят любой стилистический профиль по образцу. Дайте Claude текст-образец — стилометрический анализ покажет совпадение с оригиналом. Модель действительно научилась имитировать стиль, и наукообразные метрики этому не помеха.

А ещё стилометрия бьёт по своим. Грамотный автор с устоявшимся стилем производит тексты со стабильными характеристиками: устойчивая средняя длина предложений, постоянные синтаксические предпочтения, ровный коэффициент лексического разнообразия. Для детектора всё это — «алгоритмическая стабильность», признак машины. Ваш годами выработанный стиль становится вашим обвинительным приговором.

Энтропия и n-граммы

Энтропия текста — мера его хаотичности. ИИ якобы пишет «ровнее» человека. Базовая точность метода — AUROC1 0,651. Это чуть лучше монетки: правильный ответ в шести случаях из десяти. Если бы так работал металлоискатель, он пропускал бы каждую третью монету и пищал на каждый третий камень.

Анализ длинных n-грамм (последовательностей слов) показывает результаты получше — до 97 % на шестиграммах. Но только на чистом, нередактированном машинном тексте. Одна правка, одно переписанное предложение — и статистика рассыпается. А в реальности чистый, нетронутый ИИ-текст — товар штучный: кто в здравом уме публикует текст, не перечитав?

Отечественный колорит

Российские детекторы заслуживают отдельного разговора. Хотя бы потому, что русский язык создаёт для них проблемы, о которых их разработчики не распространяются.

«Антиплагиат» заявляет точность до 98 %. GigaCheck от Сбера — 94,7 %. Text.ru — 90 %. Красивые цифры. И ни одна не подтверждена независимым рецензируемым исследованием. Ни одна.

Когда независимый автор протестировал GigaCheck на десяти собственных текстах, система ошиблась в трёх случаях — 30 % ошибок при заявленных 5,3 %. Шестикратное расхождение с тем, что написано на лендинге. Text.ru систематически помечает профессиональные тексты как нейрогенерацию — копирайтеры жалуются, что переписывание абзаца по десять раз не помогает. Клиенты верят детектору — не автору.

С русским языком детекторам вообще приходится тяжело. Шесть падежей, три рода, два вида глагола, свободный порядок слов, развитая синонимия — одну и ту же мысль по-русски можно выразить десятком способов. «Шаблонная структура предложений» — один из главных маркеров ИИ-текста — в русском определяется плохо, потому что и у живого автора порядок слов варьируется куда свободнее, чем в английском. По данным сравнительных тестов, точность детектирования на русскоязычных текстах — 55–68 %. Практически монетка. Но на сайтах по-прежнему написано «98 %».

Пикантная деталь: некоторые сервисы одновременно продают и генерацию текста, и его детектирование. Retext.AI предлагает и рерайтер, и детектор. Text.ru — нейропомощника и проверку на нейрогенерацию. Создай проблему — продай решение. Бизнес-модель, которая работает надёжнее любого детектора.

Когда детекторы всё-таки работают

Ради полноты картины: при определённых условиях детекторы могут давать неплохие результаты. Вот эти условия.

Длинный нередактированный текст. Одна модель. Настройки по умолчанию. Никакого человеческого вмешательства — ни вычитки, ни правок, ни дополнений. То есть текст, который сгенерировали и опубликовали, не глядя. Это как детектор лжи: если подозреваемый будет сидеть неподвижно и монотонно читать заведомо ложное утверждение — да, полиграф зафиксирует отклонение. В реальном мире так никто не делает.

Ещё детекторы неплохо ловят тексты устаревших моделей — GPT-2, ранних версий GPT-3. Кто сейчас ими пользуется — вопрос открытый. Хвалиться антивирусом, который ловит вирусы из 2005 года, — так себе достижение.

Единственный технически обоснованный подход — водяные знаки (watermarking). Google встраивает метки SynthID при генерации, которые обнаруживаются при наличии ключа. Но водяные знаки работают только для текста, сгенерированного конкретной системой с включённой маркировкой. Перефразирование метку снимает. Open-source модели ничего не маркируют. Это инструмент провайдера для контроля собственного продукта, а не универсальное решение.

Неудобная математика

Есть фундаментальная проблема, которую коммерческие детекторы старательно обходят стороной.

Цель обучения языковой модели — генерировать текст, неотличимый от человеческого. Это не баг, не упущение — это буквальная целевая функция. С каждым поколением модели приближаются к цели. Sadasivan et al. (2023) показали теоретически: по мере того как качество генерации приближается к человеческому, различимость между машинным и человеческим текстом стремится к нулю. Не к «маленькому числу» — к нулю. Это информационно-теоретический предел, а не инженерная задача, которую можно решить лучшим алгоритмом или бо́льшим датасетом.

JISC (британский консорциум по ИТ в образовании) в 2025 году сформулировал прямо: «Значительных прорывов в технологии детектирования ИИ-текста не произошло» — притом что генеративные модели за это время сменили несколько поколений. Гонку вооружений детекторы проигрывают — и с каждым годом это всё более и более очевидно.

Кому это нужно

У индустрии детектирования ИИ-текста есть один неоспоримый результат: она исправно генерирует деньги. Студенты платят за «очеловечивание» текстов. Университеты — за подписку на детекторы. Копирайтеры теряют заказы из-за ложных срабатываний и платят за повторные проверки. Рынок сервисов по «обходу детекторов» вырос на 150 % к 2025 году. Все при деле — кроме тех, кого ложно обвиняют.

При этом ни одно серьёзное рецензируемое исследование не рекомендует использовать автоматические детекторы как доказательство. UCLA отказался внедрять ИИ-модуль Turnitin, сославшись на недостаточную точность. Brandeis University выпустил руководство, предупреждающее преподавателей о ненадёжности детекторов. OpenAI закрыл свой собственный сервис детектирования. Но коммерческие сервисы продолжают писать «98 %» на лендингах, а заказчики и деканаты продолжают в это верить — потому что хочется простого ответа на сложный вопрос.

Заключение

Если мой текст «слишком хорош для человека» — это проблема не текста, а критерия оценки. Если 72 тире на 17 000 знаков — «железное доказательство» нейрогенерации, то Цветаева — GPT в корсете, Довлатов — стохастический попугай в эмиграции, а весь литературный модернизм — массовая галлюцинация трансформерной архитектуры.

Детекторы ИИ-текста — цифровой эквивалент лозоходства. Наукообразный ритуал с перплексиями, энтропиями и n-граммами, убедительный для непосвящённых, но бесполезный для любого, кто потрудился проверить. Создатели самой мощной текстовой модели в мире не смогли построить работающий детектор и закрыли его через полгода. Это должно было стать точкой в дискуссии, но слишком много денег на кону.

Тексты надо оценивать по содержанию: по точности фактов, по глубине аргументации, по оригинальности мысли. И уж точно не по количеству тире и наличию типографских кавычек.

P.S. Этот пост содержит 102 длинных тире на 18,4 тыс. знаков.

Источники


  1. AUROC — Area Under the ROC Curve. Метрика качества детектора. Берём случайный ИИ-текст и случайный человеческий, показываем детектору — и смотрим, как часто он угадывает, где чей. 1,0 — угадывает всегда, 0,5 — монетка, 0,0 — всегда ошибается. 0,651 — угадывает чуть чаще, чем промахивается. Для медицинского теста такой результат считался бы неприемлемым, но для детектора ИИ-текста — вполне рабочий показатель. Видимо, стандарты качества в этой индустрии свои. ↩︎

Предыдущий пост
Наверх