Истории

Онлайн-расследование. Как отличить сгенерированный нейросетью контент от настоящего

6 августа 2023

i.pankratova@thebell.io

Валить все на нейросети и объявлять любую информацию фейковой стало общим местом. Фейком, созданным с помощью нейросетей, к примеру, назвал скандальную аудиозапись своего разговора с бизнесменом Фархадом Ахмедовым продюсер Иосиф Пригожин. В их разговоре признаков генерации контента нейросетью не было, но ввести в заблуждение миллионы людей с помощью этой технологии действительно легко. В этом выпуске рубрики «Онлайн-расследование» расскажем, как отличить сгенерированный контент от настоящего.

Инструменты — сайты онлайн-распознавания и углубленный анализ

Существует несколько очень легких в использовании сервисов для онлайн-проверки текстов и картинок на предмет генерации с помощью искусственного интеллекта.

Для текстов это Pr-cy, Copyleaks с отдельной функцией проверки работ из образовательной сферы, Gptzero с уклоном на проверку научных работ, Writer (платный, но с бесплатным тестовым периодом), Contentatscale и Originality.
Для картинок это Ai or not и Maybe's AI Art Detector. Последний инструмент, пожалуй, самый интересный. Он разработан британским сообществом Huggingface, объединяющим более сотни IT-специалистов по машинному обучению. На сайте сообщества множество информации и, главное, инструментов для углубленного изучения этой темы.
Сами нейросети тоже могут проверять, не создан ли контент с их помощью. Так, в чат GPT можно загрузить текст от 1000 знаков для проведения такого анализа. Еще один детектор такого типа — Crossplag. Как пользоваться чатом GPT и его аналогами, мы рассказывали здесь.

Но эти инструменты далеко не всегда эффективны. Если человек приложил минимальные усилия для улучшения контента, изначально созданного искусственным интеллектом, простые методы распознавания могут и не сработать. Например, текст можно доработать вручную или попросив ИИ изменить его тональность, добавить конкретные детали и эмоции. Картинку можно подправить в фоторедакторах. И тогда приведенные выше сайты вполне могут идентифицировать контент как уникальный.

Для таких случаев есть более сложные сервисы:

Giant Language model Test Room (GLTR) выделяет слова из топ-10, топ-100 или топ-1000 самых предсказуемых в использовании (впрочем, эксперты говорят, что и GLTR уже не очень хорошо распознает генерации от последней версии чата GPT).
Для картинок с изображением человека есть расширение, разработанное в Государственном университете Нью-Йорка, которое анализирует зрачок (о том, как генерируется личность человека с фото, мы рассказывали здесь).
Также для проверки контента на генерацию искусственным интеллектом подходят многие инструменты для выявления фейков, которые уже описывались в этой рубрике: проверка видео, фото, инструменты распознавания лиц, проверка личности онлайн-собеседника и пробив через телеграм-ботов.

Наконец, банальный, но эффективный совет: доверяйте своему самому первому ощущению, первому импульсу от взгляда на картинку. Это так называемый эффект «зловещей долины» — неприязнь и отвращение при виде объекта, который выглядит и действует похоже на человека, но не является им. Часто эта первая эмоция дает верный ответ на вопрос, был ли контент сгенерирован искусственным интеллектом.

Пять признаков сгенерированного контента

1. В тексте, сгенерированном ИИ, почти никогда не бывает опечаток и орфографических ошибок, там верно проставлены знаки препинания, не встретятся тире разной длины (- и —) или разные кавычки ("" и «»). В текстах, написанных живыми людьми, такая идеальная точность встречается редко.

2. Текст состоит из общих фраз, в нем нет конкретики, деталей, а если встречаются названия, то не в сокращенной и привычной форме, а целиком. Допустим, будет написано не «МГУ», а «Московский государственный университет им. М.В. Ломоносова». ИИ может сгенерировать аудиоразговор, видео и тем более фото и текст, но внедрять в него живые детали, наполненные эмоциями, вроде фраз из аудиозаписи Пригожина и Ахметова, пока не умеет.

3. Искусственный интеллект, особенно слабо разработанный, выдают дублирующие элементы: повторение слов и фраз или одинаковые детали на картинке. К примеру, после тестового запуска российского генератора картинок «Шедеврум» от «Яндекса» в топе по оценкам пользователей оказалось изображение руки с шестью пальцами как результат запроса «Нарисуй руку с пятью пальцами, не с четырьмя и не с шестью».

4. Как правило, ИИ генерирует изображения в плохом качестве. Если же разрешение высокое, картинку можно приблизить и рассмотреть детали. При увеличении станут заметны нестыковки вроде отсутствия теней, разрыва линий, резких перепадов цвета без градиента. Чаще всего искажения встречаются на фоне картинки, и вы сможете заметить, что горизонт или, допустим, фонарь вдруг пошли зигзагами. При создании изображения нейросети имеют свойство игнорировать законы физики и геометрии.

5. При генерации лица нейросеть, как правило, допускает хотя бы одну из следующих ошибок: создает сюрреалистический фон для портрета, размазывает участки волос, оставляет значительную асимметрию в деталях вроде глаз или сережек, смещает зубы, оставляет «шумы» в виде горизонтальных или вертикальных полосок на однотонных участках или градиент в зонах резкой смены цвета, например, между шеей и воротником. Углубиться в тему ошибок ИИ при генерации фотопортрета можно в этом коротком исследовании 2018 года (на английском языке).

Остается открытым вопрос о том, кого считать автором текста или изображения, сгенерированного искусственным интеллектом. Российские суды пока не склонны применять законы об авторском праве к такому контенту и относят его к общественному достоянию. При этом в международной практике автором может считаться как разработчик программы, так и пользователь, создавший запрос.

На этот вопрос попытался ответить и Google, выпустив в феврале 2023 года отдельные правила для сгенерированного ИИ контента. Общий смысл правил сводится к тому, что способ создания контента не так уж важен, но важно его качество. По этой причине поисковик старается отсекать слабые тексты, созданные при помощи ИИ, так же как и некачественный контент, созданный человеком. При этом Google оставляет на усмотрение создателей контента, указывать ли свое авторство и ставить ли пометку об использовании ИИ при создании контента, но настоятельно не советует называть автором искусственный интеллект.

Домашнее задание

Пройдите тест екатеринбургского медиа E1 на распознавание картинок, сгенерированных искусственным интеллектом. После каждого ответа вы увидите пояснение о том, откуда взято изображение и почему вы могли неверно его распознать. Закрепить навыки можно прохождением еще одного похожего теста. Лучше всего в распознавании сгенерированного контента помогает насмотренность. Чем чаще вы проверяете и различаете такие изображения, тем проще вам становится это делать. Для постоянной тренировки можно использовать сайт Which face is real. Впрочем, последние исследования показывают, что даже после изучения инструментов выявления фейков более 40% людей не справляются с этой задачей.

Что мне с этого?

Контент, сгенерированный нейросетями, становится все менее отличим от настоящих фото и текстов. Нейросети пишут дипломы за студентов, ведут соцсети за smm-менеджеров и генерируют картины. Это открывает новые просторы для манипуляций и мошенничества. Вероятно, со временем контент от искусственного интеллекта и правда станет неотличим от «живого». Но пока что признаки сгенерированной информации помогут вам избежать обмана как в новостях и соцсетях, так и в личном общении, а также проверить исполнителей ваших задач.

— The Washington Post проанализировала данные о расовой принадлежности студентов в восьми штатах за 30 лет. Целью этого дата-исследования была оценка эффективности обязательных квот при приеме студентов как меры борьбы с расовой дискриминацией. Недавно Верховный суд США признал неконституционной «позитивную дискриминацию» (affirmative action) — то есть преимущества для представителей не белой расы при поступлении в высшие учебные заведения. Это решение подверглось большой критике, однако журналисты The Washington Post приходят к выводу, что в штатах, где квоты существовали, проблема малой представленности расовых групп так и не была решена. При этом часто при отказе от квот этническое разнообразие в учебных заведениях увеличивалось.

— Медиа о преступности в Северной и Южной Америке InSight Crime связывает рост уровня преступности в Парагвае (увеличилась на 10% с января по март 2023 года) с переполненностью тюрем. Там находится более 16 тысяч человек при официальной вместимости менее 10 тысяч. При этом две трети заключенных только ожидают приговора, и это самый высокий показатель в Южной Америке. Кроме того, переполненность тюрем увеличивает число ОПГ внутри них. Крупнейшая из таких, пишет InSight Crime, это «Первое столичное командование». Эта ОПГ образовалась в Бразилии в 90-е изначально для самозащиты заключенных после резни в тюрьме Карандиру в Сан-Паулу. Теперь же она распространилась на тюрьмы в Парагвае и взяла под контроль многие маршруты торговли людьми в Южной Америке.

— Агентство Reuters визуализировало статистику высоты и структуры газонов на крупнейшем в мире теннисном Уимблдонском турнире. По подсчетам журналистов, с годами трава становилась все более гладкой, и это обеспечивало большую скорость мяча при его отскоке от поверхности корта.

#онлайн-расследование

Онлайн-расследование. Как отличить сгенерированный нейросетью контент от настоящего

Инструменты — сайты онлайн-распознавания и углубленный анализ

Домашнее задание

Что мне с этого?

Что нового журналисты узнали с помощью открытых данных