Онлайн-расследование. Можно ли доверять персональные данные ChatGPT? / 08.09.2024

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+

Когда вы формируете запросы ChatGPT, он сохраняет их в памяти. ChatGPT и подобные сервисы собирают информацию о ваших предпочтениях и интересах, формируют для себя ваш профиль, чтобы подстраивать свои ответы под вас. Специально для нашей регулярной рубрики «Онлайн-расследование» специалисты «Роскомсвободы» рассказывают, безопасно ли делиться данными с ChatGPT и другими большими языковыми моделями.

В предыдущем тексте в этой рубрике «Роскомсвобода» рассказывала, как обходить замедление YouTube.

Инструменты

Разработчики больших языковых моделей часто утверждают, что собранная информация используется только для ответов в определенном аккаунте. OpenAI (разработчик ChatGPT), в частности, предусматривает опцию отказа от использования данных для тренировки модели, но для этого пользователь должен деактивировать эту функцию.

Чтобы отключить обучение модели, нужно перейти к значку своего профиля в левом нижнем углу страницы, выбрать «Настройки» > «Управление данными» (Settings > Data Controls) и отключить параметр «Улучшить модель для всех» (Improve the model for everyone). Пока эта функция отключена, ваши новые разговоры не будут использоваться для обучения моделей. Но даже в этом случае компания может хранить данные до 30 дней для выявления злоупотреблений, и уже после этого они удаляются.

Google и Microsoft тоже уверяют, что запросы обрабатываются только в пределах пользовательской сессии. Но нужно понимать, что риски все же остаются. Алгоритмы, по которым работают нейросети, по своей природе непрозрачны, и иногда сами создатели моделей не могут точно ответить, как именно они формируют ответ.

Как работают ChatGPT и другие большие языковые модели

ChatGPT и другие LLM (Large language models, большие языковые модели) — это нейросети с множеством параметров, которые генерируют текст по вашему запросу. Нейросети представляют собой модели искусственного интеллекта, которые по своему функционированию напоминают работу нейронов в головном мозге человека.

Чтобы правильно и четко отвечать на вопросы пользователей, большие языковые модели обучаются на огромном количестве материала. Помимо того что в процессе задействованы люди, для обучения используется информация с общедоступных сайтов, из баз данных и открытых библиотек специализированных платформ.

Данные, на которых учатся языковые модели, собираются откуда только возможно: это статьи, книги, сайты, научные публикации — те ресурсы, которые предусмотрены разработчиком. Тексты разбиваются на маленькие кусочки (токены), на них проще учиться. Потом текст стандартизируется — сглаживаются различия в преподнесении информации, пунктуации и орфографии.

Особый вид нейросетей, предусмотренных для языковых моделей, может различать не только текст, но и контекст. Чем больше материала, тем больше информации и тем больше такие нейросети способны понимать специфику конкретной ситуации. Каждый из нейронных уровней нейросети распознает специфические паттерны в тексте и учится предсказывать последующие слова в тексте. Если предсказание сделано неправильно, алгоритм отправляет ошибку обратно, а модель снова пробует предсказывать, все больше совершенствуясь.

Для тестирования и настройки моделей для решения конкретных задач могут использоваться специализированные наборы данных (benchmark datasets).

Помимо обучения на сторонних ресурсах, модели учатся на запросах пользователей. Может, вы замечали, что, формируя запрос чату, вы время от времени получаете сообщение, что его память обновлена (Memory updated)? Это значит, что информация, которая вводится в ChatGPT, может быть использована для формирования ответа как вам, так и другому пользователю.

В разделе вопросов и ответов разработчики рекомендуют не делиться чувствительной информацией с чатом. Такую информацию невозможно удалить, если она была добавлена при формировании запроса. Запросы можно удалить из истории только со стороны пользователя, но на серверах они останутся.

Примеры

Недавно Microsoft и OpenAI опубликовали отчет, в котором рассказали о выявленных угрозах со стороны хакерских группировок, связанных с Северной Кореей, Китаем, Россией и Ираном. Связанные с ними аккаунты OpenAI были заблокированы. Эти группы использовали сервисы для различных задач, таких как сбор открытой информации, перевод, поиск ошибок в коде и выполнение базовых программных задач. Они исследовали инструменты кибербезопасности, создавали сценарии и контент для фишинговых атак, переводили технические документы, искали информацию о разведывательных агентствах и экспертах в области обороны, исследовали протоколы спутниковой связи и технологии радиолокационного изображения.

Нужно быть осторожным и если вы загружаете в языковую модель материал, который может быть защищен авторским правом. Некоторое время назад The New York Times подала иск к OpenAI и Microsoft. Мало того что модель обучалась на статьях под копирайтом без разрешения, на выходе ChatGPT выдал почти дословное воспроизведение авторских статей.

Делится ли ChatGPT информацией с государством? Точный ответ дать нельзя. Юрисдикция OpenAI и других крупных языковых моделей от Google, Microsoft и запрещенной в России Meta — США. По американским законам, бизнесы в целом не обязаны делиться данными с государством, но есть исключения: например, при расследовании уголовных преступлений и в целях национальной безопасности. При этом запрос со стороны государства может быть оспорен.

Но к разработчикам искусственного интеллекта есть и другие требования, перечисленные в указе президента США от 30 октября 2023 года. Согласно им, разработчики самых мощных систем искусственного интеллекта должны делиться результатами своих испытаний на безопасность и другой важной информацией с правительством США.

Если же вы используете языковую модель китайского происхождения, история будет обратная. Китайские разработчики обязаны предоставлять все данные государству, если это необходимо.

По российским законам, сервисы, которые попадают в специально созданный реестр организаторов распространения информации, обязаны хранить информацию о пользователях, переписку и другие данные и предоставлять их правоохранительным органам по запросу. Поскольку в этом реестре сейчас находятся «Яндекс», VK и другие компании, разрабатывающие модели искусственного интеллекта, то обмен информацией вполне вероятен.

Меры предосторожности

Специалисты «Роскомсвободы» не рекомендуют делиться с ИИ-сервисами чувствительной и личной информацией. В частности, не нужно использовать персональные данные при формировании запроса.
Также лучше деактивировать функцию использования данных для тренировки модели в настройках. Эта функция доступна и в платной, и в бесплатной версии.
Чтобы больше обезопасить себя, можно скачать ChatGPT на личный сервер или на устройство. Чтобы избежать нарушений авторских прав, специалисты также рекомендуют использовать локальную версию. Но полностью обезопасит только созданная самостоятельно модель с собственными открытыми для использования исходными данными.
Если ваш аккаунт плохо защищен, к нему могут получить доступ злоумышленники. Поэтому в силе все рекомендации по генерации сложных паролей и защите от взломов.

Безопасно ли пользоваться онлайн-переводчиками

При использовании онлайн-переводчиков стоит внимательно читать правила, чтобы решить, доверяете ли вы конкретному разработчику. Например, в правилах пользования Google Translate написано, что данные пользователей не обрабатываются, Google не хранит их, и данные используются только для перевода. Но и в этом случае нужно понимать, что Google собирает огромное количество данных о пользователях в рекламных целях. И хотя данные в процессе обезличиваются, в теории идентифицировать пользователя можно и по косвенным данным.

Недавно в Евросоюзе был принят закон, обязывающий технологические корпорации брать отдельное согласие у пользователей на обработку их данных при пользовании каждым сервисом, и обрабатывать данные отдельно. Но пока он действует только в ЕС, а для остальных стран по умолчанию данные собираются в один большой профиль — получается, что какие-то анонимизированные данные из переводчика, тем не менее, могут быть туда добавлены.

В основе онлайн-переводчика — модель искусственного интеллекта, и ей необходимо обучаться. А обучается она на запросах пользователей. Та же Google уже заявляла, что текст, отправленный в Google Translate, не используется для создания профилей пользователей или для целевой рекламы, но сервис может регистрировать запросы на перевод. Эти данные обычно используются для улучшения сервиса и обеспечения его функциональности. Но обработанная информация все равно может быть проанализирована алгоритмами, что вызывает опасения относительно конфиденциальности данных.

А если онлайн-переводчик создан в России и компания-разработчик находится в реестре организаторов распространения информации (ОРИ), тогда она будет обязана предоставлять данные правоохранительным органам.

— The New York Times на основании спутниковых снимков, данных из соцсетей и других публичных записей оценила масштабы скопления вооружений на сухопутных границах Китая. По оценке журналистов, Пекин «незаметно укрепляет контроль на отдаленных рубежах», построив более 50 новых деревень вдоль западных границ, в том числе 12 — в районах, на которые претендуют другие страны. Кроме того, в 100 уже существующих приграничных деревнях построили новые дома для размещения так называемых «пограничников».

— Газета Efimerida ton Syntakton проанализировала ситуацию с лесными пожарами в Греции, где их число ежегодно растет. 12 августа огромный пожар, достигший окраины Афин, вынудил эвакуировать жителей 25 микрорайонов. На следующий день пожар разросся так, что чуть не достиг национальной обсерватории Афин, которая и отслеживает пожары. По подсчетам журналистов, греческое правительство распоряжается самый большим за последние годы бюджетом на охрану от лесных пожаров. Тем не менее 30% административного региона Аттика, где расположены Афины и проживает не менее 40% населения страны, были уничтожены лесными пожарами. В Афинах один из самых низких показателей зеленых насаждений на душу населения в мире, даже хуже, чем в городах, расположенных в пустынях, таких как Лас-Вегас и Дубай, отмечают журналисты, поэтому последствия пожаров для Афин особенно губительны.

#онлайн-расследование

Онлайн-расследование. Можно ли доверять персональные данные ChatGPT?

Инструменты

Примеры

Меры предосторожности

Безопасно ли пользоваться онлайн-переводчиками

Что нового журналисты узнали с помощью открытых данных