Цифровая диктатура для россиян, как создать правдоподобного бота и читают ли спецслужбы Telegram

Тема выпуска — стоит ли бояться искусственного интеллекта Роскомнадзора

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+

На этой неделе сразу несколько российских независимых медиа выпустили расследования на базе масштабной утечки данных из Роскомнадзора. Из этих материалов стало известно, как сейчас устроена машина цензуры в рунете и как, по планам РКН, она будет работать через несколько лет. За поиск запрещенного контента в соцсетях и в видео, по задумке, будут отвечать нейросети, а еще одна ИИ-система будет предсказывать, где и когда могут начаться протесты. Рассказываем, как, по задумке властей, будет работать искусственный интеллект для цензуры и получится ли осуществить все эти планы на практике.

Цензура утекла

Расследования о работе и планах Роскомнадзора на этой неделе выпустили «Важные истории» (признаны в России нежелательной организацией), «Медиазона», «Настоящее время» (признаны СМИ-иноагентами) и «Агентство». Каждое из медиа опубликовало свою серию текстов о том, как устроена машина цензуры Роскомнадзора. Все эти материалы основаны на данных устроенной «Киберпартизанами» утечки из Главного радиочастотного центра (ФГУП ГРЧЦ), фактически исполнительного органа РКН.

Пара слов о самой утечке и ее авторах: о взломе ГРЧЦ в ноябре 2022 года объявила группа белорусских хакеров-активистов «Киберпартизаны». Эта группа появилась в 2020 году во время протестов в Беларуси против фальсификации президентских выборов. В прошлом году она присоединилась в борьбе с Россией к украинской IT-армии (подробнее о ней мы рассказывали тут). «Киберпартизаны» утверждали, что взломали внутреннюю сеть подведомственной РКН конторы и выкачали оттуда более двух терабайт данных. В утечку попали письма сотрудников и внутренние документы ГРЧЦ. Их хакеры и передали журналистам. Утечка была названа «Документы российской цензуры» (RussianCensorFiles).

В утечку попало много занимательной (но и общественно значимой) информации. Например, выяснилось, что:

  • С началом войны российскими ведомствами приоритетно отслеживаются «материалы с критикой СВО, создающие предпосылки для паники и нарушения общественного порядка». К ним относят сообщения об убийствах мирного населения Украины, уничтожении социальной инфраструктуры, потерях российской армии и отказе от участия в боевых действиях. Другие приоритетные темы мониторинга — мобилизация, протесты в регионах и негатив о чиновниках.
  • Первичный поиск «проблемных» постов сейчас ведется полуавтоматически — с помощью довольно примитивных фильтров по ключевым словам, а отбраковываются и сортируются результаты вручную. Однако в поиске информации ведомству активно помогает система мониторинга Brand Analytics — ее технологии позволили ГРЧЦ составить сотни отчетов. Центру пришлось купить у компании максимальный тариф, который позволяет выгружать до 5 млн материалов в месяц.
  • Существует большой отдел, занимающийся выявлением критики в соцсетях лично Владимира Путина, определением трендов с прогнозами того, что такую критику вызывает. Отдельно и очень тщательно мониторятся все упоминания о здоровье президента. Высокие всплески дают достаточно скромные инфоповоды — например, интервью политолога Валерия Соловья об онкологии у президента.
  • ГРЧЦ готовил справки об «иноагентах» для Минюста задолго до начала массового присвоения этого статуса во второй половине 2021 года. Например, справка по The Bell была составлена за два года до признания нас иноагентом.
  • С начала войны по 10 ноября Роскомнадзор нашел в интернете 169 тысяч «фейков» и 40 тысяч призывов к протестам. Удалены соответственно 102 и 27 тысяч, заблокированы 15 600 и 3200.

Отдельный интерес представляют собой попытки ГРЧЦ создать для «Роскомнадзора» сложносочиненную систему мониторинга рунета с помощью нейросетей, которая была бы способна предсказывать, когда и где могут случиться протесты и другие события, которые в РКН считают угрозами.

Нейросети для цензуры

Пока что большую часть работы по надзору за российским интернетом Роскомнадзору, судя по документам утечки, приходится делать вручную. Но в ведомстве уже давно поняли, что это не дело, — и начали придумывать, как контроль можно автоматизировать.

За основу своих автоматизированных систем мониторинга (дальше по тексту будем называть их АС) в ГРЧЦ, который занимается всеми этими проектами, решили взять нейронные сети. Главная их задача — сделать так, чтобы у РКН появился инструмент для слежки не только за оппозиционерами, но и за всеми пользователями рунета.

Еще одна задача, которую поставило перед собой ведомство, — научиться с помощью ИИ-систем предсказывать, «с чем мы столкнемся через несколько лет».

Для этого в ГРЧЦ придумали сразу три ИИ-системы.

  • Первая — АС «Вепрь» — должна искать «точки информационного напряжения» и строить прогнозы, где и когда могут начаться проблемы (то есть протесты).
  • Вторая — АС «МИР» — должна полностью автоматизировать поиск запрещенной информации.
  • Третья — АС «Окулус» — должна искать на фото и видео оскорбляющие власть картинки, призывы к митингам и распознавать лица оппозиционеров.

Несколько деталей про АС «Вепрь»:

  • Обоснование для этого проекта готовила группа исследователей из Московского физико-технического института (МФТИ) под руководством главы кафедры машинного обучения и цифровой гуманитаристики Константина Воронцова. В их отчете отмечается, что в мире уже есть продвинутые системы цензурирования интернета (в качестве примера, конечно, приводится Китай), но в России можно сделать свою.
  • Разработчик для системы нашелся уже другой — контракт получила компания «НеоБИТ» из Петербурга, которая занимается разработкой систем кибербезопасности, а в прошлом году получила контракт от ФСТЭК, пишет «Медиазона».
  • «Вепрь», по задумке, — это нейросеть, которая анализирует данные из соцсетей и СМИ и ищет в них некие «точки информационной напряженности». Уже на их основе система должна строить прогнозы, куда ситуация может развиться, и если находит «информационную угрозу» — передает сигнал «уполномоченным органам».
  • Есть список из 100 тем, за которыми «Вепрь» должен следить, среди них — угрозы территориальной целостности, фейки и негатив про первых лиц, дискредитация традиционных ценностей.
  • По плану «Вепрь» должен быть готов к запуску в конце 2024 года, но даже в самом ГРЧЦ считают такой срок нереалистичным — из-за санкций, текущей экономической ситуации и потому что нужные специалисты «подключены на выполнение особо важных запросов от правительственных структур РФ в условиях продолжающейся спецоперации ВС РФ на Украине».

Несколько деталей про АС «МИР» («Мониторинг информационных ресурсов»):

  • Это еще одна система, которая будет работать параллельно с «Вепрем». Вместе они будут анализировать один и тот же набор данных, которые будет собирать краулер — специальный софт для автоматического сбора данных в сети.
  • АС «МИР» должна автоматизировать поиск запрещенной информации. Вручную и классической автоматизацией решить эту задачу невозможно, для этого нужен именно ИИ, посчитали в ведомстве.
  • Она должна определять тональность сообщений об определенных людях и организациях, конкретный сюжет, отслеживать пути распространения информации и искать зеркала запрещенных сайтов. А еще — определять «манипуляцию мнением».
  • Эту нейросеть вроде как уже начали активно обучать еще прошлым летом, но свидетельств того, что она уже ищет для РКН запрещенные сведения, касающиеся именно политических тем, в утечке нет, пишут «Важные истории».

Несколько деталей про АС «Окулус»:

  • Сейчас оскорбительные мемы и картинки сотрудники РКН ищут вручную. Автоматизировать этот процесс должна система «Окулус».
  • Она должна будет анализировать 200 тысяч картинок в сутки. Искать ей, помимо всего прочего, придется призывы к митингам, «оправдание, призывы к насильственному свержению власти» и разнообразные оскорбления президента. Причем из внутренних презентаций следует, что распознавание протестной активности — основная цель создания системы.
  • На ее разработку до 2024 года планируют потратить 445 млн рублей. Правда, в августе ведомство заказало разработку аналогичной системы компании «Эксикьюшн Эр Ди Си» всего за 58 млн рублей. Эксперты тогда сразу говорили, что это слишком мало.
  • Свидетельств о том, что «Окулус» уже запущен, в утечке нет, однако есть данные, что с лета 2022 года сотрудники активно размечали наборы данных для обучения нейросети. По планам ведомства, уже к 2024 году «Окулус» должен научиться работать не только с фото, но и с видео.

Подробнее о том, как РКН видит устройство своей сложной системы автоматизированных систем по поиску и борьбе с информационными угрозами, читайте у «Важных историй», «Медиазоны» и «Агентства».

Цифровой концлагерь

Судя по попавшим в утечку письмам и документам, ни одна из ИИ-систем Роскомнадзора еще полноценно не используется. Ведомству и его подрядчикам еще предстоит большая работа по сбору данных, их разметке и обучению нейросетей. И даже в самом ГРЧЦ сомневаются, что проблем на этом пути у них не будет.

Кадровый голод у ведомства начался еще до войны: в переписке от 2020 года сотрудник ГРЧЦ просит коллегу «законтачить на дружеских, альтруистских началах» с несколькими экспертами по нейросетям. На что получает ответ, что их «скорее всего, пошлют» — нет денег, интересных проектов, да и имидж у РКН страдает. Другой сотрудник предлагал хантить экспертов обещаниями проектов госмасштаба «в т. ч. негласно — „общая тайна“ с ощущением причастности к чему-то большому». И шансом «зайти в нужный кабинет встретиться с высокими руководителями». Но сработала ли эта тактика — неизвестно.

В целом создать подобные системы вполне реально, считают все опрошенные The Bell специалисты. Для того чтобы они появились, ведомству необходимо лишь достаточное количество хороших специалистов и большой объем качественно размеченных данных, которые нужны для обучения нейросетей. Для второго ГРЧЦ использует сервис «Яндекса» — «Толоку». Это краудсорсинговая платформа, где добровольцы за небольшие вознаграждения как раз и размечают данные для машинного обучения (в «Яндексе» утверждают, что если РКН и использовал сервис, то на общих основаниях, как и любой другой заказчик на платформе).

«В целом „Толока“ — хороший вариант для решения такой задачи, но есть сомнения, что РКН тут поможет краудсорсинг», — считает один из собеседников The Bell. Велик шанс, что неподконтрольные исполнители для такой задачи решат испортить процесс, объясняет он.

Кроме того, эффективность этих систем будет сильно зависеть от того, кто конкретно ее будет делать. Пока что среди исполнителей самых продвинутых компаний, разрабатывающих ИИ-технологии, нет. «В России пока не так много специалистов, которые были бы готовы заниматься этим для государства. Плюс накладываются бюрократические препоны, всегда сопутствующие работе с государственной разработкой», — говорит один из собеседников The Bell.

«Нет причин, почему бы у РКН не получилось сделать автоматизацию мониторинга. Для этого есть все: и компании, и специалисты, и даже железа достаточно — пусть не топового, но какое-то точно найдется. Будут там и нейросети, и методы попроще», — рассуждает другой эксперт по ИИ. А вот в то, что у ведомства получится хорошая система прогнозирования «информационных угроз», он верит с трудом: «Это задача сама по себе сложная». Отдельный вопрос, как оценивать качество этих прогнозов. Главная проблема всех алгоритмов в том, что они — вероятностные, а значит, даже у хорошей нейросети бывают осечки. И большой вопрос, как с этими ошибками будут работать в РКН. «Правда, вполне возможно, для них эта проблема будет делом десятым: сначала посадят, потом разберутся», — иронизирует он.

В России сейчас достаточно компаний и специалистов, которые могут справиться с разработкой заказанных ГРЧЦ нейросетей, Кого-то из них в любой момент, можно попросить (или заставить) ведомству помочь, предупреждает собеседник The Bell. «Для того чтобы собрать как-то работающие ИИ-системы, не нужно быть специалистом мирового уровня», — рассуждает он. В России уже есть хорошо сделанные системы распознавания лиц — будут и системы распознавания видео. «Недооценивать их я бы не стал. Идем к цифровой диктатуре».

Онлайн-расследование

Как генерируют фейковые личности

Один из способов, которым ГРЧЦ планирует собирать информацию для РКН, — это бот-фермы. Причем сам проект в документах ведомства так прямо и называют бот-фермами. Боты РКН должны будут работать так, чтобы успешно выдерживать проверку при вступлении в закрытые группы и сообщества (откуда планируют собирать недоступную другими способами информацию).

Как решить эту задачу, знает специальный корреспондент The Bell Ирина Панкратова. В новом выпуске своего еженедельного проекта «Онлайн-расследование» она рассказывает, как создать достоверную фейковую личность — и как ее распознать.

Соцсети уже научились распознавать и блокировать фейковые аккаунты. Где-то, например во «ВКонтакте», с этим справляются хуже, но решают проблему, выдавая метки-галочки публичным персонам, чтобы их странички выделялись из массы фейков. В Instagram фейки часто блокируют автоматически, на этапе загрузки на аватарку чужого фото, уже использованного в других аккаунтах. Так что практика создания аккаунтов с чужими фото постепенно теряет смысл. Но на смену ей приходят новые технологии: генераторы фейковых личностей — имен, лиц, фотографий, картинок и даже целой биографии — людей, которых в реальности никогда не существовало.

О том, как распознавать вымышленные личности, а также как сделать такую для себя, читайте здесь.

МЕССЕНДЖЕРЫ

Имеют ли силовики доступ к перепискам в Telegram

​​В начале февраля на Wired вышел текст под заголовком «Кремль зашел в чат» — про то, как силовики с помощью Telegram следят за каждым шагом активистов и простых пользователей самого популярного в России мессенджера. В этой истории было две главных претензии к компании Павла Дурова: первая — что за пользователями Telegram следят с помощью API-инструментов мессенджера, вторая — что к секретным чатам на самом деле могут иметь доступ российские спецслужбы.

В первом случае речь идет об инструментах, доступных для сторонних разработчиков. С их помощью действительно можно получить информацию о пользователе. Но речь здесь идет только об «открытой» части Telegram — открытых чатах (в них можно найти, например, сообщения, которые оставлял пользователь). Но доступа к закрытым чатам или личным перепискам он не дает.

Во втором случае ситуация сложнее: с одной стороны, достоверно утверждать, что у силовиков нет доступа к перепискам российских пользователей, сложно (на это у нас есть только утверждения Telegram). С другой — Wired основывает свой вывод только на показаниях активистов: кому-то из них о взломе чата с коллегами рассказал следователь, кто-то утверждает, что его сообщения оказывались прочитаны даже тогда, когда получатель их точно не читал. Однако только на этом основании утверждать, что силовики имеют доступ ко всем перепискам, — странно. Как минимум у подобных случаев могут быть другие причины: например, информатор в чате или физический доступ к чьему-то устройству. Так что всегда стоит помнить, что все, написанное в группах, пусть и закрытых, всегда может быть в итоге прочитано теми, на кого вы не рассчитывали.