Создатели ИИ удивлены тем, как думают их модели — FT

24 июня 2025

Источник:

The Bell

Современные большие языковые модели по определению являются нейросетевыми «черными ящиками». Их внутренние процессы неочевидны или даже практически непознаваемы, а спросить ИИ о том, как они получают результат, это по сути то же самое, что попросить человека составить карту собственных синапсов. Тем не менее все ведущие разработчики пытаются понять, что происходит внутри на самом деле, и получают интересные результаты с помощью анализа «цепочек мыслей» (chains of thought, CoT) пишет Financial Times.

Интеллект в пространстве смыслов

ИИ-стартап Anthropic (языковая модель Claude) адаптировал не только CoT, но и инструменты нейропсихологии, чтобы выявить «интерпретируемые концепции» внутри ИИ. Основные выводы:

ИИ способен «думать» на языке. Но это не естественный язык, а общее концептуальное пространство смыслов — «язык мысли». Это означает, что модель может узнать что-то новое на одном естественном языке и свободно выдать результат на любом другом.
ИИ, задуманный как очень продвинутая машина предсказания следующего слова в тексте, уверенно преодолел эти пределы. Когда модель пишет стихи, она имеет в виду далекую рифму и подбирает под нее текущее слово.
ИИ способен уходить от формальной логики и убедительно давать (неправильный) ответ, соответствующий ожиданиям человека.
Кроме того, оказалось, что лингвистическая модель знает арифметику вовсе не потому, что зазубрила таблицу умножения или аксиомы Пеано. Оказалось, что самое простое сложение внутри модели задействует совершенно экзотические пути рассуждения, но если спросить ее о том, как достигнут результат, она ответит примером из учебника. Это показывает, что у нее «в голове» собралась своя арифметика, а объяснение результата существует отдельно от нее, пишут ученые.

Исследование тем ценнее, что его выводы контринтуитивны — исследовали ожидали, что ИИ окажется простой предсказательной машиной, и не исключали, что внутри отдельно существует, например, «английский» или «китайский» ИИ. И внезапно выяснили, что предпосылки некорректного поведения модели — не в ее устройстве, а в заданном ей некорректном вопросе.

Почему это важно

OpenAI прямо называет мониторинг CoT «одним из немногих оставшихся инструментов контроля некорректного поведения сверхразумного ИИ в будущем» и предельно серьезно предостерегает разработчиков от их прямой оптимизации. Прежде всего потому, что анализ «чистой» CoT дает намного больше возможностей поймать некорректное поведение модели, чем просмотр конечных результатов. «Улучшение» способно такое поведение замаскировать.

В таком случае велик шанс получить ИИ типа «злонамеренного джинна», который будет всемерно эксплуатировать любые лазейки в поставленных задачах, а не совершать полезную работу. Исследователи OpenAI уже видели такое поведение у моделей, заточенных под написание программного кода.

Это особенно важно для ИИ-аватаров, выполняющих функции человека — от ответов на письма до трейдинга на бирже — за него самого. В Anthropic назвали такое поведение agentic misalignment: модели прибегали к обману, шантажу или даже утечкам информации конкурентам, когда не видели другого способа достижения цели. Причем они не подчинялись прямым командам избегать такого поведения и были больше склонны к misalignment, если считали задачу реальной, а не тестовой.

#искусственный интеллект #технологии

Скопировать ссылку

Технорассылка

Черная неделя рунета, Сэм Альтман в огне и создатель приватного AI в проекте «Это Осетинская»

три часа назад

Источник:

The Bell

Роскомнадзор идет на рекорд, как будто до Нового года ведомству надо выполнить KPI по блокировке всех каналов для защищенного общения, которые еще доступны россиянам. За неделю список жертв российских властей пополнили WhatsApp, Roblox, FaceTime и Snapchat. Все это отлично вписывается в проводимую политику по закручиванию гаек, но такой плотной работы по суверенизации рунета мы еще не видели. О чем говорит такая бурная активность и чего ждать дальше? Разбираемся в новом выпуске Технорассылки.

Партнеры The Bell

Зачем бизнесу VPN: как повысить эффективность команды и безопасность данных

6 ноября 2025

Источник:

The Bell

В январе 2025 года хакеры слили в сеть 15 тысяч VPN-паролей сотрудников нескольких компаний, которые пользовались VPN для удаленного доступа. VPN-провайдер пострадавших компаний не заметил уязвимость в коде, из-за которой его клиенты стали жертвой атаки. С такими угрозами сталкиваются не только корпорации, но и средние предприятия — в попытке защитить ценную информацию бизнес обращается к VPN-провайдерам, но не всегда может понять, кому можно доверять.

Итоги недели

Переговоры с Уиткоффом и Кушнером, санкции снова обходятся и Россия в черном списке ЕС

6 декабря 2025

Источник:

The Bell

Визит в Москву Стива Уиткоффа и Джареда Кушнера поставил точку в попытке США добиться перемирия в Украине стремительным наскоком. Владимир Путин высказал американцам свои прежние требования, на которые Украина пока не готова соглашаться, и уехал с визитом в Индию. Эффект последних американских санкций против российских нефтяных компаний начинает выдыхаться по мере того, как экспортеры находят новые пути к покупателям, а европейцы, похоже, окончательно зашли в тупик в вопросе о кредитовании Украины за счет российских арестованных резервов.

Создатели ИИ удивлены тем, как думают их модели — FT

Интеллект в пространстве смыслов

Почему это важно

Черная неделя рунета, Сэм Альтман в огне и создатель приватного AI в проекте «Это Осетинская»

Зачем бизнесу VPN: как повысить эффективность команды и безопасность данных

Рассылки The Bell стали платными. Подписывайтесь!

Переговоры с Уиткоффом и Кушнером, санкции снова обходятся и Россия в черном списке ЕС