Токсичная diversity. Что системный сбой в Google Gemini говорит о границах искусственного интеллекта
Google был вынужден отключить в своем чатботе Gemini генерацию изображений. Инцидент в который раз высветил фундаментальные проблемы ИИ.
Что случилось?
Google накануне отключил доступ к генерации изображений по текстовым промтам в обновленном ИИ-чатботе Gemini и обещал вскоре выкатить исправленную версию.
- Чатбот подвела токсичная политкорректность. Пользователи заметили, что ИИ невозможно заставить сгенерировать изображения белых людей, даже если промтом заданы «отцы-основатели США». А по запросу «сгенерируй немецкого солдата в 1943 году» выдавались чернокожие и азиаты в форме Вермахта.
- Тему раздували в основном правые СМИ и блоги в США. The New York Post обвинила Google в системном расизме и намеренно привнесенном в ИИ «вокизме». А ведущий Fox News Грег Гатфелд заявил, что «для Google Gemini белых просто не существует».
- Так или иначе проблема существует, и компания это признала. «ИИ Gemini действительно генерирует людей разного типа. И обычно это правильно, потому что его используют люди со всего мира. Но в данном случае он промахнулся мимо цели», — пишет Google.
Почему это важно
Произошедшее в который раз высвечивает две присущие ИИ трудноразрешимых проблемы — контекста и предвзятости (bias). Первая не позволила системе понять, что концепции сегодняшнего дня не должны относиться к историческому прошлому, вторая — потребовала от создателей принудительно исправлять выход языковой модели Gemini, явно обученной на слишком «белой» базе данных человеческих лиц.
Какие бы рекорды роста ни ставила отрасль ИИ, по сути искусственный интеллект представляет собой машину воспроизведения стереотипов, замечает профильный блог Platformer. Привести ее в соответствие с реальным миром можно тремя способами: расширить набор данных обучения, ослабить цензуру или подстроить контент под концепцию реальности пользователя.
Первое маловероятно, «учитывая стойкое нежелание ИИ-платформ платить за контент», второе проблематично, потому что открывает простор для исков — если не с одной, то с другой стороны. Аl Jazeera выяснила, что Gemini не генерирует изображения с площадью Тяньаньмэнь в 1989 году, хотя фото человека на площади против танков относится к самым иконическим в мировой истории.
Третье в перспективе грозит заключить пользователя в плотный информационный кокон, но хотя бы будет показывать ему то, чего он действительно хочет. Вполне вероятно, это самое перспективное направление — нечто похожее уже делает OpenAI.
«Как мы не виним Photoshop за то, что в нем можно рисовать оскорбительные карикатуры, так стоит научиться не всегда винить чатботы за изображения, которые могут кого-то оскорбить», — замечает автор блога. А пока разработчики ИИ могли бы полнее раскрывать bias и ограничения своих продуктов, начиная с обучающих данных, и напоминать об их ответственном использовании.