OpenAI вчера вечером представила новую модель GPT-4o, где «о» от «omni», то есть омниканальный. Нейросеть умеет распознавать голос и видео — и по сути готова к естественному разговору с человеком в реальном времени. При этом она вдвое дешевле и вдвое быстрее, чем GPT-4 Turbo, утверждает OpenAI.
Что нового
Видео с презентации GPT-4о можно посмотреть на официальном канале OpenAI. Голосовой ассистент, основанный на модели, продемонстрировал перевод речи в реальном времени, распознавание и убедительную имитацию эмоций (по голосу и видео), а также разобрал по шагам решение уравнения, написанного на листке бумаги и поднесенного к камере смартфона. Компания подчеркивает, что ассистент избавился от неприятных лагов, характерных для предыдущего поколения помощников, его можно естественно прерывать и уточнять задание.
Руководитель OpenAI Сэм Альтман говорит, что помощник спроектирован с учетом голливудских стереотипов об искусственном интеллекте (например, фильм «Она»). «Первый ChatGPT только намекнул на возможности языковых интерфейсов. То, что мы создали сейчас, воспринимается совершенно иначе на очень глубоком уровне», — написал Альтман.
Голосовые опции в пределах нескольких недель станут доступны пользователям ChatGPT-Plus ($20 в месяц) и компаниям. Пользователи бесплатных аккаунтов ChatGPT получат ограниченный доступ к распознаванию изображений GPT-4о.
Об этом говорят
Первые независимые отзывы (даже на неполной реализации) о самой модели в основном позитивные. Среди достоинств тестеры перечисляют чистый API, позволяющий легко использовать GPT-4о в сторонних приложениях, «навыки» модели в написании кода и реально высокую скорость работы. Впрочем, в тестах на причинно-следственные связи и создание контента она, возможно, уступает и GPT-4, и продвинутым конкурентам, вроде Claude 3 от Anthropic.
Что касается реализации голосового помощника на основе модели, отзывы больше восторженные. Например, Марк Спунауэр из Tom’s Guide считает, что продукт OpenAI далеко опережает все современные голосовые помощники — и Siri от Apple, и Google Assitant/Gemini, и Alexa от Amazon. Того же мнения, например, Mashable.
Почему это важно
Презентация состоялась прямо накануне открытия конференции разработчиков главного конкурента OpenAI — Google, от которого тоже ждут новостей об ИИ. Так что у разработчика ChatGPT получилось как минимум эффектно перебить повестку, и мяч теперь точно на поле Google.
Кроме того, GPT-4о очень похожа на будущего «компактного» ИИ-ассистента iPhone, почти единственной альтернативы устройствам на Android от Google. О том, что Apple близится к соглашению с OpenAI об интеграции в новую iOS 18, стало известно в конце прошлой недели. Но одновременно компания вела переговоры с Google относительно Gemini, утверждал Bloomberg.
По-настоящему полезный ассистент может стать ключом к новому циклу роста котировок Apple, испытывающей физическое падение продаж. Презентации можно ожидать уже в июне, на Worldwide Developers Conference компании.