«Она»: что умеет GPT-4o и какое у нас с ней будущее
НОВАЯ ФЛАГМАНСКАЯ МОДЕЛЬ GPT-4O ОБЛАДАЕТ БОЛЬШЕЙ ЧЕЛОВЕКОПОДОБНОСТЬЮ.
В январе 2024 года Сэм Альтман, выступая на программе Y Combinator, посоветовал командам не сосредотачиваться на ограничениях GPT-4 при создании новых продуктов, так как в следующей версии модели большинство ограничений будет устранено.
После новой презентации OpenAI стало ясно, что Альтман намекал на новую флагманскую модель GPT-4o, которая теперь еще более человекоподобна. Наиля Аглицкая изSETTERS Mediaразбиралась, что изменилось и как теперь выглядит наше будущее.
СЛЫШИТ, ВИДИТ, ГОВОРИТ
GPT-4o теперь умеет одновременно работать с текстом, звуком и видео. Раньше модель обрабатывала разные типы данных по отдельности, и это ее ограничивало. Например, если вы говорили с ChatGPT, пользуясь голосовым вводом в приложении, то он понимал только слова и не учитывал интонации и эмоциональность речи. Если вы присылали чат-боту изображение, он его анализировал, не сопоставляя с аудиоконтекстом. ChatGPT мог поддерживать диалог через текст, голосовые транскрипции и изображения, но ему не хватало способности понимать и интерпретировать в реальном времени невербальные сигналы — язык тела и интонации говорящего, которые составляют значительную часть коммуникации.
Модель GPT-4o собирает эти модальности — текст, звук и изображение — воедино в реальном времени (потому в названии использовали букву «о», то есть omni — приставка, обозначающая объединение всего). GPT-4o понимает не только что вы говорите, но и как вы это говорите: учитывает тон вашего голоса, выражение лица и даже фоновые звуки. Пользователь получает не просто ответы на вопросы, а полноценное общение, в котором ИИ улавливает эмоции собеседника и адаптируется под его настроение. Чат-бот может, например, похихикать вместе с человеком. На презентации GPT-4o также просили рассказать историю «драматично», голосом робота и пропеть ее.
Средняя скорость реагирования модели на речь — 320 миллисекунд. Это сопоставимо с реакцией человека в живом разговоре. Можно, например, прервать чат-бота в середине ответа, чтобы задать уточняющий вопрос.
Пользователи соцсетей уже успели сравнить происходящее с фильмом «Она», в котором главный герой влюбляется в операционную систему на базе ИИ.
ЧТО ЕЩЕ СТАЛО ИЗВЕСТНО НА ПРЕЗЕНТАЦИИ OPENAI
• GPT-4o будет бесплатной (скорее всего, потому, что компании нужно больше данных, на которых будет обучаться модель). Доступ к ней будут открывать постепенно начиная с 13 мая.
• Интерфейс бота стал минималистичным: в центре экрана расположена большая черная точка, которая превращается в стилизованную звуковую волну, когда бот говорит.
• Производительность GPT-4o в работе с текстом и кодом соответствует уровню платной GPT-4 Turbo.
• Модель лучше понимает другие языки и умеет переводить речь с одного языка на другой в реальном времени.
• ChatGPT появится десктопное приложение для macOS и Windows. С ним можно будет поделиться экраном компьютера, чтобы показать, например, код.
Иван Юницкий, основатель иммерсивной лаборатории Voic Lab: «GPT теперь будет общаться, используя большой спектр эмоций, а также улавливать эмоции пользователя. Фанаты научной фантастики и антиутопий теперь смогут повторять сценарии любимых произведений в реальной жизни. Что еще может новая модель? Она умеет генерировать звуки окружения, петь, быть переводчиком, работать с дизайном и текстом на изображениях, понимает пространство. С ней можно решать математические задачи, учить языки, подключать на видеоколлы с коллегами и придумывать креативные решения для проектов. Еще она неплохо умеет шутить и использовать сарказм. Можно даже сказать, что презентации OpenAI становятся настоящими событиями, вытесняя в этом плане Apple c пьедестала почета».
Алексей Хахунов, сооснователь Dbrain: «Вчерашний релиз GPT-4о от OpenAI в очередной раз взорвал мой мозг. Потому что каждый раз они умудряются попасть в мой оптимистичный прогноз, в который, казалось, невозможно попасть. Главные изменения касаются не столько увеличения интеллектуальных способностей модели, сколько ее человечности. Теперь GPT-4 отвечает быстрее, понятнее и демонстрирует эмоциональную окраску в ответах. Особенно впечатляет способность модели считывать изображение в реальном времени. Это значительно расширяет ее функциональные возможности как помощника. Еще важно отметить социальное значение этих изменений: модель может улучшить жизнь людей с ограниченными возможностями, особенно тех, у кого есть проблемы со зрением».
Олег Юсупов, сооснователь Phygitalism и Phygital+: «GPT-4o работает с текстом, аудио и изображениями. Но не с видео: для этого нужно больше мощностей и данных. Сейчас бот просто фиксирует изображение в моменте и анализирует его. Дальнейший шаг — работа с видео и 3D. Все идет к этому. Честно говоря, я не вижу в LLM способности решать все задачи. Многие прочат, что это шаг на пути к AGI. Это, безусловно, отличный инструмент, но не AGI. Здесь я бы сослался на Яна Лекуна, главного по ИИ в Meta (запрещена в РФ). Он говорит, что, создавая LLM, мы пытаемся представить через текст все модальности, но на самом деле реальный мир далеко не текст. Чтобы идти в сторону AGI, нужно также использовать предметно-ориентированный подход. Это, например, сигналы от сенсоров, снимки МРТ — данные, которые мы не можем описать текстом. Тогда будет возможна метамодальность».
ОПТИМИСТЫ И СКЕПТИКИ
OpenAI в очередной раз «обновила» правила игры в нашем взаимодействии с ИИ. Но, как и в любом технологическом прорыве, здесь есть место как оптимизму, так и скепсису.
С одной стороны, GPT-4o, способный взаимодействовать в человекоподобной манере, может усилить восприятие чат-бота как полноценного участника общения. В таком случае ИИ из технологического инструмента превращается в настоящего компаньона, который умеет понимать и поддерживать. Это может изменить то, как мы строим социальные взаимодействия, ожидая от технологий понимания и эмпатии наравне с людьми.
Рэй Курцвейл, приверженец идеи технологической сингулярности, прогнозирует будущее, в котором ИИ и человеческий мозг будут сливаться, расширяя интеллектуальные способности человека. Так, технология станет неотъемлемой частью нашего мозга, чем-то вроде внешнего жесткого диска. А голосовое взаимодействие с ИИ сделает его более доступным и полезным. Представьте, что ваш виртуальный ассистент не просто помогает вам с задачами, но и участвует в креативных процессах, предлагает идеи и помогает их реализовать, работая как настоящая правая рука, притом подшучивая на ходу.
На противоположном полюсе Шерри Теркл. Ее стезя — социальные аспекты взаимодействия человека с технологиями в MIT. Теркл обращает внимание на психологические последствия технологического прогресса. В своих работах она предупреждает об ухудшении человеческих взаимоотношений из-за повышенной зависимости от технологий: настоящее общение и глубокие человеческие связи страдают, а люди все больше ожидают эмоциональной поддержки от машин, которая не может полностью заменить человеческое взаимодействие. Но, кажется, у нас нет выбора. ИИ неизбежно проникает в жизнь и требует от нас новых протоколов и подходов, чтобы минимизировать негативные последствия и усилить положительное влияние технологий на жизнь.
Время на это есть. В основе инженерной культуры OpenAI лежит итеративное развертывание продукта, благодаря чему публика постепенно адаптируется к нему. Так, например, было с плагинами, которые потом превратились в кастомизированные GPTs. Чтобы снизить сопротивление общества отчасти пугающим новшествам, OpenAI прививает аудитории чувство непрекращающегося эксперимента — еще и бесплатного.
Иллюстрация: использованы изображения LUTFI GANI AL ACHMAD и pikisuperstar
Китайский стартап в области искусственного интеллекта DeepSeek вызвал фурор во всём мире благодаря своим революционным моделям ИИ, малым затратам и высокой производительности.