«Она»: что умеет GPT-4o и какое у нас с ней будущее

НОВАЯ ФЛАГМАНСКАЯ МОДЕЛЬ GPT-4O ОБЛАДАЕТ БОЛЬШЕЙ ЧЕЛОВЕКОПОДОБНОСТЬЮ.

В январе 2024 года Сэм Альтман, выступая на программе Y Combinator, посоветовал командам не сосредотачиваться на ограничениях GPT-4 при создании новых продуктов, так как в следующей версии модели большинство ограничений будет устранено. 

После новой презентации OpenAI стало ясно, что Альтман намекал на новую флагманскую модель GPT-4o, которая теперь еще более человекоподобна. Наиля Аглицкая из SETTERS Media разбиралась, что изменилось и как теперь выглядит наше будущее.



СЛЫШИТ, ВИДИТ, ГОВОРИТ

GPT-4o теперь умеет одновременно работать с текстом, звуком и видео. Раньше модель обрабатывала разные типы данных по отдельности, и это ее ограничивало. Например, если вы говорили с ChatGPT, пользуясь голосовым вводом в приложении, то он понимал только слова и не учитывал интонации и эмоциональность речи. Если вы присылали чат-боту изображение, он его анализировал, не сопоставляя с аудиоконтекстом. ChatGPT мог поддерживать диалог через текст, голосовые транскрипции и изображения, но ему не хватало способности понимать и интерпретировать в реальном времени невербальные сигналы — язык тела и интонации говорящего, которые составляют значительную часть коммуникации.


Модель GPT-4o собирает эти модальности — текст, звук и изображение — воедино в реальном времени (потому в названии использовали букву «о», то есть omni — приставка, обозначающая объединение всего). GPT-4o понимает не только что вы говорите, но и как вы это говорите: учитывает тон вашего голоса, выражение лица и даже фоновые звуки. Пользователь получает не просто ответы на вопросы, а полноценное общение, в котором ИИ улавливает эмоции собеседника и адаптируется под его настроение. Чат-бот может, например, похихикать вместе с человеком. На презентации GPT-4o также просили рассказать историю «драматично», голосом робота и пропеть ее.

Средняя скорость реагирования модели на речь — 320 миллисекунд. Это сопоставимо с реакцией человека в живом разговоре. Можно, например, прервать чат-бота в середине ответа, чтобы задать уточняющий вопрос.

Пользователи соцсетей уже успели сравнить происходящее с фильмом «Она», в котором главный герой влюбляется в операционную систему на базе ИИ.


ЧТО ЕЩЕ СТАЛО ИЗВЕСТНО НА ПРЕЗЕНТАЦИИ OPENAI

• GPT-4o будет бесплатной (скорее всего, потому, что компании нужно больше данных, на которых будет обучаться модель). Доступ к ней будут открывать постепенно начиная с 13 мая.

• Интерфейс бота стал минималистичным: в центре экрана расположена большая черная точка, которая превращается в стилизованную звуковую волну, когда бот говорит. 

• Производительность GPT-4o в работе с текстом и кодом соответствует уровню платной GPT-4 Turbo.

• Модель лучше понимает другие языки и умеет переводить речь с одного языка на другой в реальном времени.

• ChatGPT появится десктопное приложение для macOS и Windows. С ним можно будет поделиться экраном компьютера, чтобы показать, например, код.

Иван Юницкий, основатель иммерсивной лаборатории Voic Lab: «GPT теперь будет общаться, используя большой спектр эмоций, а также улавливать эмоции пользователя. Фанаты научной фантастики и антиутопий теперь смогут повторять сценарии любимых произведений в реальной жизни. Что еще может новая модель? Она умеет генерировать звуки окружения, петь, быть переводчиком, работать с дизайном и текстом на изображениях, понимает пространство. С ней можно решать математические задачи, учить языки, подключать на видеоколлы с коллегами и придумывать креативные решения для проектов. Еще она неплохо умеет шутить и использовать сарказм. Можно даже сказать, что презентации OpenAI становятся настоящими событиями, вытесняя в этом плане Apple c пьедестала почета». 

Алексей Хахунов, сооснователь Dbrain: «Вчерашний релиз GPT-4о от OpenAI в очередной раз взорвал мой мозг. Потому что каждый раз они умудряются попасть в мой оптимистичный прогноз, в который, казалось, невозможно попасть. Главные изменения касаются не столько увеличения интеллектуальных способностей модели, сколько ее человечности. Теперь GPT-4 отвечает быстрее, понятнее и демонстрирует эмоциональную окраску в ответах. Особенно впечатляет способность модели считывать изображение в реальном времени. Это значительно расширяет ее функциональные возможности как помощника. Еще важно отметить социальное значение этих изменений: модель может улучшить жизнь людей с ограниченными возможностями, особенно тех, у кого есть проблемы со зрением».

Олег Юсупов, сооснователь Phygitalism и Phygital+: «GPT-4o работает с текстом, аудио и изображениями. Но не с видео: для этого нужно больше мощностей и данных. Сейчас бот просто фиксирует изображение в моменте и анализирует его. Дальнейший шаг — работа с видео и 3D. Все идет к этому. Честно говоря, я не вижу в LLM способности решать все задачи. Многие прочат, что это шаг на пути к AGI. Это, безусловно, отличный инструмент, но не AGI. Здесь я бы сослался на Яна Лекуна, главного по ИИ в Meta (запрещена в РФ). Он говорит, что, создавая LLM, мы пытаемся представить через текст все модальности, но на самом деле реальный мир далеко не текст. Чтобы идти в сторону AGI, нужно также использовать предметно-ориентированный подход. Это, например, сигналы от сенсоров, снимки МРТ — данные, которые мы не можем описать текстом. Тогда будет возможна метамодальность».


ОПТИМИСТЫ И СКЕПТИКИ

OpenAI в очередной раз «обновила» правила игры в нашем взаимодействии с ИИ. Но, как и в любом технологическом прорыве, здесь есть место как оптимизму, так и скепсису.

С одной стороны, GPT-4o, способный взаимодействовать в человекоподобной манере, может усилить восприятие чат-бота как полноценного участника общения. В таком случае ИИ из технологического инструмента превращается в настоящего компаньона, который умеет понимать и поддерживать. Это может изменить то, как мы строим социальные взаимодействия, ожидая от технологий понимания и эмпатии наравне с людьми.

Рэй Курцвейл, приверженец идеи технологической сингулярности, прогнозирует будущее, в котором ИИ и человеческий мозг будут сливаться, расширяя интеллектуальные способности человека. Так, технология станет неотъемлемой частью нашего мозга, чем-то вроде внешнего жесткого диска. А голосовое взаимодействие с ИИ сделает его более доступным и полезным. Представьте, что ваш виртуальный ассистент не просто помогает вам с задачами, но и участвует в креативных процессах, предлагает идеи и помогает их реализовать, работая как настоящая правая рука, притом подшучивая на ходу.

На противоположном полюсе Шерри Теркл. Ее стезя — социальные аспекты взаимодействия человека с технологиями в MIT. Теркл обращает внимание на психологические последствия технологического прогресса. В своих работах она предупреждает об ухудшении человеческих взаимоотношений из-за повышенной зависимости от технологий: настоящее общение и глубокие человеческие связи страдают, а люди все больше ожидают эмоциональной поддержки от машин, которая не может полностью заменить человеческое взаимодействие. Но, кажется, у нас нет выбора. ИИ неизбежно проникает в жизнь и требует от нас новых протоколов и подходов, чтобы минимизировать негативные последствия и усилить положительное влияние технологий на жизнь.

Время на это есть. В основе инженерной культуры OpenAI лежит итеративное развертывание продукта, благодаря чему публика постепенно адаптируется к нему. Так, например, было с плагинами, которые потом превратились в кастомизированные GPTs. Чтобы снизить сопротивление общества отчасти пугающим новшествам, OpenAI прививает аудитории чувство непрекращающегося эксперимента — еще и бесплатного.
Иллюстрация: использованы изображения LUTFI GANI AL ACHMAD  и pikisuperstar  
15.05.2024
Важное

На аукционе в Новой Зеландии перо вымершей птицы гуйя продали почти за 28,5 тысячи долларов.

27.05.2024 09:00:00

Чип внедрят в мозг ещё одного пациента.

26.05.2024 13:00:00

Калифорнийский музей Брод увеличит свою площадь на 70 %.

26.05.2024 09:00:00
Другие События

Картина индийского режиссёра Нихила Махаджана «Годавари – священная река» признана лучшим фильм фестиваля

Философское наследие Фёдора Достоевского обсудят на Международном кинофестивале RapidLion.

25 февраля 2023 в Кейптауне (ЮАР) пройдёт чемпионат мира «Формула E» – первая в мире серия уличных гонок с участием электромобилей с открытыми колесами.

10 февраля 2023 года состоялся релиз компьютерной игры «Hogwarts Legacy» («Хогвартс. Наследие») для консолей текущего поколения и ПК.