Презентация GPT-4o: шаг в будущее или доработка старой модели?

Мы все ежедневно так или иначе сталкиваемся с искусственным интеллектом, и очередная новинка вызывает много вопросов. На днях состоялась презентация новой модели от компании OpenAI - GPT-4o. Что же это? Небольшая доработка предыдущей версии, ведь GPT-5 ее не назвали, или же инновационный продукт? На все эти вопросы отвечает Елена Кравченко, автор международной бизнес-школы с фокусом на нейромаркетинг и нейросети EKAi.

Модель GPT-4o уже доступна для всех пользователей ChatGPT совершенно бесплатно.

Презентация GPT-4o: шаг в будущее или доработка старой модели?

Во время презентации глава компании, Сэм Альтман, озвучил очень крутую мысль, обозначив, что компания найдет на чем заработать денег, и им было важно сделать эту модель открытой для всех пользователей. Зачем? Чтобы люди могли создать еще больше удивительных вещей, от которых выиграют все, включая компанию OpenAI. Хороший подход, но давайте разберемся, что же нам предлагают.

Именно так, голосовой помощник GPT-4o может петь, шутить и даже перебивать человека. Ну а уж сарказма ей точно не занимать.

В презентации также было отмечено, что средняя скорость ответа 320 милисекунд, что сравнимо с реакцией человека при разговоре. Кажется, теперь отличить общение с нейросетью и человеком станет крайне сложно. GPT-4o станет отличным помощником как в обычной жизни, так и в бизнес-процессах.

Модель может подготовить человека к собеседованию, стать полноправным участником видеозвонка или же помочь в изучении иностранного языка.

Да, все эти функции уже были нам доступны ранее, но приходилось использовать несколько приложений. GPT-4o — это омниокальная модель, то есть она обучена работе с как с текстом, так и с аудио и визуалами. Именно этого ждали многие пользователи, включая меня, ведь гораздо удобнее иметь все функции в одном месте, чем скакать от приложения к приложению, все запросы обрабатываются одной нейросетью.

Модель GPT-4o запоминает визуальные образы. Теперь художники могут воспроизводить внешность персонажей в своих работах, а не получать каждый раз новый результат при запросе.

Что касается текста, то для сторителлинга это просто находка. Объемы обработки текстового контента также увеличились до 128 тысяч токенов, это сравнимо с 300 страницами текста. Если в предыдущей версии можно было обработать до 32 768 токенов, что соответствовало примерно 50 страницам текста, то теперь возможности значительно расширились.

GPT-4o гораздо лучше распознает языки и делает гораздо меньше ошибок.

Если при работе с текстом на английском языке модель демонстрирует тут же производительность, что и GPT-4, то с другими языками, в том числе с русским, эффективность сильно выросла. Пока это представляется чем-то из научной фантастики, где с помощью приложений можно было понять кого угодно без лишних действий.

Еще одной фишкой ИИ-помощника стала возможность демонстрации ему видео, ассистент проанализирует его полностью и предложит свои решения, ранее же система воспринимала только статичные изображения, и пользователям приходилось делать скриншоты или фото для распознавания визуальной информации.

На презентации также было показано, что GPT-4o может через камеру смартфона прочитать уравнение, написанное на бумаге, и дать подсказки по его решению.

За помощью можно обратиться и при написании цифрового кода. Запустив десктопное приложение, можно расшарить экран и ассистент проанализирует его и даст советы по написанию и исправлению кода.

Как уже упоминалось вначале, доступ к GPT-4o может получить любой человек абсолютно бесплатно, но для подписчиков ChatGPT Plus будет доступно в пять раз больше токенов для генерации запросов.

Для разработчиков же открыли API модели, причем доступ подешевел в два раза при увеличении скорости работы, сейчас входные токены стоят 5$ за 1 миллион токенов, а выходные — 15$ за 1 миллион токенов.

Буквально сразу после презентации GPT-4o Google выпустил обновление своей модели Gemini Live. Интересно кто кого переплюнет…

В новой версии Gemini также как и в GPT-4o заявлена мультимодальность и ИИ-ассистент. Модель теперь может генерировать музыку и видеоклипы в формате 1080p длительностью до минуты на основе текстового описания. Ну и то, что удивило больше всего — окно контекста выросло в два раза до 2 миллионов токенов, а это несколько тысяч страниц текста в одном промте.

Ключевым отличием GPT-4o и Gemini Live становится то, что платформа Google не будет иметь бесплатной версии. Модель Live будет доступна только подписчикам плана Google One AI Premium Plan, стоимостью 20 долларов в месяц. Будем смотреть и разбираться, какая из этих платформ удобнее и функциональнее в условиях мультимодальности.

Презентация GPT-4o: шаг в будущее или доработка старой модели?

Выиграют все

Искусственный помощник стал эмоциональным

Текст, изображения и аудио в одном месте

Общение на любом из 50 языков

Возможность трансляции экрана

Простота использования

А что у других?