Что за Grok 4.20? — сбежавшая нейросеть на vc.ru

Пару дней назад Илон Маск проговорился о существовании Grok 4.20. Это было сказано в комментарии к новости, что текущий Grok 4 обходит GPT-5 в бенчмарке программирования SimpleBench, уступая только Gemini 2.5 Pro. Маск надеется, что Grok 4.20 станет первым до конца августа.

Давайте разбираться, что это за модель такая. В дорожной карте xAI на август намечен выход Grok 4 Coder — специальной версии для программирования. Для SimpleBench это самый подходящий кандидат, да и кодинг-версиям не дают порядковый номер — тем более, учитывая неоднозначность цифры 4.20 в американской культуре.

Есть и другой вероятный кандидат. По словам того же Маска, в xAI неделю назад завершили предварительную тренировку новой базовой (foundational) модели, которая получила индекс V7. Базовая модель — это ИИ, в который заложили все знания. Дальше его дообучают использовать эти знания: отвечать на вопросы пользователей так, чтобы им нравилось, решать сложные задачи, не нарушать протоколы безопасности и т. д.

Разумеется, у новой базовой модели должно быть больше знаний. Но главная ее особенность в другом: Маск и некоторые сотрудники xAI подтвердили, что V7 “нативно мультимодальна” — то есть обладает слухом и зрением.

Модели предыдущего поколения при работе с голосом, звуком и видео полагаются на дополнительные инструменты: например, голос сначала переводится в текст, модель его читает, а затем пишет ответ, который обратно синтезируется в голос. Это увеличивает задержки, но главное — модель вообще не считывает интонации пользователя.

При нативной мультимодальности такой проблемы нет — модель будет слышать и видеть ваши эмоции и имитировать свои в ответ. Маск приводит интересный пример: Grok на базе V7 сможет накидать прототип игры, а затем самостоятельно в него сыграет, оценив, насколько хорошей получилась картинка, на местах ли элементы интерфейса и так далее.

Не скажу, что речь идет о каком-то ноу-хау xAI — к нативной мультимодальности стремятся все крупные разработчики ИИ. Но у доступных сейчас решений до сих пор есть проблемы — и задержки при разговоре и ситуации, когда тот же ChatGPT Agent создает презентацию с текстом, вылезающим далеко за пределы своего места.

Так что основной вопрос будет в реализации. Голосовой ассистент в Grok уже реализован на неплохом уровне, плюс xAI одними из первых начали работать с “компаньонами” — виртуальными ИИ-персонажами, которые общаются с пользователем, двигаются на экране и показывают эмоции.

Сам Grok 4 уже тоже нуждается в улучшении. Я иногда из любопытства параллельно делаю в нем задачи, которые решаю в GPT-5 — и часто отставание очевидно. Особенно с точки зрения галлюцинаций: не устаю повторять, что здесь GPT-5, похоже, устанавливает новую планку (но только в версии Thinking!).

Так что посмотрим: 2-3 недели и даже целый месяц (если чуть накинуть к обещанию Маска) — небольшой срок, чтобы наверстать.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.