Сравнение Grok 4 с другими моделями (для юристов)

На днях вышел Grok 4 от xAI и сразу же побил все рекорды в бенчмарках. Мне стало любопытно и я купил подписку на Plati.Market, чтобы лично протестировать модель.

Ваш покорный слуга сравнил Grok 4 с другими топовыми рассуждающими моделями: Gemini 2.5. Pro и GPT o3. Ниже – отзыв.

Методика

- Задал моделям три «каверзных» вопроса из личной коллекции, где настоящий юрист однажды пришел к неверному выводу (значит, и модели могли ошибиться).

- Загрузил Excel-файл из 50 вопросов для кандидатов на позицию старшего юриста (разбитых на легкие, продвинутые и экспертные).

Пример одного из вопросов ниже, а вот ссылка на Exel-файл – можете воспроизвести эксперимент.

Проконсультируй как профессиональный российский юрист. Компания Ромашка является распространителем электронных лотерейных билетов. Она принимает онлайн платежи от физических лиц, оставляет себе комиссию и перечисляет оператору лотереи. Вопросы.
1. является ли компания по смыслу закона платёжным агентом?
2. если да, то обязана ли она быть в реестре ЦБ и быть субъектом 115-фз?
Сошлись на нормы.
Используй в ответе только официальные и качественные источники типа КонсультантПлюс.
простенький промпт

В этом кейсе Grok обошел конкурентов в чистую набрав 92 балла из 100. Следом идёт GPT o3, набравшая всего 75,2.

Методика

- Попросил сгенерировать три договора по готовым подробным промптам и проанализировать пул договорной документации (PDF примерно на 60 000 токенов).

С составлением договоров все справились на отлично: и по содержанию, и по деталям: модели строго следовали промпту, в том числе учли объем (я специально указал в промпте объем – 3-4 страницы, а не количество символов).

Анализ. Grok временами искажает цитаты, коверкает наименование компании и странно называет разделы (например: «Mitigation мер»). Вероятно, модель ещё «сырая».

Итог: составление договоров — паритет (тут чисто на вкус). Анализ множества объемных договоров: лидер Gemini, а Grok на последнем месте из-за этих сбоев.

Если интересен такой формат, могу отдельно разобрать, как модели справляются с процессуальными документами, там тоже есть на что посмотреть/сравнить.

Делюсь результатами моих экспериментов по использованию нейросетей в юридической работе в моем ТГ-канале, подписывайтесь.

Сравнение Grok 4 с другими моделями (для юристов)

1. Ответы моделей на правовые вопросы

2. Договоры