Сравнение Grok 4 с другими моделями (для юристов)
На днях вышел Grok 4 от xAI и сразу же побил все рекорды в бенчмарках. Мне стало любопытно и я купил подписку на Plati.Market, чтобы лично протестировать модель.
Ваш покорный слуга сравнил Grok 4 с другими топовыми рассуждающими моделями: Gemini 2.5. Pro и GPT o3. Ниже – отзыв.
1. Ответы моделей на правовые вопросы
Методика
- Задал моделям три «каверзных» вопроса из личной коллекции, где настоящий юрист однажды пришел к неверному выводу (значит, и модели могли ошибиться).
- Загрузил Excel-файл из 50 вопросов для кандидатов на позицию старшего юриста (разбитых на легкие, продвинутые и экспертные).
Пример одного из вопросов ниже, а вот ссылка на Exel-файл – можете воспроизвести эксперимент.
Проконсультируй как профессиональный российский юрист. Компания Ромашка является распространителем электронных лотерейных билетов. Она принимает онлайн платежи от физических лиц, оставляет себе комиссию и перечисляет оператору лотереи. Вопросы.
1. является ли компания по смыслу закона платёжным агентом?
2. если да, то обязана ли она быть в реестре ЦБ и быть субъектом 115-фз?Сошлись на нормы.
Используй в ответе только официальные и качественные источники типа КонсультантПлюс.
В этом кейсе Grok обошел конкурентов в чистую набрав 92 балла из 100. Следом идёт GPT o3, набравшая всего 75,2.
2. Договоры
Методика
- Попросил сгенерировать три договора по готовым подробным промптам и проанализировать пул договорной документации (PDF примерно на 60 000 токенов).
С составлением договоров все справились на отлично: и по содержанию, и по деталям: модели строго следовали промпту, в том числе учли объем (я специально указал в промпте объем – 3-4 страницы, а не количество символов).
Анализ. Grok временами искажает цитаты, коверкает наименование компании и странно называет разделы (например: «Mitigation мер»). Вероятно, модель ещё «сырая».
Итог: составление договоров — паритет (тут чисто на вкус). Анализ множества объемных договоров: лидер Gemini, а Grok на последнем месте из-за этих сбоев.
Если интересен такой формат, могу отдельно разобрать, как модели справляются с процессуальными документами, там тоже есть на что посмотреть/сравнить.
Делюсь результатами моих экспериментов по использованию нейросетей в юридической работе в моем ТГ-канале, подписывайтесь.