Способность Grok 3 от Илона Маска ориентироваться в процессуальном законодательстве

Протестировал Grok 3 на знание российского процессуального законодательства. Рассказываю как тестировал и какие результаты.

В мире нейросетей все очень стремительно меняется.

Не успел я закончить свое исследование о способности ИИ ориентироваться в процессуальном законодательстве и протестировать популярные модели, как Илон Маск анонсировал выход «самой умной ИИ в мире» — Grok 3.

Такие громкие заявления выходят чуть ли не каждый день, и я, честно говоря, отнесся к этому скептически.

Но сегодня решил проверить Grok 3 сам - и он меня удивил.

Как тестировал

Для теста я использовал свой собственный бенчмарк.

Это 30 критериев, связанных с различиями между процессуальными действиями: обыском, обследованием и осмотром места происшествия в уголовном процессе.

В Grok 3 был загружен тот же запрос и нормативно-правовые акты, что и в другие модели в рамках моего исследования, чтобы сравнение было честным.

Тестировал бесплатную версию Grok 3 в режиме «Думать».

Результаты

Grok 3 набрал 28,5 из 30 баллов. Это 95% правильных ответов.

Самый лучший результат из всех ранее протестированных моделей. Не допустил ни одной критической ошибки. В спорных моментах указал, что вопрос является дискуссионным. Дал развернутый вдумчивый ответ.

Для сравнения: платная версия Claude 3.5 Sonnet - 91.7% правильных ответов, платная версия ChatGPT 4o - 90% правильных ответов, DeepSeek R1 - 76.7% правильных ответов.

Таким образом, Grok 3 показал самый лучший результат среди остальных ИИ и смог на высоком уровне сориентироваться в нормах процессуального законодательства.

➟ С моими заметками об использовании ИИ в юридической практике можете ознакомиться в моем телеграм-канале Юристы & Нейросети по ссылке.