Способность Grok 3 от Илона Маска ориентироваться в процессуальном законодательстве
Протестировал Grok 3 на знание российского процессуального законодательства. Рассказываю как тестировал и какие результаты.
В мире нейросетей все очень стремительно меняется.
Не успел я закончить свое исследование о способности ИИ ориентироваться в процессуальном законодательстве и протестировать популярные модели, как Илон Маск анонсировал выход «самой умной ИИ в мире» — Grok 3.
Такие громкие заявления выходят чуть ли не каждый день, и я, честно говоря, отнесся к этому скептически.
Но сегодня решил проверить Grok 3 сам - и он меня удивил.
Как тестировал
Для теста я использовал свой собственный бенчмарк.
Это 30 критериев, связанных с различиями между процессуальными действиями: обыском, обследованием и осмотром места происшествия в уголовном процессе.
В Grok 3 был загружен тот же запрос и нормативно-правовые акты, что и в другие модели в рамках моего исследования, чтобы сравнение было честным.
Тестировал бесплатную версию Grok 3 в режиме «Думать».
Результаты
Grok 3 набрал 28,5 из 30 баллов. Это 95% правильных ответов.
Самый лучший результат из всех ранее протестированных моделей. Не допустил ни одной критической ошибки. В спорных моментах указал, что вопрос является дискуссионным. Дал развернутый вдумчивый ответ.
Для сравнения: платная версия Claude 3.5 Sonnet - 91.7% правильных ответов, платная версия ChatGPT 4o - 90% правильных ответов, DeepSeek R1 - 76.7% правильных ответов.
Таким образом, Grok 3 показал самый лучший результат среди остальных ИИ и смог на высоком уровне сориентироваться в нормах процессуального законодательства.
➟ С моими заметками об использовании ИИ в юридической практике можете ознакомиться в моем телеграм-канале Юристы & Нейросети по ссылке.