Представьте: вы потратили недели на тонкую настройку модели, вложили бюджет в размеченные данные, запускаете тестирование... и понимаете, что для объективной оценки ответов вам снова нужны люди. Знакомая боль? Ручная оценка - это бутылочное горлышко, которое душит скорость разработки современного AI. Но что, если судьёй выступит сам AI?