тот же ChatGPT можно было попросить выступить в роли ревьюера. Ваша модель значительно лучше справляется с ревью? Если да, то как именно оценивали? Если нет, то непонятно к чему выпук про первыми в мире создали нейросеть-ревьюера
Да, наша модель значительно лучше справляется с ревью (80% против 13%, как указано в статье), поскольку она работает в тандеме с локальными инструментами статического анализа кода, чего ChatGPT, по понятным причинам, лишён.
Что касается оценки, то мы проводили её с помощью подсчёта количества релевантных задач (https://bitbucket.org/blog/introducing-pull-request-tasks), заведённых по одному и тому же пулл-реквесту. Релевантность задач оценивает автор пулл-реквеста, в спорных ситуациях – соответствующий лид. Сейчас мы именно так сравниваем качество работы ALT-man Reviewer и человека.
тот же ChatGPT можно было попросить выступить в роли ревьюера. Ваша модель значительно лучше справляется с ревью? Если да, то как именно оценивали? Если нет, то непонятно к чему выпук про
первыми в мире создали нейросеть-ревьюера
Да, наша модель значительно лучше справляется с ревью (80% против 13%, как указано в статье), поскольку она работает в тандеме с локальными инструментами статического анализа кода, чего ChatGPT, по понятным причинам, лишён.
Что касается оценки, то мы проводили её с помощью подсчёта количества релевантных задач (https://bitbucket.org/blog/introducing-pull-request-tasks), заведённых по одному и тому же пулл-реквесту. Релевантность задач оценивает автор пулл-реквеста, в спорных ситуациях – соответствующий лид. Сейчас мы именно так сравниваем качество работы ALT-man Reviewer и человека.