Head of Engineering @ Alfa Bank Belarus
Кажется, в комментариях выше я всё это уже пояснял: мы используем не "дефолтный гпт" (то есть не просто базовую модель Llama 3, к примеру), а модель, которая прошла файнтюнинг ("натрениную под ревью"). При этом тратим, конечно, не десятки миллионов долларов, но столько, сколько необходимо для получения высокого уровня качества рекомендаций. И мы действительно считаем, что ALT-man Reviewer – это крутой продукт, который, в том числе, готовы предлагать внешним компаниям. Если есть интерес, можно обращаться в личные сообщения.
А мы – год, с лета 2023, как указано в статье. Вполне можно допустить, что в это же время в Microsoft и других компаниях параллельно тоже что-то подобное разрабатывалось, но в Интернете об этом не было никакой информации.
Если внимательно посмотреть, мы такого не утверждали: наш инструмент не исправляет ошибки, он заводит задачи на исправление найденных ошибок на инженеров. Чтобы генерировать «правильный код», нужные «правильные -пчёлы- модели», то есть нужно файтюнить базовые модели именно для генерации такого кода, который нужен именно вам. Как раз этим мы сейчас и занимаемся, но это уже другая история.
Да, наша модель значительно лучше справляется с ревью (80% против 13%, как указано в статье), поскольку она работает в тандеме с локальными инструментами статического анализа кода, чего ChatGPT, по понятным причинам, лишён.
Что касается оценки, то мы проводили её с помощью подсчёта количества релевантных задач (https://bitbucket.org/blog/introducing-pull-request-tasks), заведённых по одному и тому же пулл-реквесту. Релевантность задач оценивает автор пулл-реквеста, в спорных ситуациях – соответствующий лид. Сейчас мы именно так сравниваем качество работы ALT-man Reviewer и человека.
Отвечу тезисно:
1. Находить ошибки в чужом коде и писать без ошибок собственный – не одно и то же, особенно для таких вероятностных "штуковин" (привет любителям ТРИЗ), как большие языковые модели.
2. Мы работаем и над инструментами непосредственной генерации кода, о чём явно написано в последнем абзаце статьи.
3. Повышение эффективности разработки на 30%+ в ближайшие два года, о которой написано в том же абзаце, как раз и означает, что штат инженеров либо не будет расти, либо даже сократится (если количество команд останется тем же).
Антон, как писал выше, аналоги уже есть, они довольно легко гуглятся или выдаются красивым списком в ChatGPT. Но все они, насколько мы можем судить, являются санкционными и, в большинстве своём, работают по модели SaaS.
Что касается ALT-man Reviewer, мы готовы к диалогу о возможных вариантах сотрудничества уже сейчас. Если интересно – можно написать мне в личку :-)
Конкретнее и проще на общедоступном русском языке:
Количество полезных функций, выпускаемых каждые две недели, увеличится в среднем на 10% в каждой команде (= по каждой функциональной области, например: корпоративные карты, эквайринг и т. д.)
А вообще Velocity – общепринятый в индустрии термин: https://www.google.ru/search?q=define%3A%22team+velocity%22
Если бы я написал "скорость команды", как его обычно переводят, вряд ли стало бы понятнее.
Констатин, спасибо за вопрос, это действительно важно.
Как указано в статье, к 01.09.2024 мы планируем достигнуть 3 конкретных изменений (и тут нет никакой воды, это скурпулёзно измеряемые параметры, за которые мы подписались перед CEO):
1. Экономия 80%+ времени инженеров на проведение код ревью
2. Повышение качества кода на 20%+
3. Увеличение Velocity команд на 10%+
Если совсем упростить, то и первое, и второе изменение тоже работают на Velocity. А Velocity, с нашей точки зрения, работает напрямую на клиента, поскольку каждые две недели он будет получать на 10% больше ценности. Что касается превращения мобильного банка в "свалку функций", то это уже вопрос не по адресу, но лично мне, как пользователю, мобильное приложение АБР (Альфа Банк Россия) очень нравится, да и не думаю, что Markswebb просто так признал его лучшим.
Александр, спасибо за фидбэк, но в данном случае точно вопросы не по адресу. Надеюсь, на большую часть из них Вы сможете найти ответы на записи нашей "Альфа Среды", посвящённой как раз теме INSNC: https://youtu.be/FBT7DnPTAXw
Раз на уровне Velocity и процентов мне не удалось донести смысл, давайте ещё упростим и изложим всё в стиле школьной задачи по математике:
Условие:
Команда "А" каждые две недели поставляет клиентам 10 новых функций в своём продукте.
После внедрения ALT-man Reviewer участники команды стали тратить меньше времени на проверку кода и на исправление ошибок в тестовой и промышленной средах. В результате команда стала успевать реализовывать и поставлять на 1 функцию больше.
Вопрос:
Сколько теперь функций команда "А" поставляет клиентам каждые две недели?
Решение и ответ, думаю, писать не нужно. Разве только то, что за 14 недель команда поставит на 14 функций больше, чем могла сделать это раньше. То есть 154 вместо 140 функций. Откуда взялся рост в 2 раза я, честно говоря, не понял.
Почему это важно для клиентов:
Если бы команда "А" работала с прежней скоростью, клиент "К" получил бы важную для него функцию лишь две недели спустя. Важность функций обеспечивает владелец продукта, который находится в постоянном контакте с клиентами, выявляя, что именно им необходимо в данный момент времени.