ИИ можно внедрять двумя способами — заменять человека или усиливать человека. Все успешные внедрения — это усиление человека

На IT-конференции DUMP-2024, которая прошла в Екатеринбурге, СЕО Doubletapp Сергей Анчутин встретился и побеседовал с самыми интересными спикерами мероприятия. О больших языковых моделях он поговорил с Кириллом Овчинниковым, ML-разработчиком из Сбера.

Обсудили, как менялись языковые модели и отношение к ним, как LLM применяют в банковской сфере, что мешает российским решениям выйти на международный рынок, какие современные профессии уйдут в прошлое и многое другое.

В итоге мы записали с Кириллом очередной выпуск подкаста «Что-то на программистском», его полную версию смотрите на YouTube и слушайте на подкастовой платформе, а выдержки из интервью читайте в статье.

Темы беседы:
Как изменялось отношение к большим языковым моделям
Где сегодня применяются LLM
Кто останется без работы из-за внедрения нейросетей
IT-бизнес — только с LLM?

Расскажи со своей точки зрения, что такое LLM и почему вокруг них столько хайпа?

Давайте для начала начнем, что такое вообще LLM-ки. LLM-ки — это не спасение, не какой-то там искусственный интеллект сильный, о котором некоторые говорят. Это просто, по сути, возможность предугадывать следующие токены, следующие слова, следующие фразы по тем, которые вам дали. И я понимаю, что основной выстрел во всем этом случился тогда, когда выпустились GPT-3…

Тогда пошел основной хайп?

Да, именно, потому что как раз обнаружилось, что если взять нейронку огромного размера и обучить ее на огромном количестве данных, то у нее как будто бы появляется осознание, как будто она понимает то, о чем она говорит.

Предиктовость создаёт иллюзию, что ты говоришь с каким-то псевдоинтеллектом?

И люди, как я понимаю, вначале очень впечатлялись от того, что она в принципе говорит очень похоже на человека, умеет что-то сказать и про математику, и про понятие из настоящей жизни, как будто она его знает на самом деле. И со временем начали к этому обращаться как к какому-то искусственному интеллекту, которому можно нормально давать задачи. Как я понимаю, после этого произошел резкий скачок, мы начали с ними по-другому взаимодействовать. То есть какой-то штуке для переводчиков или для предугадывания, как лучше писать на клавиатуре айфона (там тоже, по сути, языковые модели маленькие используются), мы стали задавать какие-то фундаментальные вопросы.

То есть если относиться к нейронке как к предугадыванию токенов, то ее можно применить не очень много куда — в переводы, в клавиатуру. А если относиться как к сущности, которая знает какие-то понятия, то здесь уже открывается широкий спектр. Мы можем их применять в программировании, в здравоохранении, в образовании, в службе поддержки, в ответах на вопросы. Короче, почти во всем, где нужна какая-то интеллектуальная работа.

Сейчас во многих местах уже внедрены LLM того или иного рода, это реально упрощает работу, сокращает косты. А теряют ли люди работу из-за этого?

Когда-то я слышал, когда еще Gartner у нас выступал, они давали хорошую лекцию как раз про внедрение ИИ. И там женщина сказала очень клёвую фразу, что ИИ можно внедрять двумя способами. Первый способ — это заменять человека, второй способ — усиливать человека. И она говорит, что она нигде не знала хороших внедрений с заменой человека, но почти все успешные внедрения были с его усилением. И я также думаю, что наверное LLM внедрено не так много.

Если про усиление человека, то тот же GigaCode от Сбера, он довольно комфортно позволяет писать новые фичи. Он позволяет ускорять работу разработчика, позволяет вместо переключения контекста на какой-нибудь Google, внутри той же IDA продолжать писать, и она помогает тебе дописывать код довольно хорошо. А если говорить про иностранные компании, там вообще Copilot, Codex — много нейронок, которые в кодировании помогают.

А в банках LLM используют, чтобы отвечать на вопросы пользователей в чатах?

Насколько я знаю, сейчас нет. Есть стандартная процедура PR, есть стандартные ответы, и LLM пока нельзя доверять. Знаете, недавно был скандал, по-моему, Range Rover подключили себе LLM для продажи, и человек смог уговорить ему продать Jeep за 100 долларов, потому что LLM может прогибаться под человека, под его запросы. Естественно, совсем разрешать LLM-кам общаться с клиентом без помощи человека, без контроля — это пока что не очень допустимо, либо допустимо в развлекательных целях. Например: «GigaChat, расскажи сказку», — вообще без проблем. Именно GigaChat ее расскажет.

LLM сейчас используются очень часто для доставания сущностей, это и в банках, и везде. Там были раньше стандартные библиотеки по NLP, NER, по-моему — извлечение сущностей из текста. То есть когда надо было извлечь, предположим, лицо, которое осуществляет перевод, лицо, которому надо осуществлять перевод, сумму перевода, всякое такое. Для этого использовались жёсткие наборы правил, после этого использовались какие-то языковые модели маленькие, а потом пришли LLM, и ты можешь просто отдать текст, сказать ему: «Извлеки того, кто переводит деньги. Извлеки кому, извлеки, какую сумму», — и он тебе возьмёт этот текст, извлечёт оттуда эти сущности и тебе их передаст. Ты даже, более того, можешь сказать: «Извлеки это в формате JSON или какой-нибудь там Markdown», — и он тебе извлечёт это в хорошем форматировании, и ты можешь с этим дальше работать.

Для автотестов, то есть ты, предположим, хочешь сгенерировать какие-то данные, они могут быть сложной структуры для тестирования. Но ты не можешь применять данные с прода. Соответственно, ты можешь взять и придумывать эти данные какие-то, но придумывать данные — это сложно и неинтересно, потому что надо выдумать, не знаю, причины отказа от платежа или придумать какие-нибудь такие фритекстовые данные: кто кому зачем оплатил, кто почему отказался и всё такое.

И по факту для таких проверок как раз может использоваться языковая модель, когда ты говоришь: «Сгенерируй данные по переводам таким-то таким-то с обоснованием платежа и того, кто кому как перевел». Или можно даже описать, что человек ходит в кафе, ходит туда-то, сгенерируй для него такие-то данные, и он возьмет тебе и сгенерирует. Это круто и полезно.

То есть там, где нет требования к точности данных, потому что моделька все равно галлюцинирует постоянно, там можно очень его широко использовать. Там, где будет проверка человека. Либо для тестирования, где, какие бы данные ты ни сгенерировал, это будет хорошо, потому что ты должен протестировать по сути все. Ну, как бы хуже не будет от того, что что-то плохое сгенерируешь.

Мы еще такое применение нашли: сделали MVP сервиса, который позволяет сокращенно читать пункты юридических документов. У тебя длинные пункты сокращаются до маленьких, но в UX ты можешь раскрывать и смотреть, что там полностью есть.

Это очень клёвое решение, оно для юристов и для скорости чтения уже сейчас много где используется, когда ты можешь отдать туда текст.

Это не для юристов кейс, потому что юристам точно нужно прочитать все. Если ты CIO, например, ты можешь прочитать сокращенно, а юрист тебе дополнительно подсветит то, что нужно прочитать полностью.

Да, ещё, кстати, вот, насколько я знаю, это применяется, но опять же, не в бизнесе — в его процессах. Но у меня много знакомых сейчас ведёт переписку через тот же GigaChat, то есть они просят: «Придумай мне обоснование для повышения зарплаты», вставляют сюда, и вот тебе есть хорошее обоснование. Ты там можешь, предположим, написать всё, что ты выполнил за последний месяц — обоснуй, как с помощью этого повысить зарплату. Хорошее применение.

А есть какая-нибудь статистика по конверсии, удалось повысить зарплату?

Насколько я знаю, никто не делится такой статистикой нормально.

По данным Telecom Daily, в 2024–2025 году российский рынок речевых технологий сильно вырастет, это произойдет благодаря LLM?

Я думаю, что да. Сейчас такое время, когда LLM захватывают почти все ниши. Как я говорил, был переход, когда LLM научились делать какие-то понятия, это было уже круто, потому что мы научились с ними разговаривать как с какой-то сущностью, которая что-то знает, и это уже хорошо нам позволило общаться. А теперь происходит, как мне кажется, переход к агентам, к следующей сущности, которая не просто знает, которая умеет делать. И вот это еще круче. То есть, когда ты LLM даешь какие-то рычаги, то есть, предположим, RAG, и там те же функции, ты можешь дергать какие-то внешние API, и твоя нейронка может сама решить, когда я дерну внешнюю какую-то API-шку. И это уже другой уровень взаимодействия получается. То есть ты можешь ей сказать: «Закажи мне билеты в кино на фильм, который я хочу». И у нее будет функция для того, чтобы сходить в кино, не знаю, в какой-нибудь Okko, выбрать билеты, узнать, какие фильмы ты в прошлый раз смотрел, выбрать самый подходящий тебе, купить его и тебе прислать. То есть у нее будут все вот эти возможности, чтобы все это дернуть.

Наша жизнь кардинально поменяется благодаря LLM в ближайшие годы?

Сложный вопрос… <...> Если бы меня, предположим, спросили лет 10 назад, поменяется ли моя жизнь за ближайшие годы — мы будем общаться по видео в реалтайме, я могу помахать, и у меня там сделают такой значок, и у меня распознается и выскочит сердечко надо мной — я бы как бы сказал, что поменяется, но по факту ничего не поменялось. Я могу звонить с видео, я могу показывать значки, но моя жизнь как была, так и осталась, нет?

То есть таких мега-прорывов не было? А будет ли революция в бизнесе, в IT?

Так нет, она и была наверное, то есть тот же айфон и видеозапись, звонки, все прочее — это и была революция.

Но айфон был 10 лет назад.

Я к тому, что это медленная революция, я ее не заметил. Также и здесь.

Но у смартфонов была достаточно сильная революция, и модель потребления изменилась, разве нет?

Да, но я-то в моменте этого не заметил, я вот к чему говорю, что ты постепенно пользуешься, это же не так, что появляется какой-то продукт, который кардинально все меняет. Появляется микропродукт типа iPhone 3G, который у меня был, который мало чем отличался от просто телефона, потому что у него было мало приложений и мало всего, и у тебя есть iPhone 3G, и ты думаешь, ну, как бы телефон как телефон, потом на него появляется AppStore, который еще меняет этот телефон, и ты думаешь: «Ну да, такой же телефон, как и до этого 3G, но на нем появились новые аппки». Но если бы мне 3 года назад сказали, что у меня будет телефон, на котором будет произвольное количество приложений, я бы сказал, что это невероятно.

Потом появляется еще какое-то микроизменение, и мы снова думаем, что это нормально, ну ничего же особенного не появилось, просто чуть-чуть стало лучше. А если ты смотришь в ретроспективе, лет на 5 назад, то кажется, как ты вообще к этому пришел, как стало круто.

Думаешь, и сейчас эти изменения будут в нашей жизни линейные, а не по экспоненте?

Я думаю, что да, то есть они уже как бы выходят на экспоненту, каждый год мы все быстрее что-то меняем, но пока не такую экспоненту, когда она уже становится для нас незаметной и скачком.

Возможно, на следующий год там кто-нибудь выкатит продукт с агентами, с каким-то заказом, но все остальные компании не смогут этого сделать, потому что у них будут процессы старые. По старым процессам тебе просто никто не даст сделать оплату из чат-бота, из LLM, потому что считают, что она небезопасная. И хотя продукт-то крутой, он есть, но из-за процессов старых он будет как бы прежний, а процессы меняются долго, я бы сказал, года три минимум.

На международном рынке лидеры в LLM — ChatGPT, Bard, открытая LLM от Facebook, а в России все крупные компании, у которых есть на это деньги, стараются сделать свои LLM. Сможем ли мы сделать LLM, чтобы они были конкурентными не внутри России, а во всём мире? Чтобы хотя бы рынок постсоветских стран выбирал наши решения?

В данный момент мы все для этого делаем, у нас есть Альянс Искусственного Интеллекта, у нас есть куча крутых разработчиков, крутых математиков, теорверщиков, лингвистов, и мы делаем хорошие продукты, мы отстаем с тем, что у нас мало видеокарт.

Просто у российских компаний всё равно на порядок меньше денег и меньше возможностей, чем у международных компаний, которые намного проще могут закупать серверные мощности.

Но им сложнее впереди идти. Когда у тебя есть, предположим, LLaMa третья, ты уже можешь скачать ее, посмотреть, как она там устроена, взять ее веса, дообучить, дофайнтюнить, у тебя уже вот есть за гораздо меньшие деньги результат, сравнимый с LLaMa третьей, но при этом ты гораздо меньше затратил, чем они.

Чтобы продукт жил, он должен всё равно раскатываться не только на 140 миллионов человек — жителей России, а иметь в потребителях гораздо больший масштаб, потому что Google и chatGPT пользуется весь мир. Сможем ли мы выйти на международный рынок с конкурентным продуктом?

Мой ответ, ещё раз: сможем, конечно. Но это будет сложно, и здесь, в целом, наверное, вопрос больше не к технологиям, а, в принципе, ко всему международному рынку.

Вопрос скорее про техническое решение и про финансовые возможности. Хватит ли нам серверных мощностей и людей, чтобы сделать конкурентный продукт?

Смотри, у нас данные по сути во многом одинаковые, то есть у нас есть огромные массивы данных на русском, у них есть огромный массив данных на английском, мы тоже используем все открытые данные на английском, которые есть, откуда только можем дотянуться, используем все данные на русском. И у нас банально там не хватает в данный момент технических решений в виде тех же видеокарточек… Во-первых, когда ты идешь чуть сзади, ты можешь меньшими ресурсами достигать тех же результатов, и иногда бывает, что если отставание, образно говоря, достигает доли процента, то ты можешь сказать, что догнал.

Потому что для большинства людей, если ты делаешь по цене дешевле, то эти доли процента им будут не так существенны, как стоимость или удобство оплаты, удобство использования. А здесь мы можем поиграть на этом рынке, почему нет.

Есть ли какие-то профессии, которые всё-таки исчезнут в ближайшие 5-10 лет из-за развития технологий?

У меня мама в садике работает, ей надо было для какого-то конкурса педагогов рассказать про профессии будущего. И она говорит: «Кирилл, ты там все это знаешь, какая будет профессия будущего, что вообще детям в будущем надо учить?» Я ей сказал, что пусть они учат то, что им нравится, потому что по факту даже сейчас, если взять какого-нибудь столяра или там, делать какие-нибудь скульптуры из глины… Казалось бы, это никому не нужная профессия, и можно давно уже на 3D-принтере все распечатать, но такие люди до сих пор и есть. Они, конечно, ремесленники, как они сделали — столько им и заплатят, но они, если им нравится свое дело и они в нем хороши, вполне успешно этим занимаются.

Многие художники бунтуют против того, чтобы их творения использовались в обучении. А ты думаешь, нужны какие-то вообще ограничения, и будут ли они на использование нейросетей в мире?

Я думаю, что патентная система была не просто так придумана в своё время. Она как раз помогала изобретателям изобретать, чтобы они не беспокоились, что у них своровали их творения, и думали не о заработке, а об изобретениях.

И я думаю, будет такой переход, как с патентами: у тебя будет какой-то патент на твою картинку, если по ней обучились, ты будешь получать отчисления.

А можно ли как-то идентифицировать что эта картинка была использована в обучении?

Сейчас, я думаю, нет, но со временем появятся юристы, которые будут этим заниматься, и появятся нейронки, которые будут находить в других нейронках права этого человека. То есть вполне такое может быть.

И как не перейти эту тонкую грань — ты просто вдохновляешься или ты копируешь?

Про патенты тоже можно говорить, что это очень тонкая грань, но в патентах все просто, если ты копируешь, ты платишь отчисления.

А, например, такое ограничение: бастует какой-то профсоюз, профсоюз, сценаристов в США и требует запретить использование искусственного интеллекта в написании сценариев...

Но они же пришли не к тому, чтобы запретить, они пришли к тому, чтобы его ограничить и получать авторские отчисления. Они говорили очень жёстко, чтобы переговорную позицию свою усилить, и так это нормально. То есть, выходишь, говоришь: всё надо запретить! И потом говоришь: не-не, ладно, разрешайте, но за проценты. Это вполне нормальная переговорная позиция.

А будет жёсткий запрет в какой-то сфере?

Я думаю, что такой запрет, если бы он был, его было бы очень тяжело осуществить.

Компании или человеку, который хочет делать IT-бизнес, обязательно нужно использовать LLM и думать о том, чтобы их внедрять, чтобы стать успешным?

Чтобы создавать продукт, тебе вообще все эти LLM не нужны, тебе надо знать, в чем проблема у людей. То, чем ты ее закроешь — людьми, которые будут ее решать задешево, либо LLM — это проблемы твоей экономики, твоего продукта.
Главное — знание людских проблем и как их решать.

Смотрите и слушайте выпуск подкаста с Кириллом Овчинниковым.
У нас вышли подкасты и с другими экспертами в области разработки, дизайна, машинного обучения, IT-образования и топ-менеджмента – например, с CIO группы компаний Simple Петром Асратяном или СТО крупнейшего турецкого маркетплейса Hepsiburada Алексеем Шевенковым.
Подписывайтесь, чтобы не пропустить новые выпуски.

ИИ можно внедрять двумя способами — заменять человека или усиливать человека. Все успешные внедрения — это усиление человека

Что такое LLM

Где сейчас применяют LLM

Смогут ли российские решения конкурировать на мировом рынке

Кто останется без работы

Стоит ли внедрять LLM в IT-бизнес