«Бог в коробке, которого нам дали потрогать» — Геннадий Штех о буме нейросетей, поисковиках и ML

Привет, это Embedika! Мы разрабатываем современные ИТ-решения для бизнеса на базе машинного обучения и анализа данных. Недавно наш руководитель R&D-направления Геннадий Штех принял участие в новом выпуске Machine Learning Podcast. По следам эпизода собрали главные мысли и выводы.

Слушайте выпуск на любой удобной стриминговой платформе: https://mlpodcast. mave. digital/ep-45

«Бог в коробке, которого нам дали потрогать» — Геннадий Штех о буме нейросетей, поисковиках и ML

Гена учился в Уральском федеральном университете на бакалавра математики и компьютерных наук. В университете он занимал ответственную позицию в лаборатории робототехники и искусственного интеллекта. А также работал программистом со второго курса: писал на C Sharp и занимался бизнес-проектами. Но к четвертому курсу он решил сменить направление.

Я подумал, что хочу не рассказывать компьютеру, как делать что-то, а говорить, что нужно сделать.

Тогда для этого было два пути: функциональное программирование и ML. В функциональном программировании есть язык Prolog — это некая «смесь» ИИ и функционального подхода. Он позволяет создавать экспертные системы. А на основе лямбда-исчисления даже пытаются построить модель сознания.

Тогда экспертные системы казались искусственным интеллектом, а сегодня — чем-то прошлым. Но я думаю, что мы к ним еще вернемся.

Функциональное программирование было интересно, но мало кому нужно, особенно в Екатеринбурге, где жил Гена. Хотя сегодня немало вакансий, например, для специалистов со знанием функционального языка программирования Haskell. Но тогда ML было востребованнее, поэтому выбор пал на него.

В 2015 году Гена закончил университет, уволился с предыдущего места работы и пошел искать должность в ML.

Нашел вакансию тимлида. Но тогда я немного знал о ML. Что я сделал: за неделю прошел бесплатный начальный курс по машинному обучению от Эндрю Ына на Coursera и посмотрел лекции от профессора РАН Константина Воронцова.

Гена прошел тестовое задание в ИТ-компанию в Екатеринбурге и стал руководить двумя специалистами в отделе Data Science. После ему предложили переехать в Москву и присоединиться к ИТ-стартапу — так Гена стал частью команды Embedika.

После Михаил спросил, что Гена думает про популярную нейросеть ChatGPT.

Это вообще потрясающий инструмент. Думаю, все читали, что он может проходить экзамены, пишет эссе. А некоторые cover letter от ChatGPT лучше, чем от живых людей.

Запись подкаста как раз происходила в день, когда вышла новость о том, что студент написал диплом с помощью ChatGPT и университет собирает этический комитет по этому вопросу. Гена отметил, что «ничто не ново под луной» и вспомнил кейс с «Корчевателем». «Корчеватель: Алгоритм типичной унификации точек доступа и избыточности» — это статья, написанная программой-генератором квазинаучных англоязычных текстов, которая была переведена на русский язык с помощью машинного переводчика и опубликована в российском научном журнале.

К сожалению, в эпоху генерации контента нам будет тяжело отличать истину от лжи.

Гена считает, что у ChatGPT должны появиться конкуренты, чтобы технология продолжила развиваться.

Это такой Бог в коробке, которого нам дали потрогать. Но пока не будет массового использования и тестирования, мы не уйдем дальше разгадывания загадок.

Ведущий отметил, что ждет момента, когда комьюнити соберется и распределенно начнет обучать такие модели, которые «уделают» OpenAI и DeepMind. Гена считает, что для этого должно произойти две вещи: устойчивая экономика поощрения и внедрение гомоморфного алгоритма шифрования, который позволит людям без страха отдавать свои данные для обучения машины.

Гена рассказал, чем занимается команда Embedika и как она помогает крупному бизнесу экономить деньги и время. Например, внедряет системы для автоматизации документооборота, собирает инструкции и регламенты в единую систему и создает корпоративный поиск.

Классный поиск экономит людям очень много времени.

Например, перед заключением договора с подрядчиком, сотрудник может быстро проверить, работали ли с этим контрагентом другие отделы и на каких условиях. Это поможет узнать, не завысил ли подрядчик стоимость.

Также ведущий затронул тему о современных поисковиках:

Я помню ту эпоху, когда нужно было уметь формулировать запрос правильно. Но есть ощущение, что тогда релевантной информации было больше. Поисковик находил классные статьи от крутых специалистов. А сейчас поиск стал поверхностным: если твоя задача не входит в топ-1000 задач, которые до тебя уже давно решили, — найти ответ на нее становится намного сложнее.

Гена отметил, что благодарить за это нужно всех. Во-первых, сегодня контента стало очень много, он может создаваться автоматически (привет, ChatGPT!), поэтому в среднем он невысокого качества и ранжировать его сложнее. Также, по мнению Гены, сегодня люди ищут поверхностный контент и ждут моментальных ответов. Поэтому поисковики подстраиваются, чтобы «удовлетворить» пользователя.

Ведущий поделилися своим опасением, которое связано с развитием ИИ:

Я часто говорю, что в какой-то момент нейросети научатся настолько подстраиваться под человека, что начнут управлять нами маленькими незаметными воздействиями. Это было показано в фильме «На крючке»: там был искусственный интеллект, который присылал людям SMS-сообщения о том, что нужно пойти что-то сделать. И только сам искусственный интеллект понимал всю систему.

Также Михаил и Гена отметили, что преимущество нейросетей в индивидуальном подходе. Например, есть стартапы, которые делают чаты психологической помощи. Они похожи на Алису, которая помогает тебе поддерживать ментальное здоровье.

Другим перспективным направлением могут стать индивидуальные образовательные траектории. Например, виртуальный помощник, который поможет подобрать программу и в определенный момент будет давать необходимую информацию в нужном объеме. Это бы позволило не тратить время на неэффективные методики обучения.

Будьте готовы к жесткой конкуренции. Наша профессия масштабируема: сделав какую-то систему, мы уменьшаем количество работы в мире, а количество специалистов — нет. Вкладывайте время и уделяйте больше внимания практике.

«Бог в коробке, которого нам дали потрогать» — Геннадий Штех о буме нейросетей, поисковиках и ML

Почему именно ML

Про ChatGPT

Зачем бизнес приходит к Embedika и что не так с поисковиками

Будущее технологий

Совет тем, кто идет в Data Science: