Что такое мультимодальные нейросети и зачем ИИ зрение и слух
Вы фотографируете холодильник изнутри и спрашиваете нейросеть – «что приготовить из этого на ужин?». Она смотрит на полупустую банку сметаны, пучок укропа и одинокое яйцо, а потом выдаёт рецепт. Не «введите список продуктов текстом», а именно смотрит на фото и понимает, что там лежит. Ещё пару лет назад звучало бы как фантастика. А сегодня...
Вот за это «смотрит и понимает» отвечают мультимодальные нейросети. Это самое интересное, что случилось с искусственным интеллектом за последнее время. Давайте разберёмся, как оно работает и почему вам это, скорее всего, уже пригодилось – просто вы не знали, как это называется.
Сначала ИИ умел только читать
Чтобы оценить масштаб, вспомним, с чего всё начиналось. Первые большие языковые модели – тот же ранний ChatGPT – были гениальными буквоедами. Они виртуозно работали с текстом: писали, переводили, отвечали на вопросы. Но кроме текста, не видели ничего. Покажи такой модели картинку – и она пожмёт плечами. В терминах индустрии это называется унимодальность: одна-единственная модальность, один тип данных на входе.
А мы, люди, так не живём. Мы одновременно слышим интонацию собеседника, видим его жесты, читаем подпись под фотографией и связываем всё это в единую картину мира. Когда говорят «осторожно!» и показывают на лужу – не анализируют слово и изображение по отдельности. Вы понимаете ситуацию целиком.
Вот к этому «целиком» инженеры и шли. Модель, которая понимает больше одного типа данных сразу – текст, картинки, звук, видео – и рассуждает обо всём этом вместе, называется мультимодальной. Ключевое слово здесь, как точно подмечают исследователи, – именно «вместе». Не «обработала текст, потом отдельно картинку, потом склеила результаты», а сразу связала одно с другим.
Как ИИ научили видеть: магия общего пространства
Тут начинается самое любопытное. Когда нейросеть «смотрит» на изображение, она, разумеется, не видит пикселей в нашем понимании. Происходит вот что.
Любой текст модель давно умеет превращать в набор чисел – координаты в огромном многомерном пространстве смыслов. Слово «кот» становится точкой. Слово «собака» – точкой неподалёку, потому что и то и другое – домашние животные. А слово «вертолёт» окажется где-то совсем в другом районе этой математической вселенной. Такое представление смысла через точку в пространстве называется эмбеддингом.
И вот гениальная идея: а что если фотографию кота отправить в то же самое пространство – и сделать так, чтобы её точка оказалась рядом с точкой слова «кот»?
Именно это сделала модель CLIP, которую OpenAI представила в январе 2021 года. Её обучили на 400 миллионах пар «картинка + подпись», собранных из интернета, без всякой ручной разметки. Два отдельных «переводчика» – один для картинок, другой для текста – учились так, чтобы изображение и его описание оказывались в общем пространстве как можно ближе друг к другу, а не связанные между собой пары – как можно дальше. Этот приём называется контрастным обучением.
Результат поражал: CLIP мог классифицировать картинки, которые специально для этого никто не размечал. Показываешь ей фото и список слов – она сама подбирает подходящее. Как если бы человек, выучивший язык только по подписям к фотографиям в интернете, вдруг смог опознать предмет, который раньше в глаза не видел. Магии тут нет – есть очень много данных и красивая математика. Но выглядит как магия.
А почему это вообще работает?
Что меня в этой истории восхищает больше всего? Что в основе и текста, и картинок, и звука лежит один и тот же механизм – трансформер. Его внутренний движок, так называемое «внимание», по своей природе безразличен к тому, что именно он обрабатывает. Ему всё равно, пришли ли числа из слов, из кусочков изображения или из звуковой дорожки, – он работает с последовательностью векторов, и точка.
Поэтому современная мультимодальная модель устроена логично: у каждого типа данных свой «энкодер»-переводчик (для картинок – один, для звука – другой), все они сводят сырьё в одно общее пространство, а дальше языковая часть рассуждает об этом разнородном супе как о чём-то едином. Картинку, кстати, режут на маленькие квадратики-«патчи», и каждый получает свою точку в пространстве – ровно как слово в предложении.
Помните шутку про то, что нейросеть – это «китайская комната», которая тасует символы, ничего не понимая? Так вот, в случае мультимодальности комната научилась не только тасовать иероглифы, но и смотреть в окно.
Где это уже работает
Сломалась стиральная машина? Вместо того чтобы мучительно описывать словами, что за лампочка мигает, вы просто фотографируете панель. А полевой техник снимает неисправную деталь – и система мгновенно подтягивает из базы инструкции по ремонту, видео и логи обслуживания.
Мультимодальный ИИ описывает изображения незрячим, делает субтитры в реальном времени, озвучивает текст с картинок. Технология, которая для кого-то – приятное удобство, для других становится новыми глазами и ушами.
Голосовой ассистент, который не просто распознаёт слова, но и улавливает по интонации, что вы раздражены. Поиск по фотогалерее «найди фото с собакой на пляже» – без единого тега, который вы вручную проставляли. Перевод вывески через камеру телефона. Всё это – оно. Мультимодальность, которая уже давно у вас в кармане.
Что в итоге
Если первая волна ИИ научила машины читать и писать, то нынешняя – смотреть и слушать. И на мой взгляд, это куда более глубокий сдвиг, чем кажется. Потому что мир вокруг нас – не текст. Мир – это лица, звуки, снимки, жесты, мигающие лампочки на стиральной машине.
Чем ближе ИИ подбирается к тому, чтобы воспринимать реальность так же объёмно, как мы, тем меньше нам придётся переводить эту реальность на машинный язык вручную. Звучит как тот самый помощник, которого мы все втайне хотели.
А вы уже пробовали показать нейросети фотографию вместо того, чтобы объяснять словами? Если нет – попробуйте сегодня.