Сможет ли Google вернуть потерянное лидерство в ИИ?

На днях побеседовал с Валентином Телегиным, экспертом в мобильной разработке с 20-летним стажем и техническим директором в крупной ИТ компании. Он рассказал о текущих наработках Google, проанализировал причины отставания и возможные сценарии развития ИИ-проектов компании.

***

Корпорация Google, когда-то считавшаяся бесспорным лидером в области искусственного интеллекта, сегодня оказалась в сложном положении. Чуть ли не каждую неделю анонсируется очередной прорывной ИИ-проект, языковая модель или чудо-нейросеть, но про ИИ-проекты Google мало что слышно.

А ведь начиналось всё достаточно оптимистично. Google была в авангарде достижений в области ИИ, совершив прорыв в машинном обучении и обработке естественного языка, что оказало глубокое влияние на многие отрасли — от здравоохранения и финансов до автономных автомобилей. В частности, можно упомянуть такие инициативы как Google Brain и TensorFlow. Огромные ресурсы данных и исследовательский потенциал компании вывели ее на передовые позиции в области ИИ-технологий.

Как получилось, что такая технологически развитая корпорация с доступом к огромному массиву данных уступила свои позиции в ИИ-гонке? Увидим ли мы ее возвращение в число лидеров в недалеком будущем? Попробуем разобраться.

Анализируя обстоятельства и условия, которые привели Google в категорию «отстающих», я бы выделил три основных причины.

Как известно, языковые модели ИИ могут выдавать неточную или недостоверную информацию, а также генерировать тексты оскорбительного или дискриминационного содержания, «научившись» этому в ходе тренировки на больших объемах текстов из интернета. Компания хотела избежать скандалов, если бы подобное появилось, скажем, в поиске Google.

Поэтому, когда дело дошло до активного внедрения технологий, лежащих в основе LaMDA (языковая модель, разработанная Google), Google решил действовать крайне осторожно.

Эти ограничения были поддержаны исследователями из Google, которые приводили доводы в пользу осторожного обращения с технологиями генерации текста. Некоторые разработчики, трудившиеся над LaMDA, были разочарованы нерешительностью Google по внедрению ИИ в продукты, и покинули компанию, чтобы создавать собственные стартапы.

Одним из ключевых факторов, способствующих отставанию Google от конкурентов, является быстрый рост других технологических гигантов, в частности, Amazon и Microsoft. Эти компании добились значительных успехов, используя свои обширные ресурсы и возможности облачных вычислений для разработки мощных сред и платформ ИИ.

В последние годы ландшафт ИИ стал более диверсифицированным: в больших количествах появляются специализированные стартапы, которые совершают прорывы в своих нишах и вертикалях. Преимущество этих стартапов в том, что они могут быстро внедрять инновации и разрабатывать ИИ-решения, адаптированные к конкретным потребностям.

Изыскания Google в области искусственного интеллекта носили более общий характер, им не хватало узкой направленности, которая характеризует ИИ-стартапы. Всё это привело к тому, что Google уступил свои лидирующие позиции.

Реальная угроза для Google также исходит от открытых сообществ, где инженеры продвигают свои модели, конкурирующие с моделями крупных технологических компаний. Эти модели зачастую производительнее и лучше кастомизируются, чем разработки Google.

Еще один фактор, препятствующий лидерству Google в области искусственного интеллекта — это растущая озабоченность по поводу конфиденциальности и безопасности данных.

Бизнес-модель Google в значительной степени зависит от сбора пользовательских данных для обеспечения работы алгоритмов искусственного интеллекта и предоставления персонализированных услуг.

Однако в связи с усилением контроля и ужесточением правил, касающихся конфиденциальности данных, Google столкнулся с проблемами при использовании пользовательских данных для разработки и продвижения ИИ-проектов.

В то же время, некоторые конкуренты Google выбрали подход, ориентированный на конфиденциальность данных, что находит больший отклик у пользователей, которые всё более осторожно относятся к тому, как используются их данные.

Microsoft, Google, Baidu и другие вовсю работают над тем, чтобы создать бота, который сможет отвечать на все вопросы пользователей прямо в поисковике. Битва идет не на жизнь, а на смерть. И пока что, судя по всему, в ней выигрывает Microsoft.

Всё потому, что в 2019 году она инвестировала в OpenAI, конкурента гораздо более известной в то время DeepMind. Это оказалось одной из их лучших инвестиций.

Соперничество Google с OpenAI заставило компанию сосредоточиться на более быстром внедрении и развитии своих ИИ-технологий.

Вокруг ChatGPT лихорадочный ажиотаж: этому ИИ уже нашли десятки применений, от написания диссертаций и прохождения интервью до дебаггинга программ и подготовки дипломных работ. Чат-бот способен давать сложные ответы на вопросы, синтезируя тексты на основе данных, на которых он был обучен. Использование плагинов в платной версии также позволяет извлекать информацию напрямую из Интернета и других источников.

То, как действует ChatGPT, в некотором смысле противоречит логике обычной поисковой системы. Работа с ботом может дать ощущение более плавного, в каком-то смысле даже кооперативного поиска. Потенциально это может открыть новую огромную нишу.

Однако важно учитывать и ограничения ChatGPT (по крайней мере, в его текущем виде). Как выяснилось, бот легко генерирует ложные сведения, придумывая то, чего в реальности нет. Его базовые алгоритмы не извлекают данные из базы фактов или ссылок напрямую, а вместо этого генерируют последовательности слов, статистически напоминающие те, которые встречались в его обучающих данных.

А значит, поисковик из ChatGPT будет, мягко говоря, ненадежный. Поэтому нужны дополнительные правила, ограничивающие его результаты.

Несмотря на вышеуказанную проблему, несколько титанов веб-поиска, а также целый ряд компаний поменьше уже бегут вперед со всех ног.

В начале этого года Microsoft добавила в браузер Edge и поисковик Bing опцию чатбота на основе модели GPT4, которому можно задавать вопросы и получать исчерпывающие ответы. В отличие от бесплатной версии ChatGPT, у Bing Chat есть прямой доступ к данным из интернета, которые он может использовать в своих ответах.

По мнению руководства Microsoft, это позволит компании, наконец, получить преимущество над Alphabet с их доминирующими в поиске Google и Chrome. И это мнение небезосновательно.

Давайте теперь рассмотрим несколько ИИ-проектов Google, которые были представлены на недавней конференции Google I/O 2023.

Google анонсировал ИИ-помощника, который будет помогать пользователям решать их задачи в экосистеме Google Workspace. Среди его ключевых функций были заявлены следующие:

Помощь в написании писем в Gmail: будет доступно не только в веб-версии, но и на мобильных устройствах.
Генерация изображений по текстовому описанию прямо в Google Презентациях.
Автоматическая генерация статей по заданной теме с помощью ИИ в Google Документы.
Корректировка готового текста в Google Документах.
Подсказки и помощь в организации данных в Google Таблицах.
Помощь в написании кода в средах Google Cloud.

Magic Editor позволит обрабатывать и модифицировать фотографии без лишних усилий. Например, на фото справа нейросеть переместила человека в сторону, удалила людей на заднем плане и сделала небо более ярким — и всё это по нажатию одной кнопки.

На другой фотографии Magic Editor переместил ребенка на скамейке ближе к центру снимка, создавая новые части скамейки и воздушные шарики слева, чтобы заполнить пустое пространство.

Ожидается, что функция будет доступна уже в этом году.

PaLM 2 — это улучшенная языковая модель Pathways, представленная корпорацией в 2022 году. Это ответ Google на ChatGPT от OpenAI и Microsoft с его поисковой ИИ-машиной Bing.

PaLM 2 обучена на больших объемах не англоязычного текста (понимает до 100 языков, учитывая нюансы и идиомы каждого языка), обладает широкими возможностями для написания кода, перевода текста, генерации контента, аргументации.

PaLM 2 используется в 25 продуктах Google. Например, Med-PaLM 2 имеет медицинское лицензирование на уровне «эксперт» и позволяет медработникам ставить более правильные диагнозы. Еще один пример — Sec-PaLM, помогающий обеспечивать кибербезопасность.

Google заявляет, что PaLM 2 превосходит GPT-4 в некоторых математических задачах, задачах перевода и рассуждений. Впрочем, реальность может не соответствовать тестам Google. В ходе оценки версии Bard для PaLM 2, профессор из Уортона Итан Моллик обнаружил, что производительность PaLM 2 в среднем хуже, чем у GPT-4 и Bing, что он подробно описал у себя в Twitter.

На презентации Google также продемонстрировала в действии свой фирменный поисковик с интегрированным в него чат-ботом Bard. По задумке, Bard станет важной частью поисковика, сделав его более интеллектуальным и адаптируемым под конкретный запрос пользователя.

По заявлениям Google, чат-бот использует самые передовые на сегодняшний день разработки Google в области больших языковых моделей (LLM), включая новую модель общего назначения PaLM2 и многозадачную унифицированную модель (MuM), которую Google использует для распознавания информации, представленной в различных типах медиа.

В качестве примера работы новой выдачи с применением нейросетей попросили подобрать Bluetooth-колонку для вечеринки. ИИ проанализировал цены в магазинах и подобрал наиболее удачные и выгодные варианты.

Среди важных функций стоит отметить, что Bard не только умеет отвечать на текстовые запросы, но также может подкреплять их источниками. Кроме того, он умеет генерировать картинки (за счёт другой нейросети – Adobe Firefly) и распознавать изображения.

Отмечается, что Bard способен понимать 40 языков, среди них русский. Кроме того, Bard знает 20 языков программирования и способен объяснять код предоставленных ему программ. Как утверждает Google, на данный момент Bard уже доступен всем пользователям (однако в России он не работает).

MusicLM — это новый экспериментальный ИИ-инструмент от Google, который превращает текст в музыку. Например, если вы устраиваете званый ужин, то можете просто ввести «душевный джаз для званого ужина», и инструмент сгенерирует два соответствующих запросу трека.

Пользователи могут указать тип музыкальных инструментов, например, «электронные» или «классические», а также «настроение или эмоциональный тон» композиции.

Проблема состоит в том, что подобные музыкальные генераторы с искусственным интеллектом «учатся» на существующей музыке. В соответствие с законом об авторском праве в США, они нарушают авторские права на музыку. Пока эти вопросы решаются индивидуально в судебном порядке.

Codey — это базовая модель преобразования текста в код от Google Cloud.

Его можно встроить в SDK или приложение, чтобы повысить скорость разработки за счет создания и завершения начатого кода, а также улучшить качество кода.

Codey поддерживает более 20 языков кодирования, включая Go, Google Standard SQL, Java, Javascript, Python и Typescript.

Google разрабатывает сервис перевода, способный переводить видео и синхронизировать изображение губ говорящего с текстом, произносимым им.

Принцип работы сервиса следующий: он получает входное видео, записанное на одном языке, транскрибирует речь, переводит её и затем восстанавливает речь на другом языке, в соответствии со стилем и тоном другого языка.

Здесь нужно отдать должное Яндексу: функция синхронного переводчика уже давно есть в Yandex Browser. Но до уровня профессионального дубляжа, конечно, в обоих случаях пока далеко.

После появления ChatGPT и запуска технологии Bing AI от Microsoft модернизация поисковика стала приоритетной задачей для Google. Чат-бот Bing на базе языковой модели GPT-4 от OpenAI привлек к конкуренту Google миллионы пользователей.

В ответ на это Google представила своего чат-бота Bard, но удивить общественность тогда не получилось. На Google IO 2023 было объявлено, что Bard перевели на языковую модель Palm 2 и открыли доступ для всех пользователей.

Так сможет ли Google вернуть потерянное лидерство в ИИ?

Хотя ничего прорывного на Google IO компания не представила, всё же они смогли попасть в тренд и продвинуть использование ИИ-инструментов в своих продуктах. В конечном счете, именно этого ожидает пользователь — чтобы можно было быстрее и проще выполнять задачи, не переключаясь из одного специализированного инструмента в другой.

Консервативный подход к внедрению ИИ стал одной из основных причин, почему Google приходится теперь прилагать значительные усилия, чтобы не отстать от успеха ChatGPT и добиться скорости внедрения, которую показала компания Microsoft со своим поисковиком Bing.

На данный момент Google делит первые места с другими компаниями, но, как мы видим, стремится изо всех сил выбиться в победители ИИ-гонки. Технической базы и финансовых возможностей у компании Google вполне достаточно, чтобы быть в лидерах отрасли.

1 комментарий

Наталья Антошина

07.06.2023

То, что в статье названо "консервативным подходом", обычно и, возможно, для Google - либо юридические риски (к сожалению, их не всегда видит поддержка стартапов), либо тормозящий развитие бюрократический слой внутри, то есть проблемы управления.
И то, и другое решаемо, если видеть и признавать проблемы и прилагать усилия:)
Конкуренция с нишевыми стартапами для гигантов, в принципе, выглядит не очень реальной, обычным приемом является мониторинг-финансирование-выкуп удачных идей и технологий.
Зато обычно не обойти гигантов в масштабировании и глобальном влиянии на отрасль, в системности, трендах и лучших практиках.

Ответить

Сможет ли Google вернуть потерянное лидерство в ИИ?

В чем причины отставания Google?

Консервативный подход к внедрению ИИ-технологий

Активная конкуренция со стороны IT-гигантов и ИИ-стартапов

Конфиденциальность и безопасность данных

Разговорный ИИ в поисковиках: борьба за первенство

ChatGPT

Bing

Наработки Google в области ИИ

Duet AI: многофункциональный ИИ ассистент

Magic Editor в Google Фото

PaLM2: усовершенствованная языковая модель

Bard: поисковик с чатботом

MusicLM: создание музыки по текстовому запросу

Codey: ассистент разработчика

Универсальный переводчик

Что в итоге?