Раскрыты алгоритмы Google: как работает поисковик, согласно просочившимся документам

В этой статье мы углубимся во внутреннюю работу Google, инструмента, который мы все используем ежедневно, но мало кто по-настоящему понимает. После недавней утечки документов по антимонопольному иску против Google у нас появилась уникальная возможность изучить алгоритмы Google. Некоторые из этих алгоритмов уже были известны, но что интересно, так это внутренняя информация, которой нам никогда не делились.

Мы рассмотрим, как эти технологии обрабатывают наши поисковые запросы, и определим результаты, которые мы видим. В этом анализе я стремлюсь дать четкое и подробное представление о сложных системах, стоящих за каждым поиском Google.

Более того, я попытаюсь представить архитектуру Google в виде диаграммы с учетом новых открытий.

Во-первых, мы сосредоточимся на извлечении всех алгоритмов, упомянутых в 2 документах. Первый касается показаний Панду Наяка (вице-президента по алфавиту), а второй — опровержения профессора Дугласа В. Оарда в отношении мнений, высказанных экспертом Google, профессором Эдвардом А. Фоксом, в его отчете от 3 июня 2022 года. В этом последнем документе обсуждался знаменитый и противоречивый «Fox Report», в котором Google манипулировал экспериментальными данными, чтобы попытаться продемонстрировать, что пользовательские данные не так важны для них.

Я постараюсь объяснить каждый алгоритм на основе официальной информации, если таковая имеется, а затем изложу информацию, извлеченную из испытания, в виде изображения.

Это ключевой фактор для Google и один из самых важных. Об этом также стало известно в утечке «Project Veritas» в 2019 году, потому что Пол Хаар добавил это в свое резюме

Navboost собирает данные о том, как пользователи взаимодействуют с поисковой выдачей, в частности, через клики по различным запросам. Эта система сводит в таблицу клики и использует алгоритмы, которые обучаются на созданных человеком оценках качества, чтобы улучшить ранжирование результатов. Идея заключается в том, что если результат часто выбирается (и положительно оценивается) по определенному запросу, он, вероятно, должен иметь более высокий рейтинг. Интересно, что Google много лет назад экспериментировал с удалением Navboost и обнаружил, что результаты ухудшились.

апущенный в 2015 году, RankBrain представляет собой систему искусственного интеллекта и машинного обучения Google, необходимую для обработки результатов поиска. Благодаря машинному обучению он постоянно улучшает свою способность понимать язык и намерения, стоящие за поиском, и особенно эффективен при интерпретации неоднозначных или сложных запросов. Говорят, что он стал третьим по важности фактором в рейтинге Google, после контента и ссылок. В нем используется тензорный процессор (TPU) для значительного повышения производительности и энергоэффективности.

Я прихожу к выводу, что QBST и Term Weighting являются компонентами RankBrain. Поэтому я включаю их сюда.

QBST (Query Based Salient Terms) фокусируется на наиболее важных терминах в запросе и связанных с ним документах, используя эту информацию для влияния на ранжирование результатов. Это означает, что поисковая система может быстро распознать наиболее важные аспекты запроса пользователя и приоритизировать релевантные результаты. Например, это особенно полезно для неоднозначных или сложных запросов.

В свидетельских показаниях QBST упоминается в контексте ограничений BERT. Отдельно стоит отметить, что «BERT не включает в себя большие системы запоминания, такие как navboost, QBST и т.д.» Это означает, что, хотя BERT очень эффективен в понимании и обработке естественного языка, он имеет определенные ограничения, одним из которых является его способность обрабатывать или заменять крупномасштабные системы запоминания, такие как QBST.

Term Weighting регулирует относительную важность отдельных терминов в запросе в зависимости от того, как пользователи взаимодействуют с результатами поиска. Это помогает определить, насколько релевантны определенные термины в контексте запроса. Это взвешивание также эффективно обрабатывает термины, которые очень распространены или очень редки в базе данных поисковой системы, тем самым балансируя результаты.

Делает еще один шаг вперед в понимании естественного языка, позволяя поисковой системе лучше понимать намерение и контекст запросов. Это достигается благодаря BERT; на самом деле, DeepRank — это внутреннее название BERT. Благодаря предварительному обучению на большом объеме данных документов и корректировке с учетом обратной связи от кликов и оценок людей, DeepRank может точно настроить результаты поиска, чтобы они были более интуитивно понятными и соответствующими тому, что на самом деле ищут пользователи.

RankEmbed, вероятно, фокусируется на задаче встраивания релевантных функций для ранжирования. Хотя в документах нет конкретных подробностей о его функциях и возможностях, мы можем сделать вывод, что это система глубокого обучения, предназначенная для улучшения процесса классификации поиска Google.

RankEmbed-BERT — это расширенная версия RankEmbed, объединяющая алгоритм и структуру BERT. Эта интеграция была проведена для того, чтобы значительно улучшить возможности RankEmbed по пониманию языка. Его эффективность может снизиться, если не провести повторное обучение на основе последних данных. Для своего обучения он использует лишь небольшую часть трафика, что указывает на то, что нет необходимости использовать все доступные данные.

RankEmbed-BERT, наряду с другими моделями глубокого обучения, такими как RankBrain и DeepRank, вносит свой вклад в окончательный рейтинг в поисковой системе Google, но будет работать после первоначального получения результатов (повторного ранжирования). Он обучается на данных кликов и запросов и тонко настраивается с использованием данных, полученных от асессоров (IS), и требует больших вычислительных затрат в обучении, чем модели прямого распространения, такие как RankBrain.

Он примерно в 1000 раз мощнее, чем BERT, и представляет собой серьезный шаг вперед в поиске Google. Запущенный в июне 2021 года, он не только понимает 75 языков, но и является мультимодальным, что означает, что он может интерпретировать и обрабатывать информацию в разных форматах. Эта мультимодальная возможность позволяет MUM предлагать более полные и контекстуальные ответы, уменьшая необходимость в многократном поиске для получения подробной информации. Тем не менее, его использование очень избирательно из-за его высокой вычислительной требовательности.

Все эти системы работают вместе в рамках Tangram, который отвечает за сборку поисковой выдачи, с данными из Glue. Речь идет не только о ранжировании результатов, но и о том, чтобы они были полезны и доступны для пользователей, учитывая такие элементы, как карусели изображений, прямые ответы и другие нетекстовые элементы.

Наконец, Freshness Node и Instant Glue обеспечивают актуальность результатов, придавая больший вес свежей информации, что особенно важно при поиске новостей или текущих событий.

В ходе судебного разбирательства они ссылаются на атаку в Ницце, где основной смысл запроса изменился в день атаки, что привело к тому, что Instant Glue подавила общие изображения в Tangram и вместо этого продвигала соответствующие новости и фотографии из Ниццы («красивые картинки» против «хороших картинок»):

При всем этом Google будет комбинировать эти алгоритмы для:

Понимание запроса: расшифровка намерения, стоящего за словами и фразами, которые пользователи вводят в строку поиска.
Определите релевантность: Ранжирование результатов на основе того, насколько содержимое соответствует запросу, с использованием сигналов прошлых взаимодействий и оценок качества.
Уделяйте первостепенное внимание свежести: следите за тем, чтобы самая свежая и актуальная информация поднималась в рейтинге, когда это важно.
Персонализация результатов: адаптация результатов поиска не только к запросу, но и к контексту пользователя, например, к его местоположению и устройству, которое он использует. Вряд ли есть что-то более персонализированное, чем это.

Из всего, что мы видели до сих пор, я считаю, что Tangram, Glue и RankEmbed-BERT — единственные новые предметы, просочившиеся на сегодняшний день.

Как мы видели, эти алгоритмы подпитываются различными метриками, которые мы сейчас разберем, еще раз, извлекая информацию из исследования.

В этом разделе мы снова сосредоточимся на опровергающих показаниях профессора Дугласа У. Орда и включим информацию из предыдущей утечки, «Project Veritas».

На одном из слайдов было показано, что Google использует следующие метрики для разработки и корректировки факторов, которые учитывает его алгоритм при ранжировании поисковой выдачи, а также для мониторинга того, как изменения в его алгоритме влияют на качество поисковой выдачи. Цель состоит в том, чтобы попытаться уловить намерение пользователя с их помощью.

Люди-оценщики (асессоры) играют решающую роль в разработке и совершенствовании поисковых продуктов Google. В результате их работы генерируется метрика, известная как «IS score» (Information Satisfaction Score в диапазоне от 0 до 100), полученная из оценок асессоров и используемая в качестве основного показателя качества в Google.

Он оценивается анонимно, когда асессоры не знают, тестируют ли они Google или Bing, и используется для сравнения производительности Google с его основным конкурентом.

Эти оценки IS не только отражают воспринимаемое качество, но и используются для обучения различных моделей в поисковой системе Google, включая алгоритмы классификации, такие как RankBrain и RankEmbed BERT.

Согласно документам, по состоянию на 2021 год они используют IS4. IS4 считается приближением полезности для пользователя и должен рассматриваться как таковой. Его описывают как, возможно, самую важную метрику ранжирования, но подчеркивают, что он является приблизительным и подвержен ошибкам, о которых мы поговорим позже.

Также упоминается производная от этой метрики — IS4@5.

Метрика IS4@5 используется Google для измерения качества результатов поиска, уделяя особое внимание первым пяти позициям. Эта метрика включает в себя как специальные функции поиска, такие как OneBox (известные как «синие ссылки»). Существует вариант этой метрики, называемый IS4@5 web, который фокусируется исключительно на оценке первых пяти веб-результатов, исключая другие элементы, такие как реклама в результатах поиска.

Несмотря на то, что IS4@5 полезен для быстрой оценки качества и релевантности первых результатов поиска, его область применения ограничена. Он не охватывает все аспекты качества поиска, в частности, опускает такие элементы, как реклама в результатах. Таким образом, метрика дает частичное представление о качестве поиска. Для полной и точной оценки качества поисковой выдачи Google необходимо учитывать более широкий спектр метрик и факторов, подобно тому, как оценивается общее состояние здоровья с помощью множества показателей, а не только по весу.

Ограничения, связанные с асессорами

асессоры сталкиваются с несколькими проблемами, такими как понимание технических запросов или оценка популярности продуктов или интерпретация запросов. Кроме того, языковые модели, такие как MUM, могут прийти к пониманию языка и глобальных знаний так же, как и люди, занимающиеся оценкой, что создает как возможности, так и проблемы для будущей оценки релевантности.

Несмотря на свою важность, их точка зрения значительно отличается от точки зрения реальных пользователей. Асессорам может не хватать конкретных знаний или предыдущего опыта, которые пользователи могут иметь в отношении темы запроса, что может повлиять на их оценку релевантности и качества результатов поиска.

Из просочившихся документов 2018 и 2021 годов мне удалось составить список всех ошибок, которые Google признает в своих внутренних презентациях.

Временные несоответствия: Расхождения могут возникать из-за того, что запросы, оценки и документы могут относиться к разному времени, что приводит к оценкам, которые неточно отражают текущую актуальность документов.
Повторное использование оценок: Практика повторного использования оценок для быстрой оценки и контроля затрат может привести к тому, что оценки не будут репрезентативными для текущей актуальности или актуальности контента.
Понимание технических запросов: Асессоры могут не понимать технические запросы, что приводит к трудностям в оценке релевантности специализированных или нишевых тем.
Оценка популярности: Асессорам сложно судить о популярности конкурирующих интерпретаций запросов или конкурирующих продуктов, что может повлиять на точность их оценок.
Разнообразие асессоров: Отсутствие разнообразия среди асессоров в некоторых регионах и тот факт, что все они совершеннолетние, не отражает разнообразие пользовательской базы Google, в которую входят несовершеннолетние.
Пользовательский контент: асессоры, как правило, жестко относятся к пользовательскому контенту, что может привести к недооценке его ценности и актуальности, несмотря на то, что он полезен и актуален.
Обучение узлов актуальности: они сигнализируют о проблеме с настройкой моделей свежести из-за отсутствия адекватных меток для обучения. Люди, проводящие оценку, часто не уделяют достаточного внимания аспекту актуальности релевантности или не имеют временного контекста для запроса. Это приводит к недооценке последних результатов по запросам, ищущим новизну. Существующая утилита Tangram Utility, основанная на IS и используемая для обучения релевантности и других кривых оценки, страдала от той же проблемы. Из-за ограниченного количества меток, связанных с людьми, кривые оценки узла Freshness Node были скорректированы вручную при первом выпуске.

Я искренне верю, что асессоры были ответственны за эффективное функционирование «Паразита SEO», на что наконец-то обратил внимание Дэнни Салливан и чем поделился в этом твите:

Если мы посмотрим на изменения в последних рекомендациях по качеству, то увидим, что они, наконец, скорректировали определение показателей «Удовлетворенные потребности» и включили новый пример для оценщиков, чтобы они могли учитывать, что, даже если результат является авторитетным, если он не содержит информации, которую ищет пользователь, он не должен быть оценен как высокий.

Новый запуск Google Notes, как мне кажется, также указывает на эту причину. Google не способен знать со 100% уверенностью, что представляет собой качественный контент.

Я считаю, что те события, о которых я говорю, которые произошли практически одновременно, не случайны, и в ближайшее время мы увидим изменения.

Здесь я делаю вывод, что они говорят о качестве страницы, так что это моя интерпретация. Если это так, то в документах об исследовании нет ничего, кроме упоминания об этом в качестве используемой метрики. Единственная официальная информация, которая у меня есть, которая упоминает PQ, — это Руководство по оценке качества поиска, которое меняется со временем. Таким образом, это будет еще одна задача для людей, занимающихся оценкой.

Эта информация также отправляется в алгоритмы для создания моделей. Здесь мы можем увидеть предложение об этом, просочившееся в «Project Veritas»:

Интересный момент: согласно документам, асессоры качества оценивают только страницы на мобильных устройствах.

Вероятно, это относится к тестам, в которых два набора результатов поиска размещаются рядом, чтобы асессоры могли сравнить их относительное качество. Это помогает определить, какой набор результатов более релевантный или полезный для данного поискового запроса. Если это так, то я помню, что у Google был свой собственный загружаемый инструмент для этого, sxse.

Инструмент позволяет пользователям голосовать за набор результатов поиска, который они предпочитают, тем самым обеспечивая прямую обратную связь об эффективности различных настроек или версий поисковых систем.

В официальной информации, опубликованной в How Search Works, говорится, что Google проводит эксперименты с реальным трафиком, чтобы проверить, как люди взаимодействуют с новой функцией, прежде чем развернуть ее для всех. Они активируют функцию для небольшого процента пользователей и сравнивают их поведение с контрольной группой, у которой ее нет. Подробные метрики взаимодействия пользователя с результатами поиска включают:

Клики по результатам
Количество выполненных поисков
Отмена запроса
Сколько времени понадобилось, чтобы люди кликнули на результат

Эти данные помогают оценить, является ли взаимодействие с новой функцией положительным, и гарантируют, что изменения повысят релевантность и полезность результатов поиска.

Но в документах об испытаниях выделяются только два показателя:

Длинные клики, взвешенные по позиции: эта метрика учитывает продолжительность кликов и их положение на странице результатов, отражая удовлетворенность пользователей найденными результатами.
Внимание: Это может означать измерение времени, проведенного на странице, что дает представление о том, как долго пользователи взаимодействуют с результатами и их контентом.

Кроме того, в стенограмме показаний Панду Наяка объясняется, что они проводят многочисленные тесты алгоритмов, используя чередование вместо традиционных A/B-тестов. Это позволяет им проводить быстрые и надежные эксперименты, тем самым позволяя им интерпретировать колебания в рейтингах.

Актуальность является важным аспектом как результатов, так и функций поиска. Важно показывать актуальную информацию, как только она становится доступной, и прекращать показ контента, когда он устаревает.

Чтобы алгоритмы ранжирования отображали последние документы в поисковой выдаче, системы индексирования и обслуживания должны иметь возможность обнаруживать, индексировать и обслуживать свежие документы с очень низкой задержкой. Хотя в идеале весь индекс должен быть как можно более актуальным, существуют технические и финансовые ограничения, которые не позволяют индексировать каждый документ с низкой задержкой. Система индексирования расставляет приоритеты для документов по отдельным путям, предлагая различные компромиссы между задержкой, стоимостью и качеством.

Есть риск, что очень свежий контент будет иметь недооцененную релевантность и, наоборот, что контент с большим количеством доказательств релевантности станет менее релевантным из-за изменения смысла запроса.

Роль узла Freshness заключается в добавлении исправлений в устаревшие оценки. Для запросов, ищущих свежий контент, он продвигает свежий контент и ухудшает устаревший контент.

Не так давно просочилась информация о том, что Google Caffeine больше не существует (также известный как система индексации на основе Percolator). Несмотря на то, что внутри страны все еще используется старое название, то, что существует сейчас, на самом деле является совершенно новой системой. Новый «кофеин» на самом деле представляет собой набор микросервисов, которые взаимодействуют друг с другом. Это означает, что различные части системы индексирования функционируют как независимые, но взаимосвязанные сервисы, каждая из которых выполняет определенную функцию. Такая структура обеспечивает большую гибкость, масштабируемость и простоту внесения обновлений и улучшений.

Как я понимаю, частью этих микросервисов будут Tangram и Glue, в частности, Freshness Node и Instant Glue. Я говорю это потому, что в другом просочившемся документе от «Project Veritas» я обнаружил, что было предложение от 2016 года сделать или включить «Instant Navboost» в качестве сигнала свежести, а также посещений Chrome.

До сих пор они уже инкорпорировали «Freshdocs-instant» (извлеченный из списка pubsub под названием freshdocs-instant-docs pubsub, где они брали новости, опубликованные этими СМИ в течение 1 минуты с момента их публикации) и корреляции между поисковыми пиками и генерацией контента:

В метриках свежести у нас есть несколько, которые обнаруживаются благодаря анализу коррелированных Ngram и Correlated Salient Terms:

Коррелированные NGrams: Это группы слов, которые появляются вместе в статистически значимом шаблоне. Корреляция может внезапно увеличиться во время события или трендовой темы, указывая на всплеск.
Коррелированные характерные термины: Это выдающиеся термины, которые тесно связаны с темой или событием и частота появления которых в документах увеличивается в течение короткого периода времени, что свидетельствует о всплеске интереса или связанной с ним активности.

При обнаружении пиков можно использовать следующие метрики актуальности:

Юниграммы (RTW): Для каждого документа используются заголовок, якорные тексты и первые 400 символов основного текста. Они разбиваются на униграммы, имеющие отношение к определению тренда, и добавляются к индексу Hivemind. Основной текст, как правило, содержит основное содержание статьи, исключая повторяющиеся или общие элементы (шаблон).
Half Hours since epoch (TEHH): Это мера времени, выраженная как количество получасов с начала времени Unix. Это помогает установить, когда что-то произошло, с точностью до получаса.
Knowledge Graph Entities (RTKG) — ссылки на объекты в Google Knowledge Graph, который представляет собой базу данных реальных сущностей (людей, мест, вещей) и их взаимосвязей. Это помогает обогатить поиск семантическим пониманием и контекстом.
Ячейки S2 (S2): ссылки на объекты в Google Knowledge Graph, который представляет собой базу данных реальных объектов (людей, мест, вещей) и их взаимосвязей. Это помогает обогатить поиск семантическим пониманием и контекстом.
Freshbox Article Score (RTF): Это геометрическое деление поверхности Земли, используемое для географической индексации на картах. Они облегчают ассоциацию веб-контента с точным географическим местоположением.
Документ NSR (RTN): Это может относиться к актуальности документа в новостях и, по-видимому, является показателем, определяющим, насколько документ актуален и надежен по отношению к текущим историям или актуальным событиям. Эта метрика также может помочь отфильтровать некачественный или спам-контент, гарантируя, что проиндексированные и выделенные документы имеют высокое качество и важны для поиска в режиме реального времени.
Географические измерения: объекты, определяющие географическое местоположение события или темы, упомянутой в документе. Это могут быть координаты, географические названия или идентификаторы, такие как ячейки S2.

Если вы работаете в СМИ, эта информация является ключевой, и я всегда включаю ее в свои тренинги для цифровых редакторов.

В этом разделе мы сосредоточимся на внутренней презентации Google, опубликованной по электронной почте под названием «Unified Click Prediction», презентации «Google is Magical», презентации Search All Hands, внутреннем электронном письме от Дэнни Салливана и документах из утечки «Project Veritas».

На протяжении всего этого процесса мы видим фундаментальную важность кликов для понимания поведения/потребностей пользователей. Другими словами, Google нужны наши данные. Интересно, что одной из вещей, о которой Google запретили говорить, были клики.

Прежде чем начать, важно отметить, что основные документы, обсуждаемые о кликах, датируются до 2016 года, и с тех пор Google претерпел значительные изменения. Несмотря на эту эволюцию, основой их подхода остается анализ поведения пользователей, считая его сигналом качества. Помните патент, где объясняют модель CAS?

Каждый поиск и клик, предоставленный пользователями, способствует обучению и постоянному совершенствованию Google. Эта петля обратной связи позволяет Google адаптироваться и «узнавать» о поисковых предпочтениях и поведении, поддерживая иллюзию, что он понимает потребности пользователей.

Ежедневно Google анализирует более миллиарда новых моделей поведения в системе, предназначенной для непрерывной корректировки и превышения прогнозов на будущее, основанных на прошлых данных. По крайней мере, до 2016 года это превышало возможности систем искусственного интеллекта того времени, требуя ручной работы, которую мы видели ранее, а также корректировок, внесенных RankLab.

RankLab, насколько я понимаю, это лаборатория, которая тестирует разные веса сигналов и факторов ранжирования, а также их последующее влияние. Они также могут отвечать за внутренний инструмент «Twiddler» (о котором я тоже читал много лет назад в «Project Veritas»), с целью ручного изменения IR-оценок определенных результатов, или, другими словами, для того, чтобы иметь возможность делать все следующее:

После этой короткой интерлюдии я продолжаю.

В то время как оценки асессора дают базовое представление, клики предоставляют гораздо более подробную панораму поведения при поиске.

Это позволяет выявлять сложные паттерны и изучать эффекты второго и третьего порядка.

Эффекты второго порядка отражают возникающие закономерности: если большинство предпочитает подробные статьи быстрым спискам, Google это обнаруживает. Со временем он корректирует свои алгоритмы, чтобы отдавать приоритет этим более подробным статьям в связанном поиске.
Эффекты третьего порядка — это более широкие, долгосрочные изменения: если тренды кликов благоприятствуют исчерпывающим руководствам, создатели контента адаптируются. Они начинают выпускать более подробные статьи и меньше списков, тем самым изменяя характер контента, доступного в Интернете.

В анализируемых документах представлен конкретный случай, когда релевантность результатов поиска была улучшена за счет анализа кликов. Google выявил расхождение в предпочтениях пользователей, основанных на кликах, в отношении нескольких документов, которые оказались релевантными, несмотря на то, что они были окружены набором из 15 000 документов, считающихся нерелевантными. Это открытие подчеркивает важность кликов пользователей как ценного инструмента для выявления скрытой релевантности в больших объемах данных.

Google «тренируется с прошлым, чтобы предсказывать будущее», чтобы избежать переобучения. Благодаря постоянным оценкам и обновлению данных модели остаются актуальными и актуальными. Ключевым аспектом этой стратегии является персонализация локализации, обеспечивающая релевантность результатов для разных пользователей в разных регионах.

Что касается персонализации, то в более позднем документе Google утверждает, что она ограничена и редко меняет ранжирование. Они также упоминают, что в «Top Stories» он никогда не встречается. Он используется для того, чтобы лучше понять, что ищут, например, используя контекст предыдущих поисков, а также для того, чтобы сделать прогнозные предложения с автозаполнением. Они упоминают, что могут немного улучшить поставщика видео, которым часто пользуется пользователь, но все увидят в основном одинаковые результаты. По их словам, запрос важнее пользовательских данных.

Важно помнить, что такой подход, ориентированный на клики, сталкивается с проблемами, особенно при работе с новым или редким контентом. Оценка качества результатов поиска — это сложный процесс, который выходит за рамки простого подсчета кликов. Несмотря на то, что этой статье, которую я написал, уже несколько лет, я думаю, что она может помочь углубиться в эту тему.

Следуя предыдущему разделу, я сформировал мысленный образ того, как мы могли бы разместить все эти элементы на диаграмме. Весьма вероятно, что некоторые компоненты архитектуры Google не находятся в определенных местах или не связаны как таковые, но я считаю, что этого более чем достаточно в качестве приближения.

Возможное функционирование и архитектура Google. Нажмите, чтобы увеличить изображение.

В этом последнем разделе мы сосредоточимся на показаниях эксперта-свидетеля Антонио Рангеля, поведенческого экономиста и профессора Калифорнийского технологического института, об использовании опций по умолчанию для влияния на выбор пользователей, во внутренней презентации «О стратегической ценности домашней страницы по умолчанию для Google», а также на комментариях Джима Колотуроса, вице-президента Google, во внутреннем электронном письме.

Как показывает Джим Колоторос (Jim Kolotouros) во внутренней переписке, Chrome — это не просто браузер, а ключевая часть головоломки доминирования Google в поиске.

Среди данных, которые собирает Google, есть поисковые шаблоны, клики по результатам поиска и взаимодействия с различными веб-сайтами, что имеет решающее значение для совершенствования алгоритмов Google и повышения точности результатов поиска и эффективности таргетированной рекламы.

По мнению Антонио Рангела, рыночное превосходство Chrome выходит за рамки его популярности. Он действует как шлюз в экосистему Google, влияя на то, как пользователи получают доступ к информации и онлайн-сервисам. Интеграция Chrome с Google Search, который является поисковой системой по умолчанию, дает Google значительное преимущество в контроле потока информации и цифровой рекламы.

Несмотря на популярность Google, Bing не уступает поисковой системе. Тем не менее, многие пользователи предпочитают Google из-за удобства его конфигурации по умолчанию и связанных с этим когнитивных искажений. На мобильных устройствах влияние поисковых систем по умолчанию сильнее из-за трения, связанного с их изменением; Для изменения поисковой системы по умолчанию требуется до 12 кликов.

Эта настройка по умолчанию также влияет на решения потребителей о конфиденциальности. Настройки конфиденциальности Google по умолчанию создают значительные трудности для тех, кто предпочитает более ограниченный сбор данных. Изменение варианта по умолчанию требует осведомленности о доступных альтернативах, изучения необходимых шагов для изменения и реализации, что представляет собой значительные трения. Кроме того, поведенческие предубеждения, такие как статус-кво и неприятие потерь, заставляют пользователей склоняться к сохранению опций Google по умолчанию. Все это я лучше объясняю здесь.

Показания Антонио Рангеля напрямую перекликаются с внутренними аналитическими выводами Google. В документе отмечается, что настройка главной страницы браузера оказывает значительное влияние на рыночную долю поисковых систем и поведение пользователей. В частности, высокий процент пользователей, у которых Google является домашней страницей по умолчанию, выполняют на 50% больше поисковых запросов в Google, чем те, кто этого не делает.

Это говорит о сильной корреляции между домашней страницей по умолчанию и предпочтениями поисковых систем. Кроме того, влияние этой обстановки варьируется в зависимости от региона: оно более выражено в Европе, на Ближнем Востоке, в Африке и Латинской Америке и в меньшей степени в Азиатско-Тихоокеанском регионе и Северной Америке. Анализ также показывает, что Google менее уязвим к изменениям настроек домашней страницы по сравнению с конкурентами, такими как Yahoo и MSN, которые могут понести значительные убытки, если потеряют эту настройку.

Настройка главной страницы определена как ключевой стратегический инструмент для Google, не только для сохранения своей доли рынка, но и как потенциальная уязвимость для конкурентов. Кроме того, подчеркивается, что большинство пользователей не выбирают поисковую систему активно, а склоняются к доступу по умолчанию, предоставляемому настройками их домашней страницы. С экономической точки зрения, дополнительная пожизненная ценность примерно в 3 доллара США на пользователя оценивается для Google, если он установлен в качестве главной страницы.

Изучив алгоритмы и внутреннюю работу Google, мы увидели, какую важную роль в ранжировании результатов поиска играют клики пользователей и асессоры.

Клики, как прямые индикаторы предпочтений пользователей, необходимы Google для постоянной корректировки и повышения релевантности и точности своих ответов. Хотя иногда они могут хотеть обратного, когда цифры не сходятся...

Кроме того, асессоры вносят важнейший уровень оценки и понимания, который даже в эпоху искусственного интеллекта остается незаменимым. Лично я очень удивлен этим моментом, зная, что асессоры были важны, но не до такой степени.

Сочетание этих двух входных данных, автоматической обратной связи через клики и человеческого контроля, позволяет Google не только лучше понимать поисковые запросы, но и адаптироваться к меняющимся тенденциям и информационным потребностям. По мере развития искусственного интеллекта будет интересно посмотреть, как Google продолжит балансировать эти элементы, чтобы улучшить и персонализировать поиск в постоянно меняющейся экосистеме с акцентом на конфиденциальность.

С другой стороны, Chrome — это гораздо больше, чем браузер; Это важнейший компонент их цифрового доминирования. Его синергия с Google Поиском и его реализация по умолчанию во многих областях влияют на динамику рынка и всю цифровую среду. Посмотрим, чем закончится антимонопольный процесс, но они уже более 10 лет не платят около 10 миллиардов евро штрафов за злоупотребление доминирующим положением.
👉 Читайте мой SEO блог
👉 Telegram канал SEOвич
👉 YouTube канал SEOвич
👉 RuTube канал SEOвич

3 комментария

Ирина Семенчик

23 апр

Я нашла человека, который является квинтэссенцией SEO. Наконец-то у вещи которую я всем сердцем ненавижу есть лицо. Причем даже если вы не нейросеть, а живой человек то все равно, как личность уже мертвы. Пожалуйста, пока не поздно, найдите себе нормальную работу, начните создавать хороший контент, помогайте людям!

Ответить