Поиск Google отдаёт предпочтение крупным компаниям и ведёт чёрные списки запросов: главное из расследования WSJ

Журналисты провели более сотни интервью в попытках понять, как компания вмешивается в работу поисковика.

Издание Wall Street Journal опубликовало большое расследование работы поиска Google — журналисты провели более 100 интервью и несколько недель изучали выдачу самостоятельно.

3,8 млн запросов, по оценкам журналистов WSJ, получает поиск Google в минуту.

90% мирового рынка поисковых систем принадлежат Google.

Более $900 млрд составляет капитализация материнского холдинга Alphabet.

Руководство Google неоднократно подчёркивало на публичных мероприятиях, в том числе во время слушаний в Конгрессе США, что компания не вмешивается в составление поисковой выдачи вручную: алгоритмы поиска совершенно объективны, полностью автономны и «не испорчены» влиянием человеческих или бизнес-интересов.

Собеседники WSJ рассказали, что в 2018 году Google внесла в алгоритмы более 3200 изменений разного рода, в 2017 году — 2400, в то время как в 2010 году — около 500. В Google объясняют это тем, что около 15% запросов сейчас представляют слова или комбинации слов, с которыми система ранее не сталкивалась, что заставляет разработчиков корректировать работу алгоритмов — чтобы те предоставляли как можно более релевантные результаты.

«Наше расследование показало, что команда Google вмешивается в формирование поисковой выдачи в гораздо большей степени, чем готова это признать», — пишет WSJ. Редакция vc.ru выбрала основные идеи из текста.

Поиск отдаёт предпочтение крупным компаниям

Google очень редко в деталях рассказывает, какие именно изменения вносит в алгоритмы и зачем, и это «приводит в замешательство» некоторые компании и сообщества, которые чувствуют, будто их судьба зависит от прихотей гиганта.

Компания пытается рассказывать о работе своих алгоритмов, но только до той степени, которая не позволит злоумышленникам воспользоваться полученной информацией для манипуляций с поиском.

WSJ

Например, в поиске Google отдаёт предпочтения крупным компаниям, исходя из предположения, что покупатель охотнее приобретёт что-то в большом и известном магазине. Это приводит к тому, что большую часть верхних строк выдачи часто занимает Amazon — даже по запросам о продуктах, которые уже вышли из продажи в магазине.

Эту проблему внутри Google обсуждают несколько лет, но руководство каждый раз решает ничего не менять, рассказали собеседники издания.

Представительница Google в комментарии отвергла предположение о том, что поисковой алгоритм должен отдавать предпочтение крупному бизнесу. «Неверно также полагать, что мы не пытаемся решить проблему с отображением вышедших из продажи товаров на высоких позициях в выдаче», — сказала она.

В дополнение крупные компании получают советы по тому, как улучшить свои позиции в поиске, в то время как небольшим проектам, которые не знакомы с командой поисковика, такие подсказки недоступны, рассказали сотрудники Google в беседе с журналистами.

Руководитель одного из крупнейших рекламных клиентов Google — агентства iProspect — рассказал, что после крупных обновлений его команда проводит звонки с разработчиками, которые подробно объясняют, что именно изменилось. «Однако в Google нам не сообщают ничего такого, о чём компания не рассказывала бы публично», — говорит он.

Так, в 2014 году eBay заметила, что стала получать меньше трафика из Google, на что получила объяснение: поисковик пессимизировал позиции части страниц eBay в выдаче. После длительных переговоров с командой в целом и с отдельными разработчиками Google согласилась вернуть части страниц прежние позиции при условии, что онлайн-аукцион проследит за их наполнением и релевантностью.

Компаниям без влияния eBay приходится сложнее: WSJ приводит в качестве примера историю купонного сайта DealCatcher, который за день потерял около 93% трафика из-за изменения алгоритмов выдачи. У команды не было контактов в Google, так что она наняла консультанта, который попытался связаться с представителями компании, однако так никогда и не получил ответа. Спустя месяц трафик так же неожиданно вернулся.

Google мягче относится к вмешательству в непоисковые блоки страницы и старается не «подстрекать» пользователей

Компания вмешивается в работу дополнительных блоков, которые появляются на одной странице с поисковой выдачей — например, подборок новостей или видеороликов по теме, полей «пользователи также искали» и «знаний», которое собирает сводную информацию по запросу.

​Синим цветом обозначены непоисковые блоки, зелёным — поисковая выдача
​Синим цветом обозначены непоисковые блоки, зелёным — поисковая выдача

По словам журналистов WSJ, Google «совершенно по-разному» формирует поисковую выдачу и список релевантных запросов в строке автозаполнения.

WSJ несколько недель тестировало автозаполнение на примере нескольких спорных запросов (они касались некоторых политиков, включая Дональда Трампа, наркотиков, абортов, иммигрантов) и заметило, что в ответ на ряд запросов не предлагает многие варианты, которые оказывались в подсказках от Bing от Microsoft и DuckDuckGo.

Например, по запросу "abortion is" («аборт это») Google предлагает варианты автозаполнения: "legal" («легально»), "normal" («нормально»), "safe" («безопасно»), "a constitutional right" («конституционное право»). Bing предлагает в том числе варианты: "bad" («плохо»), "immoral" («аморально»), "not murder" («не убийство»). В ряде тестов по другим запросам выдача Google предлагала как либеральные, так и более консервативные варианты.

В публичных правилах Google указано, что функция автозаполнения не может предлагать пользователю строки, связанные с харассментом, угрозами, «ненадлежащей сексуализацией» или раскрытием частной и деликатной информации.

Такие правила частично заложены с момента создания функции автоподсказки в 2004 году. Её разработчик Кевин Гиббс сразу запретил попадание в строку автозаполнения описания сексуальных актов, даже если такой запрос был одним из самых популярных.

«Без фильтрации список запросов зачастую выглядел ужасно», — говорит Гиббс, который покинул Google в 2012 году. В Google до сих пор ведут чёрный список запросов, которые изымаются из списка предложений вручную, рассказал источник WSJ.

У компании есть и другие чёрные списки

На слушаниях в Конгрессе представители Google заявили, что компания не ведёт чёрные списки. В комментарии для WSJ в компании уточнили, что речь шла только о политически мотивированных чёрных списках компаний, людей или сайтов.

Собеседники WSJ рассказали, что Google ведёт списки сайтов, которые не могут появиться в поисковой выдаче вообще или по определённому запросу. Причём они не имеют отношения к списку страниц, которые Google обязана исключать из выдачи по закону — его ведут отдельно.

С 2010 по 2018 год Google получила 685 тысяч запросов на удаление ссылок из поисковой выдачи от правительств по всему миру. 78% из них — с 2016 по 2018 год.

Чаще всего такие запросы приходят из России — всего в российском правительстве потребовали удалить из выдачи 255 тысяч ссылок. Источник WSJ в Google сказал, что чаще всего это запросы об удалении ссылок на страницы с запрещенной в России информацией — с пропагандой наркотиков или суицида.

Сайт может попасть в чёрный список, например, если использует спам-тактики вывода в верхнюю часть поисковой выдачи, искусственно набивая себе рейтинг.

Сооснователь Google Сергей Брин с самого основания компании выступал против введения агрессивной антиспам-политики — он считал, что работа по определению спама потребует слишком большого человеческого вмешательства. Источники WSJ заметили, что еврей по происхождению Брин лично выступил за показ антисемитских сайтов в выдаче по запросу "jew" («еврей»).

Другой источник рассказал, что в 2004 году другой сооснователь Ларри Пейдж, столкнувшись в туалете с топ-менеджером «Поиска» Беном Гомесом, дал тому добро на борьбу со спамом: «Делайте что нужно. Сергей просто разрушит эту компанию». После этого компания ослабила требования о невмешательстве в результаты поиска.

На слушаниях в Конгрессе представители компании утверждали, что любое изменение алгоритма рассматривается специальным комитетом. Источники WSJ рассказали, что это длительное мероприятие, подобное защите диссертации — поэтому на самом деле множество мелких изменений принимают без одобрения комитета.

Представители Google подтвердили изданию, что изменения не всегда рассматриваются на заседаниях, но любое из них так или иначе оценивается по другим принципам.

Косвенно влиять на результаты выдачи могут и сотрудники, и подрядчики, и другие стороны

В компании не могут прийти к соглашению насчёт допустимой степени вмешательства в результаты поиска, поэтому любой сотрудник может пожаловаться на выдачу, которая не кажется ему подходящей.

Например, в 2015 году один из сотрудников пожаловался на результаты выдачи по запросу «как вакцинация вызывает аутизм» ("how do vaccines cause autism"): в выдаче появлялись ссылки на сайты, агитирующие против прививок. Некоторые работники выступали за то, чтобы дать алгоритму самостоятельно ранжировать результаты, но в итоге на первое место выдачи вывели сайт howdovaccinescauseautism.com — страницу с единственной фразой на ней: "They f—ing don’t" («Никак, *****»).

«Построить и поддерживать сервис вроде Google — значит принимать тысячи сложнейших решений. С одной стороны, для этого компания и нанимает лучших разработчиков мира — они решают эти проблемы при помощи миллионов строк сложного кода. С другой стороны, наравне с ними Google располагает армией из 10 тысяч низкооплачиваемых подрядчиков, которые сидят у себя дома и оценивают результаты работы, — пишет WSJ. — Рейтинги, которые они составляют на основе гайдлайнов от компании, также влияют на позиции сайтов в выдаче».

Один из таких подрядчиков рассказал WSJ, что в 2016 году оплата за час работы составляла $13,5. За год работы с ним ни разу не связался никто из команды Google и не рассказал, как компания использует результаты его работы. При этом компания часто присылала документы, в которых описывала, как именно должны выглядеть правильные результаты выдачи.

Представительница Google заявила, что гайдлайны работы таких подрядчиков «абсолютно прозрачные», и компания всегда явно обозначает, что именно делают её алгоритмы и для чего.

Глава Google с 2015 года Сундар Пичаи, по словам источников WSJ внутри компании, гораздо более открыт к обсуждению конкретных результатов поисковой выдачи со сторонними компаниями и людьми, чем основатели Сергей Брин и Ларри Пейдж.

Сундар Пичаи
Сундар Пичаи

Google не ставит в приоритет борьбу с дезинформацией

Внутреннее расследование Google в 2016 году показало, что примерно в 0,1–0,25% случаев в поисковую выдачу попадает дезинформация того или иного рода, говорит один из топ-менеджеров компании. По подсчётам WSJ, это около 2 миллиардов поисковых запросов в год. При этом Facebook, для сравнения, попала под внимание Конгресса из-за политической рекламы, которую увидели около 126 миллионов пользователей.

Представительница Google объяснила, что в 0,1–0,25% случаев речь идёт не исключительно о дезинформации, а о любом несоответствии результатов поисковой выдачи стандартам качества компании. Она также отвергла точность расчётов WSJ о количестве поисковых запросов, которые Google получает в год.

WSJ замечает, что другие платформы вроде Facebook и Twitter борются с дезинформацией вручную, вводя чёткие правила касательно контента, который нельзя размещать на их платформах, в то время как Google пытается бороться с ней алгоритмическими методами, выстраивая модели фильтрации поиска. В компании говорят, что Google, в отличие от той же Facebook, занимается лишь индексацией контента, а не его публикацией — поэтому принимает в его фильтрации не такое активное участие.

Один из топ-менеджеров Google сказал WSJ, что проблема определения дезинформации слишком сложная и компания просто не желает в неё погружаться.

5252
54 комментария

 у меня знакомый работал в гугле на хорошей позиции. Ну и я его спрашиваю пару лет назад об том как именно работает их поиск. Ответ его был примерно таков: гугл утратил понимание как работает его поисковик еще в году так 2008. То есть они знают как работают те или иные алгоритмы по отдельности, но не как все вместе взятые. 

30
Ответить

Да, какая разница, если дальше третей страницы забредают только редкие странники. После десятой - можно закольцевать выдачу и никто не заметит.

20
Ответить

Это так похоже на реальный порядок вещей в IT, что вполне может быть правдой.

11
Ответить

Я тоже так думаю, раньше я мог найти информацию, а сейчас в выдаче выпадает все что популярно. К примеру хотел найти, когда был последний медведь в жигулевском заповеднике. Мне куча ответов - медведь в Жигулевске, видео с медведем в Жигулевске, и кучу сайтов где этот медведь гуляет в Жигулевске. Хоть Вики помогло, как-то гуляли в этих лесах и немного поспорили, что там не медведь вдалеке, а кабан скорее всего. И не мог вспомнить, то ли в в начале века их уже не было то ли, в 19, оказался второй вариант.

Ответить

Вообще не понял на чем строятся обвинения этой желтушной газеты.
Ну да, большие компании выше в поиске, на них же чаще переходят.

25
Ответить

Хрен бы с ними с компаниями, но гугл манипулирует и политической выдачей

10
Ответить

Там вопрос в другом, если ответ не подразумевает именно большую компанию, но она в выдаче появляется. Попробую условный пример... "Что такое Prime video?" Среди ответов на вопрос будет ссылка на сайт Amazon , но ниже будут сайты которые прямо отвечают на вопрос. Пример не очень, но такое бывает и бывает очень явно когда алгоритм за меня думает. Стоит только задать редкий или "нелепый" вопрос, то вообще все ломается. 

4
Ответить