Лого vc.ru

Почему Google одержала верх над Yahoo — на примере решения одной проблемы

Почему Google одержала верх над Yahoo — на примере решения одной проблемы

Бывший разработчик Google Мохит Арон написал для Techcrunch колонку, в которой рассказал о том, как в начале 2000-х два интернет-гиганта сражались за долю на рынке и искали решение для быстро масштабирования бизнеса. По мнению Арона, Yahoo пошла по неверному пути, отказавшись от создания собственной архитектуры, и в итоге попала в тупиковую ситуацию.

Поделиться

«Вероятно, компания Yahoo переживает свои последние дни как самостоятельный бизнес. Хотя десятилетие назад компания наступала на пятки Google — ныне одной из самых дорогих компаний мира», — пишет разработчик.

По словам Мохита Арона, больше десяти лет назад он пришел в Google, чтобы заниматься разработкой файловой системы: «Я начал работать в Google в 2003 году — тогда два интернет-гиганта сражались друг с другом за лидерство на быстрорастущем рынке интернета. Многие факторы повлияли на конечный результат, но один был особенно важен — отличие в подходе к базовой архитектуре».

Google и Yahoo пошли разными путями, когда бизнес требовал быстрого масштабирования, рассказывает Арон. Yahoo нашла решение в готовой системе NetApp — она позволяла быстро добавлять дополнительное пространство на сервере и, таким образом, масштабировать бизнес. В итоге каждый сервис, который запускала Yahoo, работал на базе NetApp и компания стала крупнейшим поставщиком ИТ-гиганта.

В это время в Маунтин-Вью Google начала разработку своей собственной файловой системы — Google File Systems. Она проектировалась как платформа, которая подходит для всех сервисов компании и должна была стать частью экосистемы Google.

Вместо того, чтобы использовать новейшие системы хранения в качестве основы бизнеса, Google File System использовала простые серверы для поддержки гибкой и устойчивой архитектуры. Решение должно было решить вопросы масштабируемости и отказоустойчивости раз и навсегда, упростить и ускорить будущее развертывание веб-приложений: от карт до облачных систем.

— Мохит Арон

Потребовалось четыре года для того, чтобы внедрить файловую систему Google во все важные операции. К этому времени казалось, что Yahoo ушла далеко вперед в масштабировании своих сервисов, пишет разработчик.

Однако вскоре быстрое развитие Yahoo начало давать трещины. Так как спрос продолжал расти, компании приходилось тратить всё больше и больше ресурсов на инженерно-технические работы по поддержанию инфраструктуры. Кроме того, добавление новых сервисов требовало дополнительных затрат на адаптацию NetApp.

В итоге, идентичные проблемы для двух сервисов — например, поиск Yahoo и почтовый сервис Yahoo — требовали разных решений, так как они работали на разной инфраструктуре.

Google же могла использовать общую архитектуру для всех своих сервисов. Например, после покупки Youtube, руководство могло просто сказать «Уберите свой backend и используйте нашу платформу». Инженерам достаточно было обновить архитектуру один раз, чтобы она обновилась для всех сервисов Google.

Еще один плюс общего инфраструктурного решения — разделение ресурсов. Если один сервер не занят поиском он, например, может использоваться для обработки почтовых запросов, рассказывает Арон.

Это простая история о важности создания гибкой архитектуры, но я вынес из нее один урок, которые не относится к технологическим проблемам. Нужно полностью разобраться в проблеме, прежде чем приступать к её решению.

— Мохит Арон

Разработчик рекомендует всегда отталкиваться от идеального варианта решения проблемы, а затем пытаться применить его к текущей ситуации. По мнению Арона, это ключевое отличие множества успешных проектов. Например, Facebook полностью самостоятельно проектирует свою инфраструктуру — от серверных стоек до камер слежения в дата-центре.

Популярные статьи
Показать еще
Комментарии отсортированы
как обычно по времени по популярности

Не исключено, что качество поиска - производная от технологических проблем, а они - производная от финансовых затрат на реализацию, а они - производная от выбранной архитектуры/стратегии развития технических решений.

Я не верю в простое объяснение проблем, которое "у всех на виду". Мой опыт показывает, что истинные причины провала всегда скрыты, а наружу транслируется удобная кому-то точка зрения "кто виноват и что делать".

Кстати, высказываемые в статье тезисы напрямую противоречат столь часто популяризируемым в последнее время идеям "делай как проще", "делай как быстрее", "используй готовые решения"

Оказывается, когда на кону серьезные деньги, то технология (своя) предрешают успех. Спешка нужная только для пузырей/ловли блох ;-)

А на чем они до этого (и во время 4-х летней разработки) держали все сервисы?

0

Не знаю, для меня и применение GFS, описываемое в статье - новость. Буду изучать тему, если что накопаю - поделюсь.

0

Да ладно, через пару лет все равно "Компания Google национализирована и становится IT департаментом правительства США" будет :)

0

В нашем мире все может быть. ;-)

0

Странно, давно ведь известно, что GoogleFS самая важная коммерческая тайна компании

0

Тут не могу комментировать. Не знаю.

0

Противоречат каким идеям? Когда Google был на уровне стартапа, он так и делал- проще и легче, когда вырос начал выстраивать свою архитектуру.

0

Как делал Гугл - знает только сам Гугл, мы же можем только строить версии, не так ли ? ;-)

Я же говорил про тезис "на базе открытых, доступных всем технологических решений, можно построить конкурентоспособный бизнес". Нет, нельзя, как выяснилось. Яху пыталось и пролетело. А Гугл вкладывал деньги и время в развитие своей, закрытой технологии и в конечном счете выиграл.

0

Изначально сервер Google с индексной базой на 24 млн страниц был в учебном кампусе. Тогда он был просто стартапом.

0

Здесь вопрос терминологии. Гугл ли это был ?

Да даже если и так, то на самом деле этот факт ничего не меняет. На прежних, открытых технологиях они не взлетели бы на такую высоту, что наглядно показал пример Яху.

0

Да кто ж спорит? "высказываемые в статье тезисы напрямую противоречат столь часто популяризируемым в последнее время идеям "делай как проще", "делай как быстрее", "используй готовые решения""- эти тезисы подходят на самом первом этапе, этапе становления, запуска. Второй этап- быстрое масштабирование и естественно на этом этапе нужно делать что-то свое, что выбивает тебя от конкурентов вперед. Ведь GoogleFS начали разрабатывать после получения серьезных инвестиций и серьезного роста.

Наколенные решения, очевидно, слабо масштабируются. Но с другой стороны, академически правильная архитектура - это дохрена времени и денег. Стартовать надо с одного, переключаться на второе. А вот когда именно переключаться - это как раз самое интересное.

0

ГуглФС тоже, отчасти, наколенное решение (было, до того как не набрало обороты).

В принципе, я с вами согласен.
Но в моем оригинальном комментарии все же основной упор я делал на то, что нельзя, нельзя взять всё то, что есть у всех и построить на этом бизнес ничего не вложив - рано или поздно конкуренты скопируют и технические решения и модель бизнеса.
Открытое ПО - путь в тупик для бизнеса.

0

Я не понял, что такое Google File System (дисковая система или платформа, если последнее, то что именно она включает?), и можно ли купить на нее лицензию и делать кластер серверов для своей системы - ну хотя бы виртуального хостинга, например.

Или она закрытая разработка Google?

0

Нет, это распределенная файловая система.

Насколько я знаю, это закрытая разработка. Есть системы аналогичного назначения, но с другими характеристиками.

0

Они называют ее также платформой - что может означать что есть и обязательная аппаратная часть. Что не очень понятно - как часто им надо RAID (условно RAID) cервера _полностью_, чтобы обеспечить единую скорость доступа к данным, и сколько это может стоить?

0

Нет. Платформа может быть и целиком программной. Иными словами, платформа - это КОМПЛЕКС технологий.

Реализация системы засекречена, но википедия дает некие ссылки на источники.

0

Есть прекрасная фс ceph,она открыта и её очень удобно использовать и масштабировать.

0

И тем не менее они решили создать и использовать свою, о сколько нам открытий чудных ...

0

Тут в другом дело. В те годы открытой реализации подобных систем не было - это раз Ceph придуман позже.


А два - у поисковика могут быть специфические требования, например к скорости работы при блочном (random) доступе.
Такое не каждая ФС потянет.

Считаю, что разработка под задачу СВОЕГО решения - оправдана, если есть бюджет. Все эти универсальные решения, Линукс в каждой кофемолке/роутере и пр Опен Соурс - только от бедности.

0

Так я же не говорил, что гуглу надо её использовать, думаю они могут сделать реализацию ещё удачнее и быстрее. Да и как уже написал Андрей Захаров, тогда ceph'а не было ещё.
Вот для небольших и средних компаний использовать ceph как хранилище - очень хороший вариант.

0

Ок, попробую что-то узнать о нем.
Но вопрос был в другом - какие еще сюрпризы может скрывать Google, ведь мы же понимаем (учитывая недавний скандал с микро-программами во firmware винчестеров), что это открывает широкое поле для дискуссий ... что происходит с данными пользователей меня больше всего интересует.

0

Ссылок много, поэтому просто спрошу - что именно Вы понимаете под технической реализацией?

0

Конфигурация операционной системы, код, который информацию гоняет туда сюда, пишет на жесткие диски в зависимости от размеров блоков, система реализации райд, восстановление после замены жесткого диска. Это настоящая макроОС и к ее коду допущены единицы людей в самом Гугл. Остальные тысячи программистов юзают его возможности через апи. Вы где нибудь видели точный чертеж атомной бомбы? А эта информация еще дороже, чем схема атомной бомбы.

0

Про саму операционку написано что начиналась с какой-то версии Linux (если я верно понял), и что Linux с GFS работает через междумордие, не может напрямую (это из статей от Вас).

Далее там описаны какие-то компоненты, существующие как бы в вакууме, но при этом тесно связанные друг с другом. Непонятно, что за компоненты - есть их названия, описания и свойства, но нет сути - что за программы такие волшебные, которые одновременно запускаются на 0.5 млн серверов, и волшебно же, очевидно, тестируются, обновляются все вместе ...

Про атомную бомбу пример не совсем верный - в архивах Гугла этих бомб на любой вкус, только помимо чертежа будет требоваться именно то, за чем гоняется МАГАТЭ по всему миру .. а вот код Гугл версии операционки можно, получается, просто поставить на любой компьютер (ну или почти любой).

0

Схем атомных бомб в сети вагон и тележка, Вы по ним бомбу сможете сделать? Подробных чертежей Вы нигде не найдете

0

Я о другом. О том что сам по себе подробный чертеж ничего не даст, в этом случае, по причинам, которые я описал выше.

В отличие от сбора сети по схеме - тем более, что у них, по сути, копии всех программ на каждом чанке, а чанки периодически выбывают, их утилизуют ..

0

Спасибо за ссылки, прочитал пока первые две.
Чем дальше читаешь, тем больше вопросов - например 3 (три) чанка с одинаковой информацией это с одной стороны достаточная, а с другой - условно достаточное кол-во копий, плюс неясно как физически они бегают-заменяют чанки в случае _массовых_ отказов мини-серверов своих.
Как меняют эти 12V батарейки в десятках тысяч мини-серверов (батарейки с ограниченным сроком службы)

0

Так сейчас они такие ненадежные сервера не используют. Это раньше, когда на этапе роста денег было скудно

0

Зачем физически менять чанк, если 1) присоединяем гиперлинком контейнер чанков к цоду 2) ЛОГИЧЕСКИ коннектим новый свободный чанк вместо испорченного. Физически чанки могут быть в калифорнии миннесоте и сиэтле, а тасовать все можно на лету. Вернее никто этого не делает, система сама все делает, что там в этих дебрях из 300 тысяч серверов происходит никто не знает, да и не надо это- работает и ладно. Почувствуйте мощь! Яху это молокососы по сравнению с Гугл

0

Только - 0.5 млн серверов (как написано в статьях).

Чисто технически сложно представить себе 500 000 единиц идентичных аппаратных устройств, к которым, очевидно ежемесячно добавляются новые на замену старых и просто.

Кто-то должен быть поставщиком всего этого счастья, интегрированным в Гугл.

Я напрочь не понял (честно) описания приемов типизации (поиска похожих элементов неструктурированных данных), только вижу воочию, что работают они ПЛОХО для jpeg, например (найти похожие картинки часто дает ничего или не то). Приблизительно также плохо JPEG жмет Winrar - т.е. алгоритмы наверное не очень отличаются от старого доброго ZIP архивирования (я упрощаю, конечно, но просто для понимания важно)

0

Дочитал все. Спс.

Очень подходит для англ. языка или хотя бы латиницы, и хуже для, например русского или даже французского - я имею в виду обработку синонимов слова и всех его форм.

Я и раньше замечал что Гугл очень строг в этом смысле к русским запросам "красивый <> прекрасный <> красивенький", теперь понял почему.

0

Размер рекламного рынка, а не язык. Если бы Гугл всерьез взялся за русский язык, технически уже через полгода Яндекс сосал бы лапу

0

Я работал с иностранцами в не самые благополучные годы для нашей страны - и они всегда говорили о потенциале рынка в 140 млн.,
потом, правда многие перебрались в Китай - где добиться успеха как посредникам при инвестициях для них оказалось проще.

Кроме рекламного рынка, есть еще масса всяких других - рынок корп. электронной почты (на который в России Гугл не обращает внимания, привычно кидая в спам почту от mail.ru/yandex/rambler _уже лет 5 как_ и периодически возвращая Technical problem на попытку отправки почты на группу пользователей (она же - лист).

Прежняя (не знаю как сейчас) цена в $50 за ящик пользователя в год - на редкость бестолковая, не подходящая ни для маленьких компаний на 10 чел, ни для, тем более 40-50.

Они хорошо делают технологические задачи. Как только касается удобства человека - к сожалению все очень плохо.

Какое-то время этого хватает рынку - всех этих Гб и мс, но качественного изменения подхода Гугл к обработке информации я пока не вижу - да это очень быстрый склад всего, но в плане интеллектуальности выдачи Ok Google (он же Ok Википедия) ооочень тупой.

В англоязычной среде - возможно это воспринимается иначе, и действительно можно найти Order Pizza now и даже сделать это полу-автоматически или даже автоматически "Repeat last order"

0

Рынок надо оценивать не в количестве людей, а в их деньгах

0

Карим, не согласен - именно в количестве людей и надо оценивать.

Как я уже писал много раз, оценка экономик разных государств и стоимость их национальных валют ... как бы это сказать, не совсем зависит от спроса и предложения, и может варьироваться в широких пределах по воле международных финансовых организаций.

Ну, как международных ... англо-американских :)

Сегодня на наши 140 млн один доход в долларах, завтра - другой, послезавтра - третий, а хлеб, телевизоры, автомобили и прочее люди продолают покупать и покупать - чуть меньше или чуть больше, но не столько, сколько например Финляндия из 5 млн. человек.

0

Сколько из этих 140 млн готовы тратить ОНЛАЙН? Остальное Гуглу не важно.

0

см. Китай, смартфоны, приучение людей к тому, что любая покупка, оплаченная мобильным (вирт. кошельком на мобильнике) или через интернет-заказ - выгоднее на 5-10%.

0

Не понятно почему только Yahoo не купил просто NetApp и заточил бы под себя

думаю для этого надо посмотреть на стоимость NetApp

Как использование GFS позволяет взять и - р-раз - выкинуть инородный бэкенд?

0

Если бакэнд занимался хранением/индексацией данных, то почему бы и нет ?

0

Целиком - очевидно, никак. Подменить систему хранения и извлечения данных, заодно пришив свой поиск - можно.

0

1) Перенаправить хранилище в GFS в фоновом режиме или 2) постепенно по мере копирования каждого старого сервера переформатировать его в GFS и использовать для копирования

0

Как любят говорить всякие ученые, если взять только начало и конец рассуждения - то получается или бред или колдовство.
А чтобы провести человека полным путем, надо очень долго учиться ... а учить они, походу не хотят, если откровения о компонентах системы из 2005 года, доходят до нас в 2016.

Кто там говорил про комм. тайну? Типичный случай истечения подписки о неразглашении, после которой, однако тоже не рекомендуется разглашать :) А он разгласил ... видимо потому что повторение этого уже не имеет смысла - они ушли далеко вперед в _технологической обработке огромных объемов информации_, но, к сожалению, не в ее интеллектуальном анализе ..

0

Лично мне кажется, что технические вопросы не были проблемой. Просто у Google есть четкая стратегия развития, а Yahoo занимается непонятно чем.

Согласен.
Насколько публикации позволяют судить - в основном старается удержать своих юзверей, но так, чтобы не растрясти курс своих акций чем-либо.

0

"Хотя десятилетие назад компания наступала на пятки Google — ныне одной из самых дорогих компаний мира», — пишет разработчик".

Как мило читать это про Яху, которая была крупнейшей интернет-компанией ещё до появления Гугл. "Наступает на пятки" догоняющий, а тот, кого обогнали, он просто постепенно отстаёт.

Впрочем, вижу, что вновь издержки перевода. В оригинале "was running neck-and-neck" - "шла ноздря в ноздрю". Так правильней.

Крупность-то оказалась временной - набор клиентской базы в Интернет так же прост (помните, зазывное интернетовское - представьте что у Вашего товара или услуги миллионы клиентов!"), как и потеря клиентов - легко перебегающих к кому угодно.

Представим, что Яху продавали бы автомобили, или хотя бы стиральные машины. Только на сервисном обслуживании хотя бы пары миллионов девайсов и запчастях можно жить долгие годы.

А теперь представим что владелец самостоятельно, нажатием кнопки
меняет свой автомобиль также легко как интернет поиск, браузер или почту - в понедельник превращает свой VW в KIA, а через неделю, поддавшись рекламе, в Great Wall, ужаснувшись, на недельку делает машину Toyota'ой, а подумав немного, через месяц - в Ford.

При этом все указанные бренды добавляют его к статистике продаж за год, и продолжают считать своим клиентом.

0

Возможность комментирования статьи доступна только в первые две недели после публикации.

Сейчас обсуждают
Дмитрий Смола

А как двери открывать?

Mercedes-Benz представил электромобиль Generation EQ — конкурента Tesla Model X
0
Олег Карнаухов
PushAll

Окей - в магазин зашел человек - он фактически уже ваш клиент. А вот воспользовался он вашими услугами или нет не важно.
Вполне можно называть и холодным клиентом если так нравится :)

Callbackyou — коробочный сервис обратных звонков с сайта
0
Олег Фик

как получить инвайт?

Как работать с программой Search Ads от Apple
0
Antony Sedov

Ад.

Владельцы Shazam отчитались о прибыли впервые за 17 лет
0
Алексей Гуков

Так индукционку можно использовать, можно и не использовать. В гараже вмуровал и за ночь все потихоньку зарядилось. Надо быстро - воткнул кабель как у тесла.

Mercedes-Benz представил электромобиль Generation EQ — конкурента Tesla Model X
1
Показать еще