Хостинг Timeweb: причины пятничного сбоя
11.12.20 в 16:02 МСК мы столкнулись с аппаратной проблемой в работе системы маршрутизации. Серверы продолжали работать, но прекратили быть доступны извне. Сегодня мы расскажем, что произошло, что мы уже сделали и что еще предстоит сделать.
Что случилось
Проблема возникла на корневом маршрутизаторе, через который идет весь трафик. Он имеет собственное резервирование большинства функций на случай поломки. А то, что невозможно продублировать — зарезервировано вторым маршрутизатором, подключенным и готовым к работе.
Это значит, что если какой-то элемент корневого маршрутизатора выходит из строя, второй роутер незамедлительно подключится к работе. И, в целом, такая внештатная ситуация не раз проигрывалась на тестовых испытаниях. Но не всё так просто.
На момент выхода из строя основного маршрутизатора мы применили свежую конфигурацию сетевых настроек на резервном роутере, но столкнулись с отказом работы устройства.
Что происходило дальше
В период сбоя телефония была недоступна. Ребята из поддержек, из офиса и дома, не имея доступов к тикетам и телефону, переключились на сообщества в VK и Telegram.
В этот момент инженеры находились в поиске временного решения, которое позволит вернуться сервису в строй. К 18:55 МСК мы восстановили доступность сети.
На этом работы не закончились: уже ночью вместе с поставщиком оборудования мы доставили, установили и запустили абсолютно новый маршрутизатор, чтобы исключить любые просадки.
Сейчас работаем в штатном режиме: ловим и фильтруем атаки типа DDoS в адрес клиентских сайтов, следим и балансируем нагрузку на серверах. Помогаем в тикетах, по телефону, отвечаем в мессенджерах и соцсетях.
Что нам предстоит
Несмотря на то, что мы резервируем каждый участок как минимум в двукратном размере, жизнь преподносит сюрпризы. Мы как хостинг-провайдер обязаны просчитывать даже такие ситуации и исключать их.
В настоящий момент мы находимся на связи с поставщиками оборудования: проводим аудит, проверяем совместимость версий ПО, выясняем наличие возможных незадокументированных проблем и уязвимостей в оборудовании, чтобы обеспечить заявленную стабильность.
Продолжаем поддерживать двойной резерв ядра сети и проводим дополнительные тесты бесшовного перехода между вариантами в случае возникновения любых нештатных ситуаций. Важно: такие тесты не затронут текущую работу сайтов клиентов.
Мы обеспечены всем необходимым запасом оборудования, вплоть до резерва кабелей. Более того, точка маршрутизатора стала нашим самым зарезервированным и безопасным участком.
Мы приносим извинения каждому, кто испытал сложности с доступом или понес финансовые/репутационные потери из-за аварии. И благодарны вам за взвешенную позицию и слова поддержки, которые вы писали, пока мы в поте лица занимались решением проблемы. Спасибо вам за доверие ❤
Нигде не увидел " Мы лоханулись с тем-то и тем-то, были неправы там-то и там-то, извлекли такие-то уроки". Только никчёмный рассказ, как вы героически боролись с последствиями своих косяков. Кому это интересно? С таким подходом у вас снова что-то упадёт
Тут не об этом: о ситуации писали в нескольких темах на VC + наши клиенты делились подробностями и опасениями. Мы же были целиком сконцентрированы на диагностике и вынужденно молчали. Исправляемся.
TL, зато оцените, как быстро они вам ответили. А вот эту статью 4 дня писали! И это ж согласовать со всеми надо, после того как разобрались, что это было)))
Все равно, Timeweb лучший среди своих конкурентов.
Никто не застрахован. С каждым бывает. Главное, они открыты и всегда идут на встречу своим клиентам. Мы довольны их хостингом.
Комментарий недоступен
Чем Beget хуже?
#timeweb, компенсации клиентам будут какие-то?
Валентин, мы понимали, что не сможем компенсировать посетителей или заказы, потерянные из-за недоступности. Поэтому сосредоточились на полной проверке площадки и оборудования, чтобы убедиться и дать понять, что инцидент не повторится.
Тем не менее ваш вопрос важен: эти и другие задачи мы планово решаем с клиентами индивидуально через Службу поддержки.
Тоже отчитаюсь о том что случилось и над чем сейчас работаем. Примерно месяц назад наш VDS падал на час, вопросов нет, падал только наш, а не весь таймвеб, но нам от этого было не сильно легче. Чтобы вы понимали суть проблемы, мы используем в 50 суши точках свою самописную црм по типу dodo is и при таких падениях работа фактически встает, заказы не поступают, а текущие не оформляются и не завершаются, думаю примерные потери вы понимаете. Спустя месяц происходит это падение на 3 часа. Как-то многовато падений для такого малого промежутка времени. Клиенты нам задавали вопросы на которые у нас не было ответов благодаря «супер оперативному и информативному информированию» от таймвеба. Сейчас в усиленном режиме работаем над переездом на другой (не российский) хостинг, с середины января думаю уже полностью уйдем от таймвеба. Да и чуть не забыл, даже если вы не покупали хостинг, а просто купили домен у таймвеба, то ваш сайт тоже будет лежать так как их днс-сервера тоже небыли доступны, так что рекомендую переносить всё, а не только хостинг.
P.S клиент таймвеба с 2008 года.
Если у вас критичный сервис, для которого лежать час недопустимо, то вам нужно на уровне архитектуры это решать: держать резервный сервер у другого провайдера, иметь возможность на лету переключаться, технологии для этого есть, и бизнес из 50 точек чего-угодно может себе это позволить. Упасть может любой хостинг, хоть наш, хоть западный, вчера Google показал нам, как это бывает.
DNS, конечно, должен быть внешний относительно хостинга, и регистрировать лучше не через хостера, тк если хостер упал, то и к домену доступа не будет.
А мне-то, что?
Ребята, мы с вами с 2010 года и ни разу не пожалели!
Хорошо, что вы - крупная компания, и смогли за очень короткий период найти нужное оборудование и решить вопрос.
В принципе, и поста в соцсетях хватило. Мы - веб-разработчик, размещаем сайты клиентов. Они нам звонили, мы рассказывали что работы ведутся, данные в порядке и надо немного подождать.
Теперь, главное, сделать выводы и не допустить повторения!
Много клиентов юзают таймвеб, изначально мне он не понравился. Но потом вроде как ничего, разобрался. Но все равно, для своих проектов предпочитаю других хостеров, так как юзаю впс с квм, а там панель, в которую вникать еще надо, не нужна.
Виртуальный хостинг от Таймвеба на самом деле очень хорош: удобная панель, куча мелких удобных преимуществ + мы клиентов там размещаем уже больше 8 лет, и за это время подобных локаутов не было.
Надеюсь, сделают выводы + кто-то внутри компании получит по шапке за неготовность резервного оборудования к горячей замене.
Bingo, она действительно показалось сложной или просто не пробовали?
"На момент выхода из строя основного маршрутизатора мы применили свежую конфигурацию сетевых настроек на резервном роутере, но столкнулись с отказом работы устройства."
Меняли настройки на резервном маршрутизаторе и одновременно с этим вышел из строя основной?
Ну-ну.
Клиенты платят по 1000 руб в год и больше платить не хотят, а оборудование покупается за доллары. Хостинг хоть 100 раз всё зарезервирует, если клиенты будут готовы оплачивать. Из-за желания выжить и оптимизации сейчас в поддержках сидят хомячки, которые мегабит от мегабайта отличить не могут.
И что это даст? У меня клиент на VDS переехал за немалые деньги и ожидает больше надежности от Таймвеб, тем не менее маршрутизатор оказался один общий для всех и сайт на VDS тоже лежал. Как мне кажется, деньги можно потратить на еще один маршрутизатор-то. Это не еще один дата-центр развернуть ведь.
За последние 15 лет перебрал много разных хостеров, остался на таймвеб + несколько других.
В общем таймвеб одни из лучших, отличная поддержка и сбой это единственный на моей памяти (хоть мои проекты и не затронуло, но vc регулярно смотрю).
Комментарий недоступен
Поделитесь подробностями, обсудим. Расскажите, что была за ситуация и как, на ваш взгляд, нам следовало отреагировать. Желательно с конкретикой, логином или номером тикета.
Никогда не сталкивался с таймвеб, статья как повод узнать почему. Оказывается у вас хостинг почти в 2 раза дороже чем у рег.ру как то вам нужно думать о снижении цен в том числе
Как-то смотрел я там хостинг, надо было помочь... не-не... даже бонусом в 1000 рэ не загоните.
Привет. Вы подняли тему, давайте обсудим. Поделитесь, как именно вы считали и сравнивали? Какие услуги смотрели?
Поясним для читателей: некоторые хостинг-провайдеры любят вводить в заблуждение, указывая заведомо низкую стоимость на странице заказа. А потом на моменте оплаты оказывается, что та цена была указана при оплате за 3 года, а реальная цена куда выше.
Та же история и с доменными именами: у нас для каждого из клиентов домены .RU/.РФ стоят 179 рублей/год на регистрацию и 399 рублей/год при продлении. Для партнёров условия могут быть еще дешевле. Как ситуация с этим обстоит у данного конкурента?
"атаки типа DDoS в адрес клиентских сайтов"
Один раз задонатил на стрим Лебедеву сайт для бизнес-линча, через минуту заблокировали на несколько часов, пока вручную через поддержку не обратился "отмените пожалуйста свою великую защиту".
Да, раньше такое случалось куда чаще. Потом начали просто ставили фильтрацию, не отключая сам сайт. После автоматика и инженеры обучились лучше отрабатывать такие истории, чётко разделяя реальный спонтанный трафик и левых ботов/атаки.
Объясните зачем накатили свежую конфигурацию, а не оттестированную? И всё же сессии рвутся, так как такая поддержка идёт на L3.
Да и конфигурацию можно откатить всегда до предыдущей и занимает это далеко не то время, что простаивал хостинг.
Почту свою собирается Таймвеб чинить? Пока что пару раз в неделю на какое-то время отключается стабильно. ТП ничего толком сказать не может
Да, запланирован рефакторинг почтового сервиса. Работы пройдут в два этапа: до конца года нацелены повысить стабильность инфраструктуры, а после в течение нескольких месяцев переделаем программную часть.
Комментарий удален модератором
Комментарий недоступен
Илья, привет. Мы не так давно обновили интерфейсы раздела "Доменов". И там пока далеко не так удобно, как мы стремимся создать по итогу. Спасибо, что помогаете нам и открыто делитесь болью. Дайте нам немного времени порадовать вас. Сделаем лучше.
По дополнительным услугам: мы работаем с "Защитником сайтов" уже давно. И она эффективно себя показывает в вопросе лечения сайтов. Планируем уделять больше внимания раскрытию преимуществ услуги, чтобы отойти от упомянутой вами истории.
Комментарий удален модератором