В работе Telegram произошёл сбой из-за перегрева серверов Статьи редакции
Проблемы с соединением возникли у пользователей со всего мира.
В ночь на 29 апреля у пользователей Telegram из разных стран возникли проблемы с подключением к мессенджеру. По данным сервиса Downdetector, Telegram был недоступен у многих пользователей из Великобритании, Испании, Украины, Германии, Италии, Европейской части России. Кроме того, неполадки наблюдались в США и Азии.
По словам пользователей, многие потеряли доступ к аккаунтам и не могут залогиниться, а у некоторых возникают проблемы с отправкой сообщений.
Вскоре после возникновения неполадок ситуацию прокомментировал Павел Дуров. По его словам, сбой возник из-за «серьёзного перегрева» серверов. Основатель Telegram отметил, что компания уже решает проблему. На момент написания заметки сервис остаётся недоступным более семи часов.
В комментариях к публикации Дурова появилось несколько фейковых (но верифицированных) аккаунтов с похожим именем и аватаркой. Выдавая себя за основателя Telegram, они объясняют сбои в работе мессенджера DDoS-атакой и предлагают компенсацию в виде криптовалюты.
Как отмечает TJ, 29 марта мошенники также воспользовались сбоем в мессенджере и заработали 60 тысяч долларов.
Утром 29 апреля ситуацию прокомментировала команда мессенджера: сбой возник из-за масштабной аварии в энергосистеме в Амстердаме, что повлияло на работу многих серверов.
Как вообще можно допустить перегрев стоек в Tier1+ дц, еще и в Амстердаме? Там все системы питания и охлаждения избыточны, датчики температуры и одмены круглосуточно за монитором.
massive power outage in the Amsterdam region that affected many services.
Вы новость почитайте. Уже уточнили причину час назад, отключение питания в амстердаме.
Так а где зеркала-то?
Тоже в Амстердаме, видимо
У них жесткая региональная привязка, если раскидать юзеров по другим кластерам - они тут же прилягут от оверлоада. У телеги не таки много серверов, как хотелось бы.
Ой да ну, и этот человек собрался всемирную электронную валюту запускать, с таким подходом к отказоустойчивости. Еще в книжках 20-25 летней давности, это как-то решалось просто резервными мощностями (дублирование систем, и необходимость платить в 2 раза больше, да, но зато минимальное время переключения + равномерное распределение нагрузки), и планом "на случай ядерной войны" - предусматривающим быстро развертывание 3-ой системы на заранее подготовленной базе (если падают первые две наглухо).
Обычно это еще связано с тем, что в нужной Вам точке (регионе) две системы географически распределены и соединены _отдельными_ каналами связи (не зависящими от внешних обстоятельств).
Просто построение отказоустойчивых систем - обходится на порядок (в 10 раз) дороже, чем построение "просто" масштабируемого решения с кластером серверов, из-за абсолютного другого подхода - все системы дублируются, все данные тоже.
Гугл вот новатором выступал (очень давно) вводя тройное дублирование на дешевых "одноразовых" мини-серверах, но это больше для относительно статичной информации подходит, насколько я понимаю (не той, которая обновляется постоянно, а где между волнами обновлений проходит хотя бы несколько часов)
ну вроде как тг Дуров на свои содержит... не берусь сказать, по-чем процесс, но _частный_ сервис (а тг именно частный сервис) имеет право на любую политику SLA (читай, издержки), которая либо пользователя устраивает, либо нет. Не думаю, что тг много пользоавтелей потерял за эти 10 часов. Если принять старт тг пять лет назад, то получится, что учитывая этот мажорный сбой сервис 0.999771689. А это хорошая заявка на победу в конкурсе по отказоустойчивости.
https://nltimes.nl/2018/04/29/schiphol-power-failure-shuts-airport-access-hour-flight-delays-expected-morning
Я и не сомневаюсь что там большие проблемы с питанием произошли, перечитайте мой вопрос.