{"id":14270,"url":"\/distributions\/14270\/click?bit=1&hash=a51bb85a950ab21cdf691932d23b81e76bd428323f3fda8d1e62b0843a9e5699","title":"\u041b\u044b\u0436\u0438, \u043c\u0443\u0437\u044b\u043a\u0430 \u0438 \u0410\u043b\u044c\u0444\u0430-\u0411\u0430\u043d\u043a \u2014 \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0433\u043e\u0440\u0435","buttonText":"\u041d\u0430 \u043a\u0430\u043a\u043e\u0439?","imageUuid":"f84aced9-2f9d-5a50-9157-8e37d6ce1060"}

“В какой-то момент хотелось скрыться в другой стране”: история одного факапа

Привет! Меня зовут Андрей Костылев. В IT работаю больше 10 лет, как раз в те времена, когда бизнес держался на техподдержке сайтов, случился факап, который полностью определил мой подход к работе на долгие годы вперед и помог собрать команду мечты.

Сейчас вместе с командой мы разрабатываем облачную ERP-систему, которая помогает сделать производство совершенным через автоматизацию процессов.

Дело было вечером.

Шел 2018 год. Я с командой уже несколько лет занимался разработкой сайтов — в том числе, услугами хостинга. Крупных клиентов — интернет-магазинов, производств и других бизнесов с поддержкой онлайн-заказов — было десятка два. Кроме них, были также клиенты поменьше, чьи лендинги тоже лежали на нашем хостинге.

В тот день в почте от дата-центра я заметил письмо. В нем было сказано, что один из жестких дисков поврежден, поэтому в ближайшие пару часов специалисты планируют замену диска и перезапуск сервера. Здесь нужно сразу сказать для не специалистов, что диски работают в паре, то есть зеркалят информацию друг друга. Так, и в случае внезапной поломки одного из дисков данные сохраняются.

«Обычное дело», — подумал я, и продолжил заниматься своими делами.

Первый тревожный звонок раздался вечером.

«Андрей, добрый вечер!»

«Добрый»

«Что-то у нас не загружается сайт…»

Это звонили владельцы одного крупного интернет-магазина. Разговаривали спокойно, так как никогда за нашей командой косяков замечено не было.

«Конечно, сейчас посмотрю».

И только я положил трубку — новый вызов.

«Андрей, добрый вечер. Что-то наш сайт перестал открываться…»

Не могу сказать, разволновался ли я после второго звонка, но после десятого точно стало ясно: дело — дрянь.

Момент, когда хотелось бежать и менять внешность.

Когда клиенты стали звонить один за другим с одинаковым запросом — ничего не работает— я был в дороге. Удивительно, но мне удавалось сохранять спокойствие в голосе:

«Мы уже знаем об этой проблеме и решаем ее. Спасибо за понимание…»

Ответив на десятки вызовов, я открыл ноутбук и стал разбираться.

Причина бездействия ресурсов была одна — сервер на отвечал, это означало, что проблема находится на стороне дата-центра. Я полез в почту, чтобы внимательнее прочитать письмо, которому утром не придал особого значения.

«Мы планируем перезагрузить диск…»

Перечитав эту строчку несколько раз и сопоставив А и Б, пришёл в ужас: значит, после перезапуска диск, который заменили, не синхронизировался со старым, а значит данные могли безвозвратно пропасть, поэтому сайты и не открываются.

Я начал вызванивать своего системного администратора. Он тоже пришел в легкий шок.

Повезло: в тот же день бэкапы проектов крупных заказчиков мы нашли и все восстановили, но остались и другие заказчики, которых тоже нельзя было бросать с проблемой. Спустя два дня интенсивной работы, сисадмин сказал:

«Ничего больше не сделаешь».Это означало, что часть клиентов — а это десятки бизнесов — могут остаться без сайта.

“Ну, может, ты еще раз посмотришь?” — писал я админу. Тогда попробов абсолютно все сценарии общения, которым учат на тренингах для руководителей: от предложения бонусов до уговоров и давления на жалость — получал один и тот же ответ: “Ничего больше сделать нельзя”. Не знаю, почему, но несмотря на его слова, я не сдался, и написал еще нескольким знакомым: попросил их посмотреть. К сожалению, план не сработал.

Сложно описать эмоции, но в какой-то момент, получая в сообщениях ответы-вариации на тему “Ничего не вышло”, мне хотелось сбежать в лес, в другую страну, отключить телефон, сменить внешность, раствориться… Но надо было обзванивать оставшихся клиентов, и объяснять ситуацию…

Я говорил, что мы можем все починить, но потребуется несколько недель. Счастье, что 100% из них адекватно восприняли произошедшее.

Для меня же слова “все починить” означали, что работу нужно сделать заново с нуля.

Время шло.Однажды я общался с новым клиентом, и обсуждая дела, заказчик посоветовал взять в проект своего знакомого в качестве админа. Я подумал, почему бы не попросить его тоже взглянуть на тот сервер.

Примерно к 5 утра он написал: “Куда копировать данные?”Я был в шоке. У него получилось добраться до информации. В тот же день мы с ним подняли все оставшиеся сайты. Я отзвонился клиентам, что теперь все работает и будет работать стабильно.С тех пор этот человек в нашей команде.

Пять ключевых выводов.

Оглядываясь назад, понимаю, что это лучший урок, который только можно было получить в профессии и этом бизнесе. Вот какие выводы сделал. Сейчас это помогает быть уверенным на 100% в качестве услуг, которые мы даём клиенту.

Итак.

Сохранять спокойствие.

Очень важно не опускать руки и до последнего искать возможности, не впадая в панику. Выход из ситуации есть всегда. Но чтобы его найти, нужно посмотреть правде в глаза, то есть открыто признать положение вещей.

Оставаться честным в своих планах с людьми, которые зависят от тебя.

Было страшно рассказать клиентам, что случилось на самом деле. Очень страшно было сказать, что быстро восстановить сайты не выйдет. Чувствовалась большая ответственность перед ними. Но когда детально рассказал, что произошло, они отнеслись с пониманием. Это помогло все силы направить на решение проблемы, а не на нервы и тревогу.

Все, что можно копировать, нужно копировать. Причём, несколько раз.

Сегодня мы работаем с надежным дата-центром в Санкт-Петербурге. Все данные клиентов X24:ERP в онлайне сразу же записываются в несколько источников, чтобы в случае отключения одного из дисков ни одна цифра не потерялась.

Когда профессионал в вашей команде говорит, что ситуация безвыходная, нужно идти к другому профессионалу.

Очевидно, что каждый человек высказывает свою точку зрения, опираясь на собственный опыт, однако в кризисные моменты здравый смысл часто перекрывают эмоции. Умение совладать со страхом и нежеланием разбираться с нуля, умение искать креативное решение — тоже часть профессионализма, которая нужна для реализации теоретических знаний.

Почти всегда можно попробовать что-то еще.

Я уже писал в одной из статей на vc.ru, что один из ключевых подходов, которые использую в работе — неразрешимых задач нет. Мой опыт говорит о том, что когда не опускаешь руки, то возможности приходят. Часто через встречу с нужными людьми. Чудо? Повезло? Как говорят, везет тому, кто везет.

Если есть вопросы и предложения, пишите в комменты или в Телеграм: @andreykostylev .

0
33 комментария
Написать комментарий...
Denis Fedorets

Пулемет замолчал.
- Комиссар, патроны кончились!
- Но ты же коммунист! И вновь застрочил пулемет...

Ответить
Развернуть ветку
Андрей
Автор

Денис, Вы прямо умеете самый сок выжать из статьи)))

Ответить
Развернуть ветку
feiry fairy

Есть те кто не делает бекапы и те, кто теперь делает бекапы.

Ответить
Развернуть ветку
Шапошников Игорь

а также те, кто проверяет созданные бекапы..

Ответить
Развернуть ветку
feiry fairy

Но это потом)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Андрей
Автор

Спасибо за эти слова. Прямо их бы сейчас в ту ситуацию, я думал, что поседею раньше времени.

Ответить
Развернуть ветку
Анастасия Писченкова

Обожаю такие истории: когда человек даже в очень критичной ситуации не опустил руки, а продолжил бороться за результат, даже когда все вокруг говорили "Ничего больше сделать нельзя".

Ответить
Развернуть ветку
Андрей
Автор

На самом деле, были, конечно, те моменты, когда хотелось всё бросить и уйти. Но это скорее от того, что казалось, что в ситуации ничего нельзя поменять и это точка невозврата. Но выход нашёлся и я безумно рад этому опыту, теперь я только так и действую, через точку невозврата.

Ответить
Развернуть ветку
Aleksei Sukhoverkhov

Эх, была у меня такая ситуация. Небольшой бизнес и сайт при нем. И вот в один день все пропало, как раз из-за хостера.

Причем он просто оставил меня со своей проблемой, и мне пришлось полностью с нуля сайт делать самому.

Да, в итоге я научился сайтостроительству. Но вот я всегда был категорически против смертной казни. Но в тот момент, признаюсь, в этом засомневался :-)

Ответить
Развернуть ветку
Андрей
Автор

Последняя фраза очень забавно звучит, мы смеемся всей командой уже час)))) Сочувствую, что вам пришлось столкнуться с моей ситуацией с другой стороны. Если тот хостер не испытывет по сей день адовые муки совести, то он не настоящий хостер)

Ответить
Развернуть ветку
Aleksei Sukhoverkhov

Андрей, я пошутил, конечно. На самом деле, мы потом даже, в общем-то, дружили с этим хостером. Он же не специально это сделал. Бывает...

Ответить
Развернуть ветку
Павел Корчагин

Ясно

Ответить
Развернуть ветку
Андрей
Автор

аахахахахахах)))Это даже круче, чем Джоли))

Ответить
Развернуть ветку
Mercator

А что сделали с тем админом, который не смог восстановить?

Ответить
Развернуть ветку
Андрей
Автор

Иногда наши пути пересекаются в каких-то задачах.

Ответить
Развернуть ветку
Сергей Мазур

так это старый админ накосячил с жестким диском?

Ответить
Развернуть ветку
Андрей
Автор

Нет, это был арендованный сервер и диск вышел из строя, спустя 5-6 лет работы. Но можно было мониторить эти моменты. По сути это плохо организованная работа с нашей стороны, никто не подумал о возможных рисках.

Ответить
Развернуть ветку
Zloy Sniper

Хорошая статья. Мне было бы интересно прочитать советы по организации бэкапа, куда копируете резервную копию (кроме той, что делает хостер), как часто в сутки и побольше бы технической конкретики. Поделитесь результатами этого жестокого урока.

Ответить
Развернуть ветку
Андрей
Автор

1) Для начала мы подобрали хороший дата-центр в Спб. У них отличный сервис с быстрым откликом тех. поддержки, есть свой мониторинг, состояние дисков отслеживают в том числе.

2) Каждый день делаются бэкапы баз данных и хранятся за последний год.

3) Также каждый день важные данные (пользовательские файлы, бэкапы базы данных) отправляются в удаленное хранилище.

Этих пунктов уже достаточно, чтобы не беспокоиться. Если вдруг с дата-центром что-то случится, то на другом сервере можно будет запустить дубль в течение часа.

Для крупных клиентов, у которых производство работает 24/7 и малейший сбой влияет на процессы планируем настроить еще один сервер в другом дата центре, и настроить полную синхронизацию данных с репликацией базы master-master. Со стороны nginx балансировщик при недоступности первого сервера будет переключаться на запасной.

Ответить
Развернуть ветку
Николай Полянский

А мне было бы интересно, как удалось восстановить данные с raid-диска да ещё и на удаленной машине. Хотя бы немного подробностей.

Ответить
Развернуть ветку
Андрей
Автор

Если вкратце - побайтовое считывание dd_rescue, testdisk и прочее.

Ответить
Развернуть ветку
Zloy Sniper

Прорекламируйте датацентр в СПб. Хороших подрядчиков надо знать.

Ответить
Развернуть ветку
Андрей
Автор

Ответил в личку, чтобы не уходить в нейтивку)

Ответить
Развернуть ветку
Zloy Sniper

Спасибо)

Ответить
Развернуть ветку
Alexey Kovyazin

Саундтрек к этой статье - НТР Делай Бэкап https://www.youtube.com/watch?v=a5Hd-nfCvaw

Ответить
Развернуть ветку
Андрей
Автор

Ахахаххаах))) Ох, спасибо, повесилили, от души!

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Андрей
Автор

К сожалению, да. Теперь храним в удаленном хранилище другого дата-центра для полного спокойствия. Несколькими комментариями выше описал подробнее.

Ответить
Развернуть ветку
Александр Носов

от предложения бонусов до уговоров и давления на жалость - охуенные тренинги)

Ответить
Развернуть ветку
Вася Иванов

Ваще нихрена непонял ничего.

Ответить
Развернуть ветку
Sofia Kovalevska

Это хорошо, что все клиенты оказались адекватами. В моей практике был случай "честно поговорить", двое оказались полностью отморозки, взяли в заложники, отобрали машину. С тех пор никакой честности.

Ответить
Развернуть ветку
Сергей Сергеевич

Вообще ни о чем, приплели еще ерп нонейм.

Ответить
Развернуть ветку
30 комментариев
Раскрывать всегда