Падения onlinePBX. Причины, последствия и уроки
В феврале onlinePBX очень сильно просел в надежности. Наш SLA упал ниже плинтуса. Нас материли и называли клоунами, нам угрожали.
Все началось в ноябре после увольнения самого ценного сотрудника
Фактически, он в одного последние 6 лет делал наше имя. Благодаря ему слова надежность и качество произносились нашими сотрудниками с особой гордостью. И вот он ушел.
Естественно, подготовить ему замену за месяц и даже за год невозможно. Он ловко манипулировал шестнадцатью серверами и мог наперед предсказать какая проблема нас ожидала в будущем. Мог не только предсказать, но и предотвратить.
Сейчас его место занимают двое бойцов, которые на текущий момент не имеют достаточного опыта чтобы предсказывать эти проблемы.
И вот недавно, во время очередного небольшого обновления сервера, боец забыл указать точку в следующей команде:
Хотел почистить за собой временные файлы, а в итоге удалил самую важную папку на сервере. Мы потеряли сервер на котором было более пятисот компаний. Потеряли совсем.
Начали оперативно восстанавливать, нам понадобилось ориентировочно 2 часа. Восстановили пользовательские настройки, конфигурации программ, перенесли аудио-файлы. Проходит 10 минут и телефония начинает падать снова и снова. Мы несколько дней бились головой о монитор, чтобы понять причину такого поведения. Точно такая же конфигурация работает на других серверах, но с этим что-то идет не так.
Копали логи, изучали каждую букву, проверили десятки гипотез, нашли в итоге одного клиента с оператором, который был подключен только к этому серверу в новой конфигурации. При звонке на него рушился весь сервак.
Ок, клиента изолировали, с ним разберемся позже. Ребуты прекратились, но мы стали наблюдать проблемы с интеграциями. При входящем звонке мы проверяем в сторонних CRM-системах наличие контакта и этот скрипт перестал срабатывать обрубая звонки. Мы начали его дебажить и выяснили, что скрипту не удавалось подключиться к базе данных на другом сервере. Проверили пароли, подключились вручную - работает. Подозрение пало на шифрование, а дальше выяснилось что PHP после обновления стал требовать указывать тип шифрования явным образом, не подставляя значения по умолчанию. Б - безопасность.
Естественно, такое бесследно не проходит
На нас обрушилась тонна вполне заслуженного говнеца изо всех щелей. Надо сказать, что это очень помогало в расставлении приоритетов и концентрации внимания на проблеме. Конечно, мы возместим клиентам которые испытывали проблемы по неделе бесплатного обслуживания. И письменно извинимся за провал. Но лучшее извинение, это когда все работает хорошо - тут мы особо постараемся.
Интересные факты
В моменты когда у нас происходили сбои резко увеличилось количество платежей. Вероятно, клиенты думали что проблема в нехватке денег.
Казалось бы, что при проблемах должен происходить отток клиентов, однако, происходило все ровно наоборот. Отток сократился с 5% до рекордных 3,6%. Это благодаря хорошей работе нашей технической поддержки, которая сумела мобилизоваться и работать в условиях тройной нагрузки, в том числе и психологической.
Приток новых клиентов не сократился, а после стабилизации ситуации даже увеличился.
Выводы
1. Продолжать переезд в контейнеры. Нужно учиться восстанавливаться после сбоев быстрее и не лазать на серваки руками.
2. Никогда не надеяться на то, что сотрудники будут с тобой вечно.
3. В погоне за функционалом не забывать про надежность.
4. Всегда помнить кто и почему нам доверяет.
P.S. С боевым крещением, бойцы.
Комментарий недоступен
"...Минус 200 к вашей ауре..."
——
Может, и так, зато +10 к доверию ( рассказал о реальной своей неудаче и повысил прозрачность внутренних отношений) и +200 к пиару. Вот так, минусы обращаются в плюсы, по-моему, достаточно грамотно))
Не так легко за месяц найти замену и вникнуть в суть происходящего. Это проблема не технарей, а менеджмента.
И парни не чайники, все делалось в условиях "высокой напряженности", отсюда и такие методы.
Ну и вопрос к Вам, что будет с вашими серверами в случае если вас (не дай бог) переедет автобус.
Комментарий недоступен
Ну, вот вы умный человек, завидую. Учусь на своем опыте.
"Никогда не надеяться на то, что сотрудники будут с тобой вечно."
В вашем случае нужно было срочно обратится к этому незаменимому сотруднику, для восстановления работы было бы все гораздо быстрее. Естественно если вы его не смертельно обидили а он сам ушел.
второе :(
ну тут уж что уж, вам прекрасный урок, что то бы не происходило люди самый ценный ресурс, и не стоит смертельно ругаться с ключевыми сотрудниками до момента когда вы сможете их полностью заменить. Да и вообще не стоит ставить в такое положение своих сотрудников, ничего хорошего из этого не получается. Ни с одним из своих работодателей или в дальнейшем партнеров не доводил до такого состояния, как показывает практика формула win - win работает лучше чем фраза "я тебя уничтожу"
Он просто сильно выгорел, работал по ночам, при этом не сообщал нам, ну или преподносил это слишком скромно. Не углядел, у него накопилось, ну и видим результат. Отношения не испорчены. И в первые месяцы он всеже помогал, проблемы начались позже.
Уже нашли :)
Главный вывод ИМХО - документация, документация и документация, включаю регулярное тестирования disaster recovery сценариев.
Всегда хотелось в ответ на предложение бесплатного обслуживания когда у тебя телефония легла предложить в жопу это предложение засунуть, когда дневная выручка несколько сотен, а продавцы сидят перед мониторами и глазами хлопают. Тут лучше апдейты по ситуации работают, в плане психологической устойчивости клиента.
Как то все странно. Вы восстановили из бэкапа, но баги вылезли в другом месте? То есть это не бэкап был?
В бэкапе мы храним данные пользователей. Настройки серверов хранятся в конфигурационных файлах, этот сервер давно не обновлялся и на него небыло этого файла.
ну когда то я тоже относился к первому типу админов, которые еще не делают полных бэкапов ))
Вячеслав теперь вы будете все записи где вам дают обратную связь минусовать? Как-то по детски себя ведёте.
Здравствуйте Максим, с вами можно как то связаться, у меня к вам один вопрос?
Не совсем понял.
Теперь понятно :)
А почему бы не найти инженеров с нормальным опытом и подороже?
я знаю что хрен найдешь
Не прошло и суток, а onlinePBX упал опять. Кажется, не все уроки выучены :)