Приёмная Вячеслав Че
615

Падения onlinePBX. Причины, последствия и уроки

В феврале onlinePBX очень сильно просел в надежности. Наш SLA упал ниже плинтуса. Нас материли и называли клоунами, нам угрожали.

В закладки
График показывает падения сервиса

Все началось в ноябре после увольнения самого ценного сотрудника

Фактически, он в одного последние 6 лет делал наше имя. Благодаря ему слова надежность и качество произносились нашими сотрудниками с особой гордостью. И вот он ушел.

Естественно, подготовить ему замену за месяц и даже за год невозможно. Он ловко манипулировал шестнадцатью серверами и мог наперед предсказать какая проблема нас ожидала в будущем. Мог не только предсказать, но и предотвратить.

Сейчас его место занимают двое бойцов, которые на текущий момент не имеют достаточного опыта чтобы предсказывать эти проблемы.

И вот недавно, во время очередного небольшого обновления сервера, боец забыл указать точку в следующей команде:

$root@s4 ~/tmp rm -rw /etc

Хотел почистить за собой временные файлы, а в итоге удалил самую важную папку на сервере. Мы потеряли сервер на котором было более пятисот компаний. Потеряли совсем.

Начали оперативно восстанавливать, нам понадобилось ориентировочно 2 часа. Восстановили пользовательские настройки, конфигурации программ, перенесли аудио-файлы. Проходит 10 минут и телефония начинает падать снова и снова. Мы несколько дней бились головой о монитор, чтобы понять причину такого поведения. Точно такая же конфигурация работает на других серверах, но с этим что-то идет не так.

Копали логи, изучали каждую букву, проверили десятки гипотез, нашли в итоге одного клиента с оператором, который был подключен только к этому серверу в новой конфигурации. При звонке на него рушился весь сервак.

Тут важно сказать, что мы не являемся оператором связи. OnlinePBX на данный момент поддерживает более 200 сторонних операторов — так не делает никто в мире.

Ок, клиента изолировали, с ним разберемся позже. Ребуты прекратились, но мы стали наблюдать проблемы с интеграциями. При входящем звонке мы проверяем в сторонних CRM-системах наличие контакта и этот скрипт перестал срабатывать обрубая звонки. Мы начали его дебажить и выяснили, что скрипту не удавалось подключиться к базе данных на другом сервере. Проверили пароли, подключились вручную - работает. Подозрение пало на шифрование, а дальше выяснилось что PHP после обновления стал требовать указывать тип шифрования явным образом, не подставляя значения по умолчанию. Б - безопасность.

Естественно, такое бесследно не проходит

На нас обрушилась тонна вполне заслуженного говнеца изо всех щелей. Надо сказать, что это очень помогало в расставлении приоритетов и концентрации внимания на проблеме. Конечно, мы возместим клиентам которые испытывали проблемы по неделе бесплатного обслуживания. И письменно извинимся за провал. Но лучшее извинение, это когда все работает хорошо - тут мы особо постараемся.

Интересные факты

В моменты когда у нас происходили сбои резко увеличилось количество платежей. Вероятно, клиенты думали что проблема в нехватке денег.

Казалось бы, что при проблемах должен происходить отток клиентов, однако, происходило все ровно наоборот. Отток сократился с 5% до рекордных 3,6%. Это благодаря хорошей работе нашей технической поддержки, которая сумела мобилизоваться и работать в условиях тройной нагрузки, в том числе и психологической.

Отток пользователей

Приток новых клиентов не сократился, а после стабилизации ситуации даже увеличился.

Выводы

1. Продолжать переезд в контейнеры. Нужно учиться восстанавливаться после сбоев быстрее и не лазать на серваки руками.

2. Никогда не надеяться на то, что сотрудники будут с тобой вечно.

3. В погоне за функционалом не забывать про надежность.

4. Всегда помнить кто и почему нам доверяет.

P.S. С боевым крещением, бойцы.

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Вячеслав Че", "author_type": "self", "tags": [], "comments": 17, "likes": 13, "favorites": 7, "is_advertisement": false, "subsite_label": "claim", "id": 62495, "is_wide": false, "is_ugc": true, "date": "Tue, 26 Mar 2019 13:57:14 +0300" }
{ "id": 62495, "author_id": 7294, "diff_limit": 1000, "urls": {"diff":"\/comments\/62495\/get","add":"\/comments\/62495\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/62495"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199124, "last_count_and_date": null }

17 комментариев 17 комм.

Популярные

По порядку

Написать комментарий...
1

Мы потеряли сервер на котором было более пятисот компаний. Потеряли совсем.

Начали оперативно восстанавливать, нам понадобилось ориентировочно 2 часа.

Вот у меня под контролем более 50 серверов каждый день. Там чего только нет, начиная от owncloud, почтовых и заканчивая серверами для ботов парсеров...но как вы могли нормально на виртуалки не посадив - 500 клиентов даже найти и тем более не привести в порядок вовремя? Вот вообще в голове не укладывается...а то что допустили чайников к рабочим машинам которые под root сразу rm пишут это вообще пипец. Минус 200 к вашей ауре.

Ответить
3

"...Минус 200 к вашей ауре..."
——
Может, и так, зато +10 к доверию ( рассказал о реальной своей неудаче и повысил прозрачность внутренних отношений) и +200 к пиару. Вот так, минусы обращаются в плюсы, по-моему, достаточно грамотно))

Ответить
0

Не так легко за месяц найти замену и вникнуть в суть происходящего. Это проблема не технарей, а менеджмента.
И парни не чайники, все делалось в условиях "высокой напряженности", отсюда и такие методы.
Ну и вопрос к Вам, что будет с вашими серверами в случае если вас (не дай бог) переедет автобус.

Ответить
0

Ничего. Как работало всё так и будет. Все инструкции написаны в видеороликах - куда и что тыкать и что не тыкать, как восстанавливать и всё такое. Я могу хоть завтра плюнуть на всё.

Ответить
0

Ну, вот вы умный человек, завидую. Учусь на своем опыте.

Ответить
1

"Никогда не надеяться на то, что сотрудники будут с тобой вечно."
В вашем случае нужно было срочно обратится к этому незаменимому сотруднику, для восстановления работы было бы все гораздо быстрее. Естественно если вы его не смертельно обидили а он сам ушел.

Ответить
0

второе :(

Ответить
0

ну тут уж что уж, вам прекрасный урок, что то бы не происходило люди самый ценный ресурс, и не стоит смертельно ругаться с ключевыми сотрудниками до момента когда вы сможете их полностью заменить. Да и вообще не стоит ставить в такое положение своих сотрудников, ничего хорошего из этого не получается. Ни с одним из своих работодателей или в дальнейшем партнеров не доводил до такого состояния, как показывает практика формула win - win работает лучше чем фраза "я тебя уничтожу"

Ответить
0

Он просто сильно выгорел, работал по ночам, при этом не сообщал нам, ну или преподносил это слишком скромно. Не углядел, у него накопилось, ну и видим результат. Отношения не испорчены. И в первые месяцы он всеже помогал, проблемы начались позже.

Ответить
1

Уже нашли :)

Ответить
1

Главный вывод ИМХО - документация, документация и документация, включаю регулярное тестирования disaster recovery сценариев.

Ответить
–1

Всегда хотелось в ответ на предложение бесплатного обслуживания когда у тебя телефония легла предложить в жопу это предложение засунуть, когда дневная выручка несколько сотен, а продавцы сидят перед мониторами и глазами хлопают. Тут лучше апдейты по ситуации работают, в плане психологической устойчивости клиента.

Ответить
0

Как то все странно. Вы восстановили из бэкапа, но баги вылезли в другом месте? То есть это не бэкап был?

Ответить
0

В бэкапе мы храним данные пользователей. Настройки серверов хранятся в конфигурационных файлах, этот сервер давно не обновлялся и на него небыло этого файла.

Ответить
0

ну когда то я тоже относился к первому типу админов, которые еще не делают полных бэкапов ))

Ответить
0

А почему бы не найти инженеров с нормальным опытом и подороже?
я знаю что хрен найдешь

Ответить
0

Не прошло и суток, а onlinePBX упал опять. Кажется, не все уроки выучены :)

Ответить
0
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Хакеры смогли обойти двухфакторную
авторизацию с помощью уговоров
Подписаться на push-уведомления
{ "page_type": "default" }