{"id":4879,"title":"\u0427\u0442\u043e \u043c\u043e\u0436\u043d\u043e \u0443\u0441\u043f\u0435\u0442\u044c, \u043f\u043e\u043a\u0430 \u0432\u044b \u0447\u0438\u0442\u0430\u0435\u0442\u0435 \u044d\u0442\u0443 \u0441\u0442\u0430\u0442\u044c\u044e","url":"\/redirect?component=advertising&id=4879&url=https:\/\/vc.ru\/otpbank\/266952&hash=82572a4a372a00657a2afc359f19a24c0bd24be8cecbd743f0681209c07c9a3a","isPaidAndBannersEnabled":false}

Падения onlinePBX. Причины, последствия и уроки

В феврале onlinePBX очень сильно просел в надежности. Наш SLA упал ниже плинтуса. Нас материли и называли клоунами, нам угрожали.

График показывает падения сервиса

Все началось в ноябре после увольнения самого ценного сотрудника

Фактически, он в одного последние 6 лет делал наше имя. Благодаря ему слова надежность и качество произносились нашими сотрудниками с особой гордостью. И вот он ушел.

Естественно, подготовить ему замену за месяц и даже за год невозможно. Он ловко манипулировал шестнадцатью серверами и мог наперед предсказать какая проблема нас ожидала в будущем. Мог не только предсказать, но и предотвратить.

Сейчас его место занимают двое бойцов, которые на текущий момент не имеют достаточного опыта чтобы предсказывать эти проблемы.

И вот недавно, во время очередного небольшого обновления сервера, боец забыл указать точку в следующей команде:

$root@s4 ~/tmp rm -rw /etc

Хотел почистить за собой временные файлы, а в итоге удалил самую важную папку на сервере. Мы потеряли сервер на котором было более пятисот компаний. Потеряли совсем.

Начали оперативно восстанавливать, нам понадобилось ориентировочно 2 часа. Восстановили пользовательские настройки, конфигурации программ, перенесли аудио-файлы. Проходит 10 минут и телефония начинает падать снова и снова. Мы несколько дней бились головой о монитор, чтобы понять причину такого поведения. Точно такая же конфигурация работает на других серверах, но с этим что-то идет не так.

Копали логи, изучали каждую букву, проверили десятки гипотез, нашли в итоге одного клиента с оператором, который был подключен только к этому серверу в новой конфигурации. При звонке на него рушился весь сервак.

Тут важно сказать, что мы не являемся оператором связи. OnlinePBX на данный момент поддерживает более 200 сторонних операторов — так не делает никто в мире.

Ок, клиента изолировали, с ним разберемся позже. Ребуты прекратились, но мы стали наблюдать проблемы с интеграциями. При входящем звонке мы проверяем в сторонних CRM-системах наличие контакта и этот скрипт перестал срабатывать обрубая звонки. Мы начали его дебажить и выяснили, что скрипту не удавалось подключиться к базе данных на другом сервере. Проверили пароли, подключились вручную - работает. Подозрение пало на шифрование, а дальше выяснилось что PHP после обновления стал требовать указывать тип шифрования явным образом, не подставляя значения по умолчанию. Б - безопасность.

Естественно, такое бесследно не проходит

На нас обрушилась тонна вполне заслуженного говнеца изо всех щелей. Надо сказать, что это очень помогало в расставлении приоритетов и концентрации внимания на проблеме. Конечно, мы возместим клиентам которые испытывали проблемы по неделе бесплатного обслуживания. И письменно извинимся за провал. Но лучшее извинение, это когда все работает хорошо - тут мы особо постараемся.

Интересные факты

В моменты когда у нас происходили сбои резко увеличилось количество платежей. Вероятно, клиенты думали что проблема в нехватке денег.

Казалось бы, что при проблемах должен происходить отток клиентов, однако, происходило все ровно наоборот. Отток сократился с 5% до рекордных 3,6%. Это благодаря хорошей работе нашей технической поддержки, которая сумела мобилизоваться и работать в условиях тройной нагрузки, в том числе и психологической.

Отток пользователей

Приток новых клиентов не сократился, а после стабилизации ситуации даже увеличился.

Выводы

1. Продолжать переезд в контейнеры. Нужно учиться восстанавливаться после сбоев быстрее и не лазать на серваки руками.

2. Никогда не надеяться на то, что сотрудники будут с тобой вечно.

3. В погоне за функционалом не забывать про надежность.

4. Всегда помнить кто и почему нам доверяет.

P.S. С боевым крещением, бойцы.

{ "author_name": "Вячеслав Че", "author_type": "self", "tags": [], "comments": 21, "likes": 13, "favorites": 7, "is_advertisement": false, "subsite_label": "claim", "id": 62495, "is_wide": true, "is_ugc": true, "date": "Tue, 26 Mar 2019 13:57:14 +0300", "is_special": false }
0
21 комментарий
Популярные
По порядку
Написать комментарий...
1

Мы потеряли сервер на котором было более пятисот компаний. Потеряли совсем.

Начали оперативно восстанавливать, нам понадобилось ориентировочно 2 часа.

Вот у меня под контролем более 50 серверов каждый день. Там чего только нет, начиная от owncloud, почтовых и заканчивая серверами для ботов парсеров...но как вы могли нормально на виртуалки не посадив - 500 клиентов даже найти и тем более не привести в порядок вовремя? Вот вообще в голове не укладывается...а то что допустили чайников к рабочим машинам которые под root сразу rm пишут это вообще пипец. Минус 200 к вашей ауре.

Ответить
3

"...Минус 200 к вашей ауре..."
——
Может, и так, зато +10 к доверию ( рассказал о реальной своей неудаче и повысил прозрачность внутренних отношений) и +200 к пиару. Вот так, минусы обращаются в плюсы, по-моему, достаточно грамотно))

Ответить
0

Не так легко за месяц найти замену и вникнуть в суть происходящего. Это проблема не технарей, а менеджмента.
И парни не чайники, все делалось в условиях "высокой напряженности", отсюда и такие методы.
Ну и вопрос к Вам, что будет с вашими серверами в случае если вас (не дай бог) переедет автобус.

Ответить
0

Ничего. Как работало всё так и будет. Все инструкции написаны в видеороликах - куда и что тыкать и что не тыкать, как восстанавливать и всё такое. Я могу хоть завтра плюнуть на всё.

Ответить
0

Ну, вот вы умный человек, завидую. Учусь на своем опыте.

Ответить
1

"Никогда не надеяться на то, что сотрудники будут с тобой вечно."
В вашем случае нужно было срочно обратится к этому незаменимому сотруднику, для восстановления работы было бы все гораздо быстрее. Естественно если вы его не смертельно обидили а он сам ушел.

Ответить
0

второе :(

Ответить
0

ну тут уж что уж, вам прекрасный урок, что то бы не происходило люди самый ценный ресурс, и не стоит смертельно ругаться с ключевыми сотрудниками до момента когда вы сможете их полностью заменить. Да и вообще не стоит ставить в такое положение своих сотрудников, ничего хорошего из этого не получается. Ни с одним из своих работодателей или в дальнейшем партнеров не доводил до такого состояния, как показывает практика формула win - win работает лучше чем фраза "я тебя уничтожу"

Ответить
0

Он просто сильно выгорел, работал по ночам, при этом не сообщал нам, ну или преподносил это слишком скромно. Не углядел, у него накопилось, ну и видим результат. Отношения не испорчены. И в первые месяцы он всеже помогал, проблемы начались позже.

Ответить
1

Уже нашли :)

Ответить
1

Главный вывод ИМХО - документация, документация и документация, включаю регулярное тестирования disaster recovery сценариев.

Ответить
–1

Всегда хотелось в ответ на предложение бесплатного обслуживания когда у тебя телефония легла предложить в жопу это предложение засунуть, когда дневная выручка несколько сотен, а продавцы сидят перед мониторами и глазами хлопают. Тут лучше апдейты по ситуации работают, в плане психологической устойчивости клиента.

Ответить
0

Как то все странно. Вы восстановили из бэкапа, но баги вылезли в другом месте? То есть это не бэкап был?

Ответить
0

В бэкапе мы храним данные пользователей. Настройки серверов хранятся в конфигурационных файлах, этот сервер давно не обновлялся и на него небыло этого файла.

Ответить
0

ну когда то я тоже относился к первому типу админов, которые еще не делают полных бэкапов ))

Ответить
0

Вячеслав теперь вы будете все записи где вам дают обратную связь минусовать? Как-то по детски себя ведёте.

Ответить
0

Здравствуйте Максим, с вами можно как то связаться, у меня к вам один вопрос?

Ответить
–1

Не совсем понял.

Ответить
0

Теперь понятно :)

Ответить
0

А почему бы не найти инженеров с нормальным опытом и подороже?
я знаю что хрен найдешь

Ответить
0

Не прошло и суток, а onlinePBX упал опять. Кажется, не все уроки выучены :)

Ответить
Читать все 21 комментарий
Итоги Python meetup: медленные языки, быстрые роботы
Как оцифровать ремонт колесных пар? Ответ нашли в Первой грузовой компании

Мы завершили разработку интеллектуальной системы, которая на основе контрольно-технических измерений позволяет отслеживать толщину колесных пар (ИС КТИ). С ее помощью компания снижает расходы на ремонт и повышает уровень клиентского сервиса. Проект является частью масштабной разработки под названием «Цифровой вагон». В статье мы подробно…

Как Askona обманывает покупателей, а Aliexpress и Tmall не видят очевидного

Здравствуйте! Всегда был только читателем на vc и не думал, что когда-то придётся выйти из тени, но сейчас я не вижу другого выхода. Постараюсь кратко и по факту.
Видя очередную распродажу с мегаскидками на Али, я решился заказать матрас и в нагрузку к нему анатомическую подушку в Askona Official Store. Скомбинировав скидки, купоны, монеты и всё…

Бизнес с «нуля». Как эффективно продвигать стартап?

«Начинать новую жизнь нужно с теми, кто тебе действительно дорог” (Лукас Скотт “Холм одного дерева»).

Мой Аккаунт на авито заблокирован. Профиль заблокирован В нём предлагали сомнительные условия сделок. Ваши объявления

Всем доброго утра, начну сразу с весёлого, создал аккаунт авито 4-5 лет назад, на аккаунте 50 отзывов, все 5 звёзд, занимаюсь продажей техники, комплектующих, пк, и т.д. Всё было хорошо, пока не выставил объявление ниже рыночной цены , продавал видеокарту 3080 по 120 тысяч, под заказ от несокльких штук, указал номер телефона, всё обписал в…

Власти США предъявили обвинения основателю производителя электрогрузовиков Nikola миллиардеру Тревору Милтону Статьи редакции

Присяжные требуют, чтобы Милтон лишился всего имущества и денег, «связанных с преступлением», это может быть около $1 млрд.

Тревор Милтон The Verge
«Яндекс.Про» отстранил курьера от работы из-за неправильного адреса клиента

Несколько лет назад я прочитал на VC занимательную статью о том, как в одной из американских IT компаний искусственный интеллект самостоятельно уволил сотрудника, а тот никак не смог этому противостоять. Тогда мне это показалось забавным, исключительным случаем, но я и подумать не мог, что такие ситуации могут быть отлажены в «систему» и…

«Spotify: История продукта». Создание десктопного приложения

От десктопного приложения с серверами в шкафу до революционного формата потоковой передачи музыки.
«Spotify: История продукта» — серия статей от команды Spotify в России, где читатели vc.ru могут узнать, как создавался сервис, какие решения стояли за продуктовыми изменениями и кто придумал музыкальные стриминги такими, какими они выглядят сейчас.

PERI развивает систему управления производством с 1С:ERP
От простого робота до Защитника: как мы создавали телефонного секретаря Олега, которого потом начали копировать

В начале июня мы запустили Защитника Олега — нашего нового общедоступного телефонного секретаря, разработанного на базе похожего решения для абонентов Тинькофф Мобайла (работает с 2019 года).

Рогозин плохой маркетолог?

Почему полёт Брэнсона на самолёте в космос наблюдало в прямом эфире огромное количество людей, а про модуль "Наука" информационная изоляция и то, если бы не брак двигателей которые повернули станцию на 40 градусов наверное вообще в новостях не было бы ни слова. Так почему же наши СМИ с радостью освещают частные Американские компании, но ни слова…

null