Электро самолёт
Философия Стива Джобса
iPhone 16e
Nothing Phone 3a
Оживление фото LumaAI
Велосипед Mercedes
Робота научили делать сальто
Grok vs ChatGPT vs Claude
Генерация видео от Google

Падения onlinePBX. Причины, последствия и уроки

В феврале onlinePBX очень сильно просел в надежности. Наш SLA упал ниже плинтуса. Нас материли и называли клоунами, нам угрожали.

График показывает падения сервиса
График показывает падения сервиса

Все началось в ноябре после увольнения самого ценного сотрудника

Фактически, он в одного последние 6 лет делал наше имя. Благодаря ему слова надежность и качество произносились нашими сотрудниками с особой гордостью. И вот он ушел.

Естественно, подготовить ему замену за месяц и даже за год невозможно. Он ловко манипулировал шестнадцатью серверами и мог наперед предсказать какая проблема нас ожидала в будущем. Мог не только предсказать, но и предотвратить.

Сейчас его место занимают двое бойцов, которые на текущий момент не имеют достаточного опыта чтобы предсказывать эти проблемы.

И вот недавно, во время очередного небольшого обновления сервера, боец забыл указать точку в следующей команде:

$root@s4 ~/tmp rm -rw /etc

Хотел почистить за собой временные файлы, а в итоге удалил самую важную папку на сервере. Мы потеряли сервер на котором было более пятисот компаний. Потеряли совсем.

Начали оперативно восстанавливать, нам понадобилось ориентировочно 2 часа. Восстановили пользовательские настройки, конфигурации программ, перенесли аудио-файлы. Проходит 10 минут и телефония начинает падать снова и снова. Мы несколько дней бились головой о монитор, чтобы понять причину такого поведения. Точно такая же конфигурация работает на других серверах, но с этим что-то идет не так.

Копали логи, изучали каждую букву, проверили десятки гипотез, нашли в итоге одного клиента с оператором, который был подключен только к этому серверу в новой конфигурации. При звонке на него рушился весь сервак.

Тут важно сказать, что мы не являемся оператором связи. OnlinePBX на данный момент поддерживает более 200 сторонних операторов — так не делает никто в мире.

Ок, клиента изолировали, с ним разберемся позже. Ребуты прекратились, но мы стали наблюдать проблемы с интеграциями. При входящем звонке мы проверяем в сторонних CRM-системах наличие контакта и этот скрипт перестал срабатывать обрубая звонки. Мы начали его дебажить и выяснили, что скрипту не удавалось подключиться к базе данных на другом сервере. Проверили пароли, подключились вручную - работает. Подозрение пало на шифрование, а дальше выяснилось что PHP после обновления стал требовать указывать тип шифрования явным образом, не подставляя значения по умолчанию. Б - безопасность.

Естественно, такое бесследно не проходит

На нас обрушилась тонна вполне заслуженного говнеца изо всех щелей. Надо сказать, что это очень помогало в расставлении приоритетов и концентрации внимания на проблеме. Конечно, мы возместим клиентам которые испытывали проблемы по неделе бесплатного обслуживания. И письменно извинимся за провал. Но лучшее извинение, это когда все работает хорошо - тут мы особо постараемся.

Интересные факты

В моменты когда у нас происходили сбои резко увеличилось количество платежей. Вероятно, клиенты думали что проблема в нехватке денег.

Казалось бы, что при проблемах должен происходить отток клиентов, однако, происходило все ровно наоборот. Отток сократился с 5% до рекордных 3,6%. Это благодаря хорошей работе нашей технической поддержки, которая сумела мобилизоваться и работать в условиях тройной нагрузки, в том числе и психологической.

Отток пользователей
Отток пользователей

Приток новых клиентов не сократился, а после стабилизации ситуации даже увеличился.

Выводы

1. Продолжать переезд в контейнеры. Нужно учиться восстанавливаться после сбоев быстрее и не лазать на серваки руками.

2. Никогда не надеяться на то, что сотрудники будут с тобой вечно.

3. В погоне за функционалом не забывать про надежность.

4. Всегда помнить кто и почему нам доверяет.

P.S. С боевым крещением, бойцы.

1010
21 комментарий

Комментарий недоступен

1

"...Минус 200 к вашей ауре..."
——
Может, и так, зато +10 к доверию ( рассказал о реальной своей неудаче и повысил прозрачность внутренних отношений) и +200 к пиару. Вот так, минусы обращаются в плюсы, по-моему, достаточно грамотно))

3

Не так легко за месяц найти замену и вникнуть в суть происходящего. Это проблема не технарей, а менеджмента.
И парни не чайники, все делалось в условиях "высокой напряженности", отсюда и такие методы.
Ну и вопрос к Вам, что будет с вашими серверами в случае если вас (не дай бог) переедет автобус.

"Никогда не надеяться на то, что сотрудники будут с тобой вечно."
В вашем случае нужно было срочно обратится к этому незаменимому сотруднику, для восстановления работы было бы все гораздо быстрее. Естественно если вы его не смертельно обидили а он сам ушел.

1

второе :(

Главный вывод ИМХО - документация, документация и документация, включаю регулярное тестирования disaster recovery сценариев.

1
Раскрывать всегда
ЦБ объяснил укрепление рубля «геополитическими факторами» и понизил официальный курс доллара до 85,9 рубля

Впервые с августа 2024 года.

1515
11
Я правильно понимаю, что теперь все цены пойдут вниз? На электронику, продукты питания, ЖКХ и пр. Ведь так?
реклама
разместить
Alibaba выпустила модель для генерации видео Wan 2.1 с открытым исходным кодом

Пользователи сравнивают качество роликов с Veo 2 от Google.

1313
22
11
11
Бесплатный убийца Photoshop на основе ИИ
Средний чек выше всего на «Мегамаркете», регионы — драйвер роста интернет-торговли: исследование о российских маркетплейсах

Ниже всего чек на «Магнит Маркете» — 793 рубля.

Средний чек выше всего на «Мегамаркете», регионы — драйвер роста интернет-торговли: исследование о российских маркетплейсах
2121
66
11
Тот самый Мегамаркет, который хотят закрыть из-за убытков?
Житель Индии отсудил у кинотеатра компенсацию за слишком длинную рекламу перед фильмом

Всего около 55 тысяч рублей, но «время — деньги», заключил суд.

Источник фото: Mint
3232
1212
33
11
11
11
После индийской рекламы и фильм можно не смотреть
Гайд по успешному поиску IT-специалистов от экспертов: 6 практичных шагов

Айтишники требуют космических зарплат, но срывают дедлайны и пропадают после испытательного? Рынок перегрет, а фейковые резюме — не редкость. Ошибка в найме = потеря денег и времени. Рассказываем по шагам, как найти сильного IT-специалиста.

Гайд по успешному поиску IT-специалистов от экспертов: 6 практичных шагов
1717
Samari Hub: инновационное решение для вашего бизнеса, которое сделает встречи продуктивными и эффективными!

В эпоху цифровых технологий, когда каждое мгновение на счету, предприятия и компании стремятся использовать инновационные инструменты, которые оптимизируют их работу и повышают производительность. И вот наконец появился продукт, который изменит ваш подход к проведению и обработке встреч — Samari Hub.

[]