Причиной недавнего сбоя в Twitter стала ошибка разработчика, который в одиночку занимался платным API — Platformer Статьи редакции
Он «внёс ошибочную правку в конфигурацию» и «по сути сломал весь API».
- 6 марта 2023 года пользователи Twitter столкнулись с проблемами в работе сервиса: изображения не загружались, а попытки перейти по ссылкам или открыть TweetDeck заканчивались ошибкой — система говорила, что «текущий API-план пользователя не даёт доступа».
- Техподдержка объяснила сбой «изменением кода, которое привело к нежелательным последствиям». По словам издания Platformer, речь в частности шла о работе над «отключением доступа к бесплатному API и переходом на платный».
- Этой задачей занимался всего один DevOps-инженер, отвечающий за техническое обеспечение надёжности сайта (SRE), сообщили источники издания. Они рассказали, что в день сбоя он «внёс ошибочную правку в конфигурацию» и «по сути сломал весь API соцсети», нарушив вместе с этим работу внутренних инструментов.
- Илон Маск, в свою очередь, лишь сослался на «маленькое изменение в API» и списал всё на плохой код: «Работу кода так легко нарушить — даже стараться не нужно. Надо будет целиком его переписать».
- Некоторые сотрудники, опрошенные Platformer, согласны, что по крайней мере часть проблем и правда возникает из-за техдолга, который команда копила ещё при бывших гендиректорах Джеке Дорси и Параге Агравале. «Техдолг настолько большой, что всего одно изменение может поломать всю систему», — признался один из работников.
- Повысить стабильность работы сайта сам Маск обещал ещё при покупке и лично встречался с разработчиками, чтобы «лучше понять стек». Но, помимо этого, он уволил половину штата (и порядка 500 инженеров), а также почти всех подрядчиков, часть из которых работала над продуктом.
- СМИ уже тогда писали, что сокращения могут привести к тому, что однажды система рухнет, а «позвонить, чтобы всё починить, будет некому». И с тех пор Twitter пережил несколько сбоев: 23 января 2023-го пользователи не могли публиковать твиты, 8 февраля — подписываться друг на друга, 15-го снова перестала работать отправка, 18-го сломалась лента, что повторилось вновь 1 марта.
- У сотрудников уже «выработался иммунитет», признаются некоторые из них. «Мы то и дело хохотали», — сказал один из них, вспоминая утро 6 марта. Platformer же считает, что Маск как руководитель дошёл до «критической точки», поскольку допустил ситуацию, в которой над проектом, тесно связывающим основные системы соцсети, работает всего один человек.
6508
просмотров
В одиночку ☝🏻 А был бы у него напарник, твиттер лежал бы в 2 раза дольше, — подумал Маск.
А если б ту бабу не уволили, то сломали бы ночью.
сколько напарников, столько бы и лежал твитер
так ведь сейчас уклон идёт на сокращение сотрудников, а не прибавление)
А чего они хотели увольняя народ пачками, видимо тестировать и делать код ревью там уже некому
Мне всё таки думается, что увольняли не критический персонал. Убрали баласт и т.п.
Ну видимо QA команду тоже сильно сократили
Так девопс наломал дров или Вы только заголовок прочитали?
Ну раньше было не лучше https://api.twitterstat.us/history?page=5
Там чуть ли не каждый квартал по 2-3 проблемы возникало
ну думали явно не головой
Из новости не ясно как связан техдолг и сисадмин ломающий прод. Скорее возникают вопросы к организации процессов. Почему всего один человек? Почему изменения сделаны на продакшене, а не протестированы в промежуточной среде? Кто-то торопит инженеров с выпуском фич? А как же автотесты и QA?
Техдолг может серьёзно тормозить развитие проекта и влиять на настроение разрабов, но кривой конфиг вряд ли написали при прошлых директорах.
Я в прошлом году поломал прод достаточно крупного инфраструктурного сервиса, выполняя первую задачу там на аутстаффе. Выкатывал хорошо оттестированные простые изменения, с тестами, ревью и прочим. Казалось, ну никак ничего поломать не могут (это был первый самый простой шаг). Деплоил через штатную тулзу автоматического постепенного деплоя, метрики, все как положено всеми практиками.
Оказалось, что код деплоится не атомарно. Т.е. когда 2 модуля A и B деплоятся как единый пакет, но на сервере модуль A может дернуть старую версию B, т.к. они подгружаются с файловой системы в момент первого применения. И всё это всплывает только минут через 10 после успешного деплоя, когда под локальным пиком нагрузки просыпаются спавшие ранее воркеры, да ещё портят за собой глобальный кеш.
Да ладно. Прошлый раз вся инфраструктура Фейсбук упала и заблокировалась от лишней точки в конфиге. Бывает.
Ну теперь зато видно: прогеры обновления накатывают — работой занимаются, не зря деньги получают. Не то что прошлые: пили смузи, жали на кнопки и ничего не происходило.
Уволить всех этих смузихлёбов-бракоделов.
Макс один сможет писать весь код сразу без ошибок. И сразу в машинных кодах.
какое отличное решение вы предложили
Ща ток раковину установит и как напишет)
Маск пришёл и молча поправил всё
"Маск как руководитель дошёл до «критической точки», поскольку допустил ситуацию, в которой над проектом, тесно связывающим основные системы соцсети, работает всего один человек."-
-ну действительно ,уволить 500 человек ,и чтобы один справился без препятствий и проблем ,сложная задача ,действительно до критической точки дошел
Зато не скажешь, что он сидит просто так и ничего не делает, особенно в таких ситуациях))
Греф с гордостью сообщил Путину, что в Сбер платным API занимаются 38.000 программистов и ни одного продакт-менеджера
Этой задачей занимался всего один DevOps-инженер, отвечающий за техническое обеспечение надёжности сайта
Больше он видимо этим заниматься не будет
В IT компаниях начальство редко готово пускать ресурсы на чистку тех долга. У начальства цель - увеличивать выручку и быстро. А инвестиции в инфраструктуру и переписывание систем окупаются годами.
Поэтому во главе таких компаний должен стоять человек с техническим бэкграундом. А не люди из консалтинга, МБА или, упаси боже, сейлзы. Эти люди пожертвуют будущим продукта ради сиюминутной прибыли (и как следствие персональных бонусов). А когда все начнет накрываться медным тазом оставят продукт медленно помирать.
Да есть такое, но ещё есть СТО .
опять девопсы во всем виноваты
Вот-вот, а заголовок бочку катит на разрабов.
Типичные проблемы программистов - всем занимаются в одиночку
скоро значит и этого разработчика уволят, а то как это так, не может один на своем горбу все тащить, непорядок
"У сотрудников уже «выработался иммунитет», признаются некоторые из них. «Мы то и дело хохотали», — сказал один из них, вспоминая утро 6 марта."-надеюсь не дохохотались,с настроением Маска сейчас это опасно шутки шутить
Ну и конечно Маск его уволит
Он же любит всех увольнять
как мы и думали сокращение штата сказалось на работе сервера
Сервера? Там сотни, если не тысячи серверов) потому и слегка сложно выкладывать изменения, ничего не поломав)
Теперь весь код будет проходить аудит у Маска :D
Оптимизировано
Сбой был после того, как было объявление о новом сотруднике - собаке) Видимо очень отвлекающий сотрудник
о, а у них похоже внедрен процесс chaos engineering, просто маск о нем пока не знает.
https://en.m.wikipedia.org/wiki/Chaos_engineering
И что он даже не уволил его за такую оплошность
😁
"Некоторые сотрудники, согласны, что по крайней мере часть проблем и правда возникает из-за техдолга, который команда копила ещё при бывших гендиректорах "
теперь на этого бедолагу еще и технический долг повесят
Хуяк, хуяк и в продакшен
Все таки твитер это критическая система как например автоматизированная система управления атомной электростанцией, как упал - так поднимут, никто от этого не умрет.
это жизнь, с каждым бывает...
Мне кажется, там задача развалить твитр.
а почему в одиночку, неужели некому было ему помочь?
Наверное, остальные ищут место по лучше.
Когда не писал тесты...