Stop the bleeding — остановить кровотечение
Когда на продакшене кризис — не принимаются заказы, не обрабатываются запросы, высокий процент фейлов и т.п. — в первую очередь нужно остановить кровотечение, а потом уже разбираться с первопричиной и решать её системно.
Это основной принцип операционки в Амазоне.
Roll back first. Fix later.
Если на прод случайно выкатили баг, который привёл к проблемам, откатываемся назад, восстанавливаем стабильность, а уже потом разбираемся с тем, что пошло не так. В случаях, если решение очевидное и очень быстрое, можно пофиксить баг, но всегда есть риск впопыхах выкатить новых багов и ухудшить ситуацию.
Хотя это и называется roll back, как правило мы всё же делаем "roll forward" — создаём новый коммит, который убирает проблемные коммиты из главной ветки (main). Таким образом, у нас не возникает несоответствия между главной веткой и кодом на проде даже в кризис.
Если проблемы с инфраструктурой — жрутся ресурсы, не хватает мощностей, тупо скейлим инфраструктуру (scale up/out), чтобы дать системе больше ресурсов. Восстанавливаем стабильность, потом разберёмся почему возникла проблема.
В правильно спроектированной системе ручками ничего добавлять не придётся, нужно только увеличить лимиты — дать функциям больше памяти, повысить тайм-лимиты выполнения, увеличить количество серваков в лоад балансере и т.п.
Таким образом, мы делаем всё возможное, чтобы остановить ж.пу, а потом уже в спокойной обстановке фиксим проблему.