Это минимальный план действий для on-call, чтобы быстро вернуть сайт, уменьшить простои и подготовить данные для разработчиков. Делается так, чтобы даже человек без глубоких знаний мог выполнить базовые шаги по инструкции.
Первые 30 минут - шаги по минутам
-
0–2 мин - оповещение: отправьте в чат команду «site-down» с ссылкой и временем обнаружения.
-
2–6 мин - проверка внешнего статуса: используйте curl или монитор в облаке - 200/500/timeout.
-
6–10 мин - проверьте последние деплои и коммиты в CI; откат если был проблемный релиз за 10–20 минут.
-
10–15 мин - перезапуск сервисов: nginx, app-процессы, очередь - по checklist.
-
15–20 мин - проверьте логи ошибок (последние 500 строк) и наличие пиков по ресурсам (CPU/Memory).
-
20–25 мин - если не помогло - включите read-only режим (статическая страница «мы скоро вернёмся») и уведомите сторонние интеграции.
-
25–30 мин - собрать минимальный пакет для postmortem: лог, env, commit, время, кто делал deploy.
Короткие правила решений
-
если проблема после деплоя - откатить;
-
если проблема в инфраструктуре (DB/Redis) - переключиться на резерв/replica;
-
если нет быстрого решения - включить read-only и продолжать расследование.