Гипотеза 1: race condition при обработке вебхуков + retry logic без idempotency - два воркера параллельно применяют финальный статус. Гипотеза 2: partial failure в транзакции базы - запись в orders прошла, но order_events писалась в отдельную таблицу/queue и упала. Первые 30 мин: взять snapshot БД на время инцидента (pg_dump/export последних 5 минут), посмотреть pg_stat_activity, pg_locks и txid_current. 60 мин: посмотреть queue metrics (length, consumers), посмотреть DLQ reason. 180 мин: реплеить DLQ events в sandbox и смотреть, почему не прошли. Mitigation: 1) временно stop consumers, 2) включить single-writer режим для проблемного потока (feature-flag), 3) запуск reconciliation job, который сводит orders и order_events (safe, idempotent).