070 Устранение сбоев
О чем лекция
- коммуникация во время устранения сбоев
- воррумы
- как координировать сбои
- эскалация и информирование
- система управления инцидентами (важно, чтобы одна на всю компанию)
- Роли при устранении: коммандор, коммуникатор
- воррумы
- рекоммендации про мониторинг нужный во время сбоев
- исходящие RED метрики
- USE метрики
TODO: каскадные сбои
При информировании о сбоях все на стресе. Поэтому надо выработать привычку изъясняться просто, коротко и предельно конкретно. Следует избегать слов "проблема в Х", "некорректно работает система Х", потому что они очень неконкретны. Что значит "проблема"? Это может быть что угодно, от полной неработоспособности, до возвращения некорректных результатов.
TODO(m.kaleturina):
- Написать, что писать "а у нас" нехорошо (у кого у нас?)
- Графики без подписей
TODO(d.maslennikov):
- логгирование действий во время сбоев: https://tinkoff.slack.com/archives/C015C812QBW/p1628514412180400