Перейти к основному содержимому

120 Процессы в SRE командах

Слайды на отдельной странице

О чем лекция
  • Продакшен встреча
  • Работа только в командах
    • Роли менеджера и тех. лида
  • Дежурства и расписания
  • Взаимодействие команд
    • Ручные пейджи
    • Воррумы
  • Процесс работы
    • Определение SLA
    • Мониторинг SLA
    • Задачи ставятся от сбоев и ложных алертов
  • Дейлики для SRE
  • Правильная организация алертов
    • Только важные
    • Задачи/пейджи
  • Антипаттерны
    • Специализация
    • Работу делает самый опытный
  • Чаты SRE команды
    • Team Support
    • Users * Team Highlights

TODO(d.maslennikov): Вставить нашу геймификацию

TODO(d.maslennikov): Упомянуть про ротацию дежурных, как фактор обучения

TODO(d.maslennikov): не забыть:

  • доставка пейджей только ответственным инженерам (никаких первых линий и прочего)
    • уменьшаем скорость реакции
    • делаем обратную связь инженерам — ложные срабатывания их будят
  • доставка пейджей только звонком (телефон должен трезвонить) до подтвердения и план эскалации на случай, если дежурный не отвечает
  • триггеры должны делать сами инженеры, а не отдельные команды
  • пейджей может быть настолько мало, чтобы внимательно прочитать каждый