Мониторинг и соглашения
Соглашение (SLA) — юридическая договоренность между компанией и клиентом о времени безотказной работы сервиса, сроках реагирования и мерах ответственности. Для обеспечения SLA внутри компании используются SLO.
Целевое значение (SLO) — диапазон значений индикатора, который считается приемлемым и минимально влияет на восприятие услугу или системы. Например, процент удачно обработанных запросов.
Индикатор (SLI) — фактическое измерение состояния системы.
На странице юнита на вкладке Соглашения отображается общая информация о заведенных соглашениях.

Типы SLO
Time based SLO
Time Based SLO — целевой уровень обслуживания на основе минут доступности. Каждая минута размечается как «хорошая» или «плохая» по значению выбранного индикатора в эту конкретную минуту.
Индикатором может быть любая метрика или логи, которые говорят о недоступности услуги или системы.
В таком подходе есть:
- SLO для конкретного индикатора — при достижении какого порога минута считается плохой.
- SLO для услуги — количество «хороших» минут среди выбранного временного промежутка: календарных или скользящих недели, месяца.
Request based SLO
Request Based SLO — целевой уровень обслуживания на основе пользовательских запросов или событий. Этот метод подсчитывает, какая доля запросов выполнена успешно, учитывает каждый индивидуальный запрос и оценивает надёжность сервиса.
Для request based SLO в системе предусмотрены 2 типа индикаторов:
- Availability — доля хороших запросов среди всех запросов. Например, количество успешных переходов на страницу среди всех нажатий на кнопку для перехода на эту страницу.
- Latency — доля запросов, обработанных быстрее установленного временного порога. Например, количество успешных рендерингов формы Б за < 100 мс / общее количество вызовов формы Б.
Какой запрос считать хорошим команда решает самостоятельно. Например, это могут быть запросы:
- с кодом обработки не 5xx,
- которые были обработаны за одну или несколько попыток.