Skip to main content

Мониторинг и соглашения

Соглашение (SLA) — юридическая договоренность между компанией и клиентом о времени безотказной работы сервиса, сроках реагирования и мерах ответственности. Для обеспечения SLA внутри компании используются SLO.

Целевое значение (SLO) — диапазон значений индикатора, который считается приемлемым и минимально влияет на восприятие услугу или системы. Например, процент удачно обработанных запросов.

Индикатор (SLI) — фактическое измерение состояния системы.

На странице юнита на вкладке Соглашения отображается общая информация о заведенных соглашениях.

Типы SLO

Time based SLO

Time Based SLO — целевой уровень обслуживания на основе минут доступности. Каждая минута размечается как «хорошая» или «плохая» по значению выбранного индикатора в эту конкретную минуту.

Индикатором может быть любая метрика или логи, которые говорят о недоступности услуги или системы.

В таком подходе есть:

  • SLO для конкретного индикатора — при достижении какого порога минута считается плохой.
  • SLO для услуги — количество «хороших» минут среди выбранного временного промежутка: календарных или скользящих недели, месяца.

Request based SLO

Request Based SLO — целевой уровень обслуживания на основе пользовательских запросов или событий. Этот метод подсчитывает, какая доля запросов выполнена успешно, учитывает каждый индивидуальный запрос и оценивает надёжность сервиса.

Для request based SLO в системе предусмотрены 2 типа индикаторов:

  • Availability — доля хороших запросов среди всех запросов. Например, количество успешных переходов на страницу среди всех нажатий на кнопку для перехода на эту страницу.
  • Latency — доля запросов, обработанных быстрее установленного временного порога. Например, количество успешных рендерингов формы Б за < 100 мс / общее количество вызовов формы Б.

Какой запрос считать хорошим команда решает самостоятельно. Например, это могут быть запросы:

  • с кодом обработки не 5xx,
  • которые были обработаны за одну или несколько попыток.