10-monitoring-01-base

Вас пригласили настроить мониторинг на проект. На онбординге вам рассказали, что проект представляет из себя платформу для вычислений с выдачей текстовых отчетов, которые сохраняются на диск. Взаимодействие с платформой осуществляется по протоколу http. Также вам отметили, что вычисления загружают ЦПУ. Какой минимальный набор метрик вы выведите в мониторинг и почему?

количество http соединений - если где-то соединения зависают, то со временем это может привести к недоступности платформы

CPUla - средняя нагрузка на ЦПУ

inodes - если отчеты пишутся в большое количество маленьких файлов

свободное место на диске - так как оно может закончиться

RAM - просто потому что могу

Менеджер продукта посмотрев на ваши метрики сказал, что ему непонятно что такое RAM/inodes/CPUla. Также он сказал, что хочет понимать, насколько мы выполняем свои обязанности перед клиентами и какое качество обслуживания. Что вы можете ему предложить?

Zabbix. его триггеры можно подписывать как угодно, с понятным описанием. и к тому же он умеет в black-box мониторинг.

Вашей DevOps команде в этом году не выделили финансирование на построение системы сбора логов. Разработчики в свою очередь хотят видеть все ошибки, которые выдают их приложения. Какое решение вы можете предпринять в этой ситуации, чтобы разработчики получали ошибки приложения?

я бы рекомендовал облачные решения для перехвата ошибок, например Sentry.

Вы, как опытный SRE, сделали мониторинг, куда вывели отображения выполнения SLA=99% по http кодам ответов. Вычисляете этот параметр по следующей формуле: summ_2xx_requests/summ_all_requests. Данный параметр не поднимается выше 70%, но при этом в вашей системе нет кодов ответа 5xx и 4xx. Где у вас ошибка?

summ_2xx_requests - считаются только коды 2хх

ozarsif / 10-monitoring-01-base Goto Github PK