Мониторинг микросервисных приложений, взгляд SRE (Евгений Потапов, ITSumma)

Системы оркестрации микросервисных приложений (такие как Kubernetes, но не только) позволяют снизить ""цену"" однократной ошибки приложения - микросервис может перезапуститься, ""потерянный"" запрос в service mesh может быть повторен. Кажется, что можно ""снизить"" свое внимание за работоспособностью сервисов - ""если что - перезагрузим"". Подобный подход, однако, создает технический долг, который рано или поздно может вылиться в серьезную аварию. В докладе мы посмотрим на специфику мониторинга микросервисных архитектур и частые ошибки в мониторинге, которых можно избежать. Структура доклада: 1. Автоматические восстановление работы приложения - почему это приносит и пользу и вред? 2. Доступный инструментарий мониторинга. 3. Типичные ошибки мониторинга и как их можно избежать? Выступление прошло в зале Пушкинская и входило в трек Infrastructure (Ops) Слайды:

Смотрите также