Доклад «Как мы внедрили Observability в крупной финтех-компании»

Как финтех‑компания с тысячами микросервисов перешла с зарубежного APM на отечественную платформу наблюдаемости и не потеряла в качестве работы систем. Команда сравнила варианты, выбрала on‑prem решение, развернула его, обучила команды и встроила в релизные процессы, чтобы быстрее находить причины сбоев и предупреждать их заранее. В результате сократилось время реакции, выросло покрытие сервисов, а «кто виноват» сменилось на работу с фактами через трассировки, дашборды и единый источник правды. 01:13 — Исходные вводные: тысячи микросервисов, 10+ млн транзакций и SLA «четыре девятки» 02:39 — Что было раньше: Instana 04:10 — Open source, зарубежные аналоги или российская «коробка» 05:21 — Требования без нюансов: on‑prem, .NET разных версий, автодетект, готовые дашборды 06:39 — Пилот и масштабирование 07:49 — Реальность внедрения: «лего» из легаси, интеграций и неидеальной документации. 09:41 — Почему без обучения команды инструмент «лежит без дела». 11:02 — Где нашли пользу: неочевидные запросы, циклы интеграций, метрики UX из коробки 12:58 — Трассировки, топологии, релизы на дашбордах в реальном времени 14:50 — Итог по метрикам 16:58 — Встраивание в процессы: Observability в CI/CD и разбор инцидентов по единому сценарию 18:45 — Планы: полное покрытие, ITSM‑интеграции, аномалий‑детект, единые SLI 20:35 — Предиктивные сбои и связка с поддержкой для автоответов 21:14 — Q&A: почему подключение сервисов ускорилось и как помогло автоинструментирование

Смотрите также