Лекция: Введение. Как ломаются большие системы. Разбор статистики поломок сервисов I SRE Week I ШАД

SRE Week 2024 l Лекция 1: Введение. Как ломаются большие системы. Разбираем статистику поломок сервисов Спикер: Руслан Савченко, руководитель службы разработки динамических таблиц YTsaurus. На лекции вы погрузитесь в технические детали эксплуатации высоконагруженных сервисов и узнаете, как ломаются большие IT-системы. Скачать презентацию по лекции:
Дополнительные материалы (ссылки на лекции, о которых говорит Руслан): 1. H.S. Gunawi et al. Why Does the Cloud Stop Computing? Lessons from Hundreds of Service Outages. SoCC '16.
2. S. Ghosh et al. How to fight production incidents? an empirical study on a large-scale cloud service. SoCC '22.
3. R.I. Cook. How Complex Systems Fail.
4. GitLab team. 2017. Postmortem of database outage of January 31.
Другие лекции интенсива SRE Week: Лекция 2: Характеристики аппаратного обеспечения: CPU, память, диски и сеть: https://youtube.com/live/KHnsyuEqERY?...
Лекция 3: Обзор утилит диагностики в командной строке Linux: https://youtube.com/live/AqDnLf6xf0c?...
Лекция 4: Распределённые системы и observability. Инфраструктурные компоненты и средства диагностики распределённых систем: https://youtube.com/live/4036v1ydDPY?...
Лекция 5: Практика работы SRE. Чем приходится заниматься руками: SLO, capacity planning, алерты, дежурства, incident management, postmortem actions: https://youtube.com/live/758wXAx-bv8?...
Семинар 6.1: Настройка параметров ядра Linux: https://youtube.com/live/I_mVU41I-YE?...
Семинар 6.2: Performance troubleshooting на практике: https://youtube.com/live/d0SZtSF5m4U?...
Узнать больше о Школе анализа данных можно на сайте:

Смотрите также