Обнаружение и обработка выбросов в науке о данных | Полное руководство для проектов машинного обу...

Изучите обнаружение и обработку выбросов в науке о данных и машинном обучении! В этом полном руководстве мы подробно рассмотрим выбросы: как выявлять, анализировать и обрабатывать выбросы в наборе данных — критически важный этап предварительной обработки данных перед построением любой модели машинного обучения. Независимо от того, новичок вы или работаете над проектом машинного обучения, это видео познакомит вас с практическими методами эффективной обработки выбросов и повышения производительности вашей модели. GitHub (Jupyter Notebook & Dataset):
Временные метки: 00:00 Введение 01:42 Полное введение в выбросы? 06:55 Подготовка данных 08:20 Как обнаружить выбросы? 08:49 1.1 Графические методы — ящики с усами 11:06 1.2 Графические методы — гистограмма 14:10 1.3 Графические методы — диаграмма рассеяния (двумерные выбросы) 15:36 2. Статистические методы 17:56 2.1 Z-оценка (нормально распределенные данные) 27:47 2.2 Межквартильный размах (IQR) — асимметричные данные 34:47 3. Методы машинного обучения — изолирующий лес, DBSCAN или алгоритмы кластеризации 35:32 Как обрабатывать выбросы? 35:45 1. Удаление выбросов 42:30 2. Верхний/нижний предел (Winsorization) 52:55 3. Импутация 57:01 4. Преобразование данных 59:40 Заключение Что вы узнаете: Что такое выбросы в науке о данных? Почему необходимо обрабатывать выбросы? Когда выбросы важны? Как обнаружить выбросы (Z-счёт, межквартильный размах (IQR), ящичная диаграмма (box plot), гистограмма, диаграмма рассеяния) Как обрабатывать или удалять выбросы? (Удаление выбросов, ограничение/полное ограничение, винсоризация, импутация, преобразование данных) Обнаружение и обработка выбросов в Python (с Pandas и NumPy) Пример реального проекта МО: до и после обработки выбросов Использованные инструменты и библиотеки: Python Pandas NumPy Matplotlib Seaborn Что такое выбросы? Значения, далёкие от большинства других значений. Например, в наборе данных о зарплатах сотрудников зарплата генерального директора, скорее всего, будет выбросом, но это допустимый и важный элемент данных. Почему необходимо обрабатывать выбросы? Искажение статистических показателей Влияние на модели машинного обучения Ошибочные выводы и решения Когда выбросы важны? Обнаружение аномалий - Например, в медицинских данных выброс может указывать на редкое заболевание или уникальный ответ на лечение. Обнаружение мошенничества Обнаружение сетевых вторжений Как выявлять выбросы? 1. Графические методы Диаграмма размаха (ящик с усами) Гистограмма Диаграмма рассеяния (двумерные выбросы) 2. Статистические методы Z-критерий (нормально распределенные данные) Межквартильный размах (межквартильный размах) - Перекошенные данные 3. Методы машинного обучения Лес изоляции, DBSCAN или алгоритмы кластеризации Как обрабатывать выбросы? 1. Удалить выбросы Если они вызваны ошибками ввода данных или нерелевантными записями. – Использовать условия фильтрации. 2. Верхний предел/нижний предел (Winsorization) – Заменить экстремальные значения ближайшим пороговым значением. 3. Импутация – Заменить средним значением, медианой или прогнозом на основе модели. 4. Преобразование данных – логарифмическое преобразование – log(x) – преобразование квадратного корня – sqrt(x) – обратное преобразование – (1/x) – степенное преобразование – преобразование Бокса-Кокса Python Data Science Видео:    • Exploratory Data Analysis (EDA) with Pytho...      • Data Cleaning with Python & Pandas | Compl...      • Python Virtual Environment: How to Create,...      • How to Install Python (3.13.0) on Windows ...   Плейлист:    • Data Science      • Python Tutorial for Beginners      • Image Processing   #python #выбросы #наукаоданных #машинноеобучение #mlprojects #eda #dataprocessing #datapreprocessing

Смотрите также