Передбачаємо вашу ЗП в ІТ за допомогою машинного навчання

Мій курс з машинного навчання "Machine learning для людей":
Яку зарплату ви можете отримувати в IT? Давайте побудуємо модель машинного навчання, яка це передбачить. У цьому відео я покажу, як побудувати ML-модель на основі реальних даних зібраних DOU (Developers of Ukraine) — передбачимо зарплату українських айтівців за такими параметрами, як досвід, рівень англійської, позиція, тип компанії та інші. Покроково пройдемо шлях: від завантаження даних — до кластеризації назв позицій з LLM і побудови та оцінки якості моделі. 📌 Для кого буде корисно: — для тих, хто хоче практично розібратись, як працює машинне навчання — для аналітиків і початківців у Data Science — для айтівців, які хочуть погратись зі своїм «цифровим близнюком» — та подивитись, скільки їм "обіцяє" ML 😄 Це не просто урок — це практичний майстер-клас, в якому я детально пояснюю кожен крок, і завдяки якому ви глибше зрозумієте, як працює машинне навчання 💡 А ще ви абсолютно все зможете спробувати самостійно, адже код і дані я надаю. Google Colab з кодом:
Файли з даними:
🔔 Підписуйтесь, щоб не пропустити нові історії та практичні поради зі світу IT, Data Science і розвитку кар’єри! Мої соцмережі, де ще більше контенту про Data Science, Machine Learning і карʼєрний розвиток:   / hanna_pylieva     / hanna-pylieva  
Таймкоди: 00:00 - Вступ і про що це відео 00:15 - Що будемо передбачати та з чим працюємо 01:00 - Пояснення, як відкрити Google Colab 02:20 - Як завантажити дані з Google Drive 04:50 - Огляд структури датасету 06:40 - Перший аналіз: які змінні в нас є 08:10 - Перейменування колонок для зручності 09:20 - Побудова гістограми зарплат 11:40 - Цільова та незалежні змінні в ML 13:00 - Перевірка пропущених значень і типів змінних 15:30 - Аналіз категоріальних змінних та кількість унікальних значень 18:00 - Проблема з великою кількістю значень у колонці "позиція" 20:00 - Що таке one-hot encoding і навіщо оптимізувати кількість категорій 22:00 - Використання LLM для кластеризації назв позицій 24:30 - Як отримати OpenAI ембеддинги текстів 27:00 - Пояснення, як генерується API ключ OpenAI 29:00 - Підготовка до кластеризації позицій 31:00 - Що таке KMeans та як він працює 33:00 - Групування схожих позицій і перехід до скорочених категорій 34:40 - Як використовувати нові категорії в моделі 38:00 – Групування кластерів з однаковими назвами, збереження назв, уникнення дублювань 40:00 – Генерація назв кластерів через GPT, об’єднання даних, робота з дублікованими назвами 42:00 – Аналіз дубльованих назв кластерів, прийняття рішень щодо їх злиття або залишення 44:00 – Обробка інших категоріальних змінних (main language, specialization), заміна рідкісних значень на 'other' 46:00 – Завершення підготовки даних, мапінг нових назв позицій, підготовка до моделювання 48:00 – Побудова моделі Random Forest Regressor, пояснення регресійного дерева прийняття рішень 50:00 – Введення в pipeline у scikit-learn, визначення вхідних даних, категоріальні та числові фічі 52:00– OneHotEncoder у пайплайні, правильне розділення даних на тренувальні та тестові 54:00 – Пояснення призначення валідації, ground truth, ROI від вивчення англійської 56:00 – Початок тренування моделі, очікування результатів, введення метрики MAE 58:00 – Навчання нової моделі LightGBM 59:00 – Створення pipeline з новим регресором, тренування, порівняння з ground truth 1:00:00 – Менший overfit, приклад похибки 839$, інтерпретація результатів 1:01:00 – Ознаки, що найбільше впливають на передбачення, встановлення бібліотеки shap для аналізу 1:02:00 – Візуалізація важливості ознак, приклади змінних, що впливають на зарплату 1:03:00 – Пояснення графіків force plot, аналіз логіки прийняття рішень моделлю 1:06:00 – Пояснення принципу SHAP-графіків, що означає позитивний/негативний вплив 1:07:00 – Аналіз прикладу: як змінюється зарплата залежно від рівня англійської та позиції 1:08:00 – Інтерпретація значень feature importance, приклади впливу ознак 1:09:00 – Побудова summary plot з SHAP, як зчитувати загальну картину 1:12:00 – Тестування моделі на нових даних від користувача

Смотрите также