Что будет на вебинаре? Разберём, как устроен процесс инференса больших языковых моделей (LLM) на практике. Проследим путь от классической библиотеки Hugging Face Transformers до современных фреймворков оптимизированного инференса, включая vLLM. Сравним ключевые подходы: где возникают узкие места, как менялась архитектура инференса, какие методы оптимизации стали стандартом. Покажем на живых примерах, как одни и те же модели работают в разных фреймворках, и какие результаты это даёт в плане скорости, памяти и стоимости вычислений. Что узнают участники? Как развивается экосистема инструментов для инференса LLM. Какие технические ограничения у классических решений и как они преодолеваются новыми библиотеками. Что даёт переход на vLLM в реальных проектах (черезput, latency, экономия GPU-памяти). Как выбрать правильный инструмент для своего кейса: быстрый прототип, продакшн-нагрузка или R&D. Для кого будет полезен вебинар? Практикующим DS-специалистам, которые хотят глубже понимать современные подходы к работе с LLM и внедрять их в продакшн. ИТ-специалистам и инженерам, которые работают с текстовыми данными и ищут практические способы ускорить инференс моделей. Вебинар проходит в рамках старта курса «NLP. Advanced». «NLP. Advanced» -
Преподаватель: Андрей Носов - ведущий AI Архитектор, Рафт Пройдите опрос по итогам мероприятия -
Следите за новостями проекта: → VK:
https://vk.com/otusru → Telegram:
→ Хабр: