Как LLM выживают в условиях низкой точности | Основы квантования

В этом видео мы обсуждаем основы квантования моделей — метода, который позволяет нам проводить вывод на массивных LLM, таких как DeepSeek-R1 или Qwen. Среди прочего, мы обсудим: ⚆ Что на самом деле означает квантование (подсказка: это больше, чем просто округление) ⚆ Почему целые числа быстрее чисел с плавающей точкой (с подробным разбором их внутренней структуры) ⚆ Как квантование сохраняет точность модели ⚆ Когда проводить квантование: во время обучения или после (PTQ или QAT) ⚆ Практическое объяснение масштаба, нулевой точки, диапазонов отсечения и арифметики с фиксированной точкой Если вам понравилось, подпишитесь на следующие видео о: ⚆ Квантование после обучения (PTQ) ⚆ Обучение с учётом квантования (QAT) ⚆ Обучение с низкой точностью (например, FP4) ⚆ 1-битные LLM #Квантование #МашинноеОбучение #ОптимизацияИИ #LLM #НейронныеСети #QAT #PTQ #ГлубокоеОбучение #EdgeAI #ФиксированнаяТочка #BFloat16 #TensorRT #ONNX #AIAccelerators 00:00 Вступление 00:50 Что 02:10: Почему 03:50: Целочисленные и плавающие форматы 06:45 Когда 09:21 Как 14:40 Арифметика с фиксированной точкой 18:00 Умножение матриц 20:07 Заключение

Смотрите также