Тестируем многопользовательский режим llama.cpp на CPU (i9-12900HK) с флагом -- parallel (часть 4)

Активист Иван Толстошеев специально для ilovedocs снял цикл видео о том, как установить и использовать локальные модели на личном или рабочем ноутбуке. Локальные модели нужны для обработки данных, которые вы не готовы предоставлять публичным моделям. Иван показывает, что они могут работать в домашних условиях и быть достаточно эффективными. Тестирую многопользовательский режим llama.cpp на CPU (i9-12900HK) с флагом -- parallel. Результаты теста Qwen 30B-A3B: -- один запрос ~10 токенов/с; четыре параллельных запроса дают ~4 токена/с на каждый -- суммарная пропускная способность при 4 запросах (~16 токенов/с) выше, чем у одного, благодаря встроенному (но не оптимальному) "батчингу" -- llama.cpp делит общий контекст на слоты (например, 64К → 4x16К), не лучший способ -- используем только llama.cpp и CPU. Вывод: Параллельный режим в llama.cpp - рабочий вариант для CPU-only - можно переключаться между несколькими документами. Но реализация неэффективна, и для систем с большим объемом VRAM лучше смотреть в сторону других движков. В следующий раз покажу свой стенд на двух GPU и сравню производительность с vLLM. Соцсети ilovedocs:

Канал Ивана:
В канале и чате - тысячи единомышленников, нейросетевой журнал, подборки промптов, онбординг-FAQ, трансляции, много общения и опыта. #ChatGPT #юристы

Смотрите также