Магистр права (LLM) по оперативной инженерии со случайной выборкой: температура, Top-k, Top-p

В этом видео мы рассмотрим, как методы температуры, top-k и top-p влияют на генерацию текста в больших языковых моделях (LLM). Ссылки ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ Почему мы не используем среднеквадратичную погрешность (MSE) при классификации:    • Why We Don't Use the Mean Squared Error (M...   Похожие видео ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ Почему языковые модели галлюцинируют:    • Why LLMs Hallucinate   Обоснование DINO, обнаружение объектов открытого множества:    • Object Detection Part 8: Grounding DINO, O...   Трансформаторы обнаружения (DETR), объектные запросы:    • Object Detection Part 7: Detection Transfo...   Wav2vec2: фреймворк для самостоятельного обучения репрезентациям речи — объяснение статьи:    • Wav2vec2 A Framework for Self-Supervised L...   Объяснение механизма собственного внимания с помощью трансформера:    • Transformer Self-Attention Mechanism Visua...   Как точно настроить большие языковые модели, такие как ChatGPT, с помощью низкоранговой адаптации (LoRA):    • Low-Rank Adaptation (LoRA) Explained   Объяснение многозадачного внимания (MHA), многозапросного внимания (MQA), группового внимания с запросами (GQA):    • Multi-Head Attention (MHA), Multi-Query At...   Содержание ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ 00:00 — Вступление 00:37 — Жадное декодирование 01:05 — Случайная выборка 01:50 — Температура 03:55 — Выборка Top-k 04:27 — Выборка Top-p 05:10 — Плюсы и минусы 07:30 — Заключение Подписаться Я ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ 🐦 Twitter: @datamlistic   / datamlistic   📸 Instagram: @datamlistic   / datamlistic   📱 TikTok: @datamlistic   / datamlistic   Поддержка канала ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ Лучший способ поддержать канал — поделиться контентом. ;) Если вы хотите поддержать канал финансово, мы всегда будем рады пожертвованию в размере стоимости чашки кофе! (полностью добровольное и необязательное) ► Patreon:   / datamlistic   ► Bitcoin (BTC): 3C6Pkzyb5CjAUYrJxmpCaaNPVRgRVxxyTq ► Ethereum (ETH): 0x9Ac4eB94386C3e02b96599C05B7a8C71773c9281 ► Cardano (ADA): addr1v95rfxlslfzkvd8sr3exkh7st4qmgj4ywf5zcaxgqgdyunsj5juw5 ► Tether (USDT): 0xeC261d9b2EE4B6997a6a424067af165BAA4afE1a #llm #largelanguagemodels #chatgpt #textgeneration #promptengineering

Смотрите также