Сайт использует сервис веб-аналитики Яндекс Метрика с помощью технологии «cookie». Пользуясь сайтом, вы даете согласие на использование данной технологии.
Магистр права (LLM) по оперативной инженерии со случайной выборкой: температура, Top-k, Top-p
В этом видео мы рассмотрим, как методы температуры, top-k и top-p влияют на генерацию текста в больших языковых моделях (LLM). Ссылки ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ Почему мы не используем среднеквадратичную погрешность (MSE) при классификации: • Why We Don't Use the Mean Squared Error (M... Похожие видео ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ Почему языковые модели галлюцинируют: • Why LLMs Hallucinate Обоснование DINO, обнаружение объектов открытого множества: • Object Detection Part 8: Grounding DINO, O... Трансформаторы обнаружения (DETR), объектные запросы: • Object Detection Part 7: Detection Transfo... Wav2vec2: фреймворк для самостоятельного обучения репрезентациям речи — объяснение статьи: • Wav2vec2 A Framework for Self-Supervised L... Объяснение механизма собственного внимания с помощью трансформера: • Transformer Self-Attention Mechanism Visua... Как точно настроить большие языковые модели, такие как ChatGPT, с помощью низкоранговой адаптации (LoRA): • Low-Rank Adaptation (LoRA) Explained Объяснение многозадачного внимания (MHA), многозапросного внимания (MQA), группового внимания с запросами (GQA): • Multi-Head Attention (MHA), Multi-Query At... Содержание ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ 00:00 — Вступление 00:37 — Жадное декодирование 01:05 — Случайная выборка 01:50 — Температура 03:55 — Выборка Top-k 04:27 — Выборка Top-p 05:10 — Плюсы и минусы 07:30 — Заключение Подписаться Я ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ 🐦 Twitter: @datamlistic / datamlistic 📸 Instagram: @datamlistic / datamlistic 📱 TikTok: @datamlistic / datamlistic Поддержка канала ▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬ Лучший способ поддержать канал — поделиться контентом. ;) Если вы хотите поддержать канал финансово, мы всегда будем рады пожертвованию в размере стоимости чашки кофе! (полностью добровольное и необязательное) ► Patreon: / datamlistic ► Bitcoin (BTC): 3C6Pkzyb5CjAUYrJxmpCaaNPVRgRVxxyTq ► Ethereum (ETH): 0x9Ac4eB94386C3e02b96599C05B7a8C71773c9281 ► Cardano (ADA): addr1v95rfxlslfzkvd8sr3exkh7st4qmgj4ywf5zcaxgqgdyunsj5juw5 ► Tether (USDT): 0xeC261d9b2EE4B6997a6a424067af165BAA4afE1a #llm #largelanguagemodels #chatgpt #textgeneration #promptengineering