Gemini 3 (последние контрольные точки проверены): Я ПРОВЕРИЛ ВСЕ КОНТРОЛЬНЫЕ ТОЧКИ Gemini-3. Выхо...

В этом видео я расскажу о своих практических тестах контрольных точек Gemini 3 и о том, что недавнее включение Vertex AI в список может означать для запуска. Я расскажу о контрольных точках 2HT, ECPT и X28, где каждая из них хороша или слаба, об ожидаемых ценах, выборе инструментов и о том, как я планирую публичный предварительный бенчмарк, как только он появится. -- Ключевые выводы: 🔎 Vertex AI кратко указал «Gemini 3.0 Pro (preview)» в 11-2025, что говорит о скором запуске. 🧪 Обзор контрольных точек: 2HT была отличной, ECPT ощущалась ослабленной, а X28 была самой сильной на данный момент. 🧠 Сильная аргументация с медленным первым токеном на лучших контрольных точках намекает на «думающий» вариант. 🎯 Стабильность заметно выше, чем у многих конкурентов; Повторные запуски дают схожие, согласованные результаты. 🧩 Значительные успехи в одноразовом коде для 3D/Three.js, чистый пользовательский интерфейс, SVG/Blender; улучшены Minecraft и Pokéball; симуляция бабочки сильная, но иногда застревает. 🛠️ Вызов инструментов выглядит многообещающе в ранних тестах (Roo Human Relay), но требует надежной многошаговой цепочки; вероятно, обучено шаблонам Gemini CLI/Jules. 💸 Ожидания относительно цены: уровень Sonnet или ниже сделает его очевидным преимуществом; для Sonnet выше необходимы более высокая надежность вызова инструментов и пропускная способность для оправдания. ⚖️ Совет по бенчмаркингу: не судите по демоверсиям «WebOS»; перенесите математические вычисления, 3D и многофайловые потоки; протестируйте стабильность и задержку регенерации на первый токен. 🚢 Вероятное внедрение: сначала Pro-превью, Flash рядом с ним; Уровень «Ультра» неясен, но некоторые контрольные точки кажутся ультра-уровневыми. 📈 Я опубликую полные публичные предварительные тесты: экономику токенов, задержку, скорость выполнения вызовов инструментов и стабильность между сеансами.

Смотрите также