Forwarded from Machinelearning
Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.
Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.
GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.
Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.
Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.
@ai_machinelearning_big_data
#AI #ML #GPTOSS #GGUF #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
📈 Сэм Альтман ответил на критику запуска GPT-5: OpenAI удваивает лимиты для подписчиков Plus
Всего через несколько дней после запуска GPT-5 OpenAI уже анонсирует изменения для пользователей. Сэм Альтман в AMA-сессии на Reddit подтвердил, что лимиты запросов к GPT-5 Thinking на подписке Plus будут увеличены в два раза — с текущих 200 до 400. Это ответ на критику пользователей, которые отмечали, что квоты для новой модели оказались заметно ниже, чем для предыдущих версий.
При этом OpenAI также рассматривает возможность вернуть доступ к GPT-4o для подписчиков Plus — видимо, чтобы дать пользователям больше гибкости в выборе модели. Параллельно команда дорабатывает автоматический режим GPT-5, где ИИ сам решает, использовать глубокие рассуждения или давать быстрый ответ.
🔗 Ссылка - *клик*
Всего через несколько дней после запуска GPT-5 OpenAI уже анонсирует изменения для пользователей. Сэм Альтман в AMA-сессии на Reddit подтвердил, что лимиты запросов к GPT-5 Thinking на подписке Plus будут увеличены в два раза — с текущих 200 до 400. Это ответ на критику пользователей, которые отмечали, что квоты для новой модели оказались заметно ниже, чем для предыдущих версий.
При этом OpenAI также рассматривает возможность вернуть доступ к GPT-4o для подписчиков Plus — видимо, чтобы дать пользователям больше гибкости в выборе модели. Параллельно команда дорабатывает автоматический режим GPT-5, где ИИ сам решает, использовать глубокие рассуждения или давать быстрый ответ.
🔗 Ссылка - *клик*
❤2👍1
🧠 Как снизить самоуверенность LLM-«судей»
Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.
Что проверили:
- 14 моделей, задача — сравнить два ответа и выбрать лучший.
- Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B
Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.
Новое решение:
- TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
- LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.
Результаты:
- Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
- Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%
Вывод:
- Высокоуверенные решения можно брать автоматически
- Низкоуверенные — отправлять на пересмотр
- Для стабильных итогов — использовать fuser
📌 Подробнее
Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.
Что проверили:
- 14 моделей, задача — сравнить два ответа и выбрать лучший.
- Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B
Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.
Новое решение:
- TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
- LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.
Результаты:
- Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
- Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%
Вывод:
- Высокоуверенные решения можно брать автоматически
- Низкоуверенные — отправлять на пересмотр
- Для стабильных итогов — использовать fuser
📌 Подробнее
❤2👍2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.
Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.
Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.
Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.
Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.
В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.
В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.
Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.
Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.
Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.
Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.
Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.
Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.
Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").
Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM