Generative AI

⚡️

GGUF-версии GPT-OSS от Unsloth.

Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.

🟡

Оптимальный сетап:

🟢20B работает со скоростью более 10 токенов/с при полной точности на 14 ГБ оперативной памяти.

🟢120B с полной точностью будет давать >40 токенов/с на примерно 64 ГБ ОЗУ.

Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.

GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.

Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.

Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.

📌 Подробная пошаговая инструкция по локальному запуску и файнтюну - в документации Unsloth.

🟡

Набор моделей

🟡

Документация

@ai_machinelearning_big_data

#AI #ML #GPTOSS #GGUF #Unsloth

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

270 views11:40

Generative AI

📈 Сэм Альтман ответил на критику запуска GPT-5: OpenAI удваивает лимиты для подписчиков Plus

Всего через несколько дней после запуска GPT-5 OpenAI уже анонсирует изменения для пользователей. Сэм Альтман в AMA-сессии на Reddit подтвердил, что лимиты запросов к GPT-5 Thinking на подписке Plus будут увеличены в два раза — с текущих 200 до 400. Это ответ на критику пользователей, которые отмечали, что квоты для новой модели оказались заметно ниже, чем для предыдущих версий.

При этом OpenAI также рассматривает возможность вернуть доступ к GPT-4o для подписчиков Plus — видимо, чтобы дать пользователям больше гибкости в выборе модели. Параллельно команда дорабатывает автоматический режим GPT-5, где ИИ сам решает, использовать глубокие рассуждения или давать быстрый ответ.

🔗 Ссылка - *клик*

❤2👍1

276 viewsedited 13:39

Generative AI

🧠 Как снизить самоуверенность LLM-«судей»

Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.

Что проверили:
- 14 моделей, задача — сравнить два ответа и выбрать лучший.
- Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B

Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.

Новое решение:
- TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
- LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.

Результаты:
- Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
- Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%

Вывод:
- Высокоуверенные решения можно брать автоматически
- Низкоуверенные — отправлять на пересмотр
- Для стабильных итогов — использовать fuser

📌 Подробнее

❤2👍2

181 views13:15

Generative AI

Forwarded from Machinelearning