Forwarded from Машинное обучение digest
🚀 Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 — ловите еще один апдейт от Qwen: LLM с поддержкой 256K контекста
🧠 Qwen3-4B-Instruct — идеально подойдёт для:
• генерации текстов
• многоязычных задач
• сложных промптов
🧠 Qwen3-4B-Thinking — заточен под:
• логику
• математику
• программирование и технический анализ
⚡ Обе модели стали:
• точнее
• логичнее
• лучше справляются с длинными диалогами
🔗 Модели на Hugging Face:
https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507
🔗 Модели на ModelScope:
https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507
@ai_machinelearning_big_data
#AI #ML #qwen #opensource
🧠 Qwen3-4B-Instruct — идеально подойдёт для:
• генерации текстов
• многоязычных задач
• сложных промптов
🧠 Qwen3-4B-Thinking — заточен под:
• логику
• математику
• программирование и технический анализ
⚡ Обе модели стали:
• точнее
• логичнее
• лучше справляются с длинными диалогами
🔗 Модели на Hugging Face:
https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507
🔗 Модели на ModelScope:
https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507
@ai_machinelearning_big_data
#AI #ML #qwen #opensource
❤1👍1
Forwarded from Machinelearning
Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.
Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.
GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.
Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.
Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.
@ai_machinelearning_big_data
#AI #ML #GPTOSS #GGUF #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
📈 Сэм Альтман ответил на критику запуска GPT-5: OpenAI удваивает лимиты для подписчиков Plus
Всего через несколько дней после запуска GPT-5 OpenAI уже анонсирует изменения для пользователей. Сэм Альтман в AMA-сессии на Reddit подтвердил, что лимиты запросов к GPT-5 Thinking на подписке Plus будут увеличены в два раза — с текущих 200 до 400. Это ответ на критику пользователей, которые отмечали, что квоты для новой модели оказались заметно ниже, чем для предыдущих версий.
При этом OpenAI также рассматривает возможность вернуть доступ к GPT-4o для подписчиков Plus — видимо, чтобы дать пользователям больше гибкости в выборе модели. Параллельно команда дорабатывает автоматический режим GPT-5, где ИИ сам решает, использовать глубокие рассуждения или давать быстрый ответ.
🔗 Ссылка - *клик*
Всего через несколько дней после запуска GPT-5 OpenAI уже анонсирует изменения для пользователей. Сэм Альтман в AMA-сессии на Reddit подтвердил, что лимиты запросов к GPT-5 Thinking на подписке Plus будут увеличены в два раза — с текущих 200 до 400. Это ответ на критику пользователей, которые отмечали, что квоты для новой модели оказались заметно ниже, чем для предыдущих версий.
При этом OpenAI также рассматривает возможность вернуть доступ к GPT-4o для подписчиков Plus — видимо, чтобы дать пользователям больше гибкости в выборе модели. Параллельно команда дорабатывает автоматический режим GPT-5, где ИИ сам решает, использовать глубокие рассуждения или давать быстрый ответ.
🔗 Ссылка - *клик*
❤2👍1
🧠 Как снизить самоуверенность LLM-«судей»
Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.
Что проверили:
- 14 моделей, задача — сравнить два ответа и выбрать лучший.
- Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B
Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.
Новое решение:
- TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
- LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.
Результаты:
- Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
- Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%
Вывод:
- Высокоуверенные решения можно брать автоматически
- Низкоуверенные — отправлять на пересмотр
- Для стабильных итогов — использовать fuser
📌 Подробнее
Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.
Что проверили:
- 14 моделей, задача — сравнить два ответа и выбрать лучший.
- Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B
Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.
Новое решение:
- TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
- LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.
Результаты:
- Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
- Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%
Вывод:
- Высокоуверенные решения можно брать автоматически
- Низкоуверенные — отправлять на пересмотр
- Для стабильных итогов — использовать fuser
📌 Подробнее
❤1👍1