Machine learning Interview

This media is not supported in your browser

⚡️ QVQ-72B-Preview: VLM с ризонингом от Qwen.

QVQ-72B-Preview - экспериментальная VLM на основе Qwen2-VL-72B , разработанная Qwen, со способностями к аналитическому мышлению и новым уровнем когнитивных навыков.

Проведенная в Qwen оценка QVQ-72B-Preview на бенчмарках MMMU, MathVista, MathVision и OlympiadBench показала результат 70.3 на MMMU, 71.4 на MathVista, 35.9 в MathVision и 20.4 на наборе OlympiadBench, подчеркнув ее способность к комплексному пониманию и рассуждению в мультидисциплинарных задачах.

⚠️ Несмотря на высокие результаты, QVQ-72B-Preview - предварительная версия модели, которая имеет ограничения:

🟠возможность смешения языков и переключения между ними;
🟠склонность к зацикливанию в логических рассуждениях;
🟠постепенная потеря концентрации на визуальном контенте при многоступенчатом рассуждении, что может приводить к галлюцинациям.

Неофициальные квантованные версии QVQ-72B-Preview в формате GGUF с диапазоном разрядностей от 1-bit (23.7GB) до 8-bit (77.26GB) и MLX-версии от mlx community в разрядностях от 4-bit до 16-bit.

📌Лицензирование: Qwen License.

🟡

Статья

🟡

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #Qwen #Reasoning

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍2🔥2🥰1

6.57K views12:31

Machine learning Interview

⚡️ OpenPipe Deductive Reasoning Qwen 32B GGUF

Адаптация Qwen-32B, оптимизированная под рассуждения в GGUF формат.

Превосходит Claude 3.7 Sonnet в задачах дедуктивного мышления!

Превосходит DeepSeek R1, o1 и o3-mini в решении головоломок «Temporal Clue» при 100-кратном снижении стоимости умозаключений.

▪ Дедуктивное рассуждение: Модель дообучена для выполнения задач, где требуется логический анализ и последовательное обоснование, что полезно для создания интеллектуальных систем и сложного анализа данных.
▪ Формат GGUF: Конвертация в GGUF обеспечивает более эффективное использование ресурсов, ускоряет загрузку модели и облегчает её интеграцию в разнообразные приложения.
▪ Практическое применение: Этот инструмент интересен разработчикам и исследователям ИИ, стремящимся улучшить дедуктивные способности систем, а также тем, кто ищет способы оптимизации работы с большими языковыми моделями в реальных проектах.

▪HF: https://huggingface.co/bartowski/OpenPipe_Deductive-Reasoning-Qwen-32B-GGUF
▪Dataset: https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8
▪LM Studio: https://lmstudio.ai/

#qwen #reasoning #GGUF

❤5🔥3

4.45K views16:11

Machine learning Interview

🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B!

Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .

📦 Что внутри:

- LLaMA 405B, радикально преобразованная с помощью NAS pruning

- Пост-тренинг с фокусом на reasoning: SFT + RL

- Вычисления в FP8 для производительности без потери качества

- Open weights + открытые данные

🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.

🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace

@machinelearning_interview - подписаться

👍9❤3🔥1🤣1

6.97K views13:53

Machine learning Interview

🕹️ Новый мощный бенчмарк для ИИ — **HeroBench** 👏

Он проверяет, умеют ли LLM планировать длинные цепочки действий в реалистичном RPG-мире: выбрать снаряжение, собрать ресурсы, скрафтить предметы и победить монстра.

⚔️ Особенность: всё завязано на урон, резисты и здоровье, поэтому модели должны рассуждать о компромиссах, а не просто угадывать шаги.
🤖 Модели пишут Python-код со стратегией, симулятор исполняет его и оценивает прогресс.

🔑 Итоги:
- Grok-4 лидирует на сложных заданиях
- За ним GPT-5 и Gemini 2.5 Pro
- GPT-4.1 остаётся сильнейшей «обычной» моделью без спец. reasoning-режимов
- Ошибки чаще всего связаны с неверным выбором экипировки или кривым исполнением

📄 Paper: arxiv.org/abs/2508.12782

#AI #LLM #benchmark #gaming #reasoning

❤14👍7🔥6

4.66K views09:20

About

Blog

Apps

Platform