Notux лидирует на Hugging Face с MoE файнтюном на базе Mixtral 8x7B
Модель argilla/notux-8x7b-v1 возглавляет рейтинг MoE (Mixture of Experts) на доске лидеров Hugging Face Open LLM.
Улучшенная версия mistralai/Mixtral-8x7B-Instruct-v0.1 благодаря методу Direct Preference Optimization (DPO).
Дообучали на новейшем очищенном наборе данных argilla/ultrafeedback-binarized-preferences-cleaned на базе виртуалки с восемью GPU H100 80GB на платформе runpod.io за 10 часов.
Файнтюн за 10 часов... Микстраль вышла когда? месяц назад? Норм эволюция.
#Notux #HuggingFace #MoE
Модель argilla/notux-8x7b-v1 возглавляет рейтинг MoE (Mixture of Experts) на доске лидеров Hugging Face Open LLM.
Улучшенная версия mistralai/Mixtral-8x7B-Instruct-v0.1 благодаря методу Direct Preference Optimization (DPO).
Дообучали на новейшем очищенном наборе данных argilla/ultrafeedback-binarized-preferences-cleaned на базе виртуалки с восемью GPU H100 80GB на платформе runpod.io за 10 часов.
Файнтюн за 10 часов... Микстраль вышла когда? месяц назад? Норм эволюция.
#Notux #HuggingFace #MoE
Forwarded from Machinelearning
Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:
Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).
Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.
Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.
⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.
@ai_machinelearning_big_data
#AI #ML #Molmo #MoE #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from Machinelearning
Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.
После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.
@ai_machinelearning_big_data
#MoE #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3✍1
Tencent выпускает самую мощную открытую MoE модель в мире
Hunyuan-Large устанавливает новый стандарт производительности языковых моделей с 389 млрд параметров.
Архитектура Mixture of Experts, контекстное окно в 256K токенов.
Система превосходит LLama3.1-405B на 2.6% в MMLU и на 3.6% в математических тестах.
Модель демонстрирует выдающиеся результаты в задачах на китайском языке, программировании и научных вычислениях.
HuggingFace
GitHub
Китайские модели умеют в оптимизацию, получается. При меньшем объеме показывают лучший результат. 😎
#Tencent #Hunyuan #MoE #Китай
-------
@tsingular
Hunyuan-Large устанавливает новый стандарт производительности языковых моделей с 389 млрд параметров.
Архитектура Mixture of Experts, контекстное окно в 256K токенов.
Система превосходит LLama3.1-405B на 2.6% в MMLU и на 3.6% в математических тестах.
Модель демонстрирует выдающиеся результаты в задачах на китайском языке, программировании и научных вычислениях.
HuggingFace
GitHub
Китайские модели умеют в оптимизацию, получается. При меньшем объеме показывают лучший результат. 😎
#Tencent #Hunyuan #MoE #Китай
-------
@tsingular
🔥4
Неделя открытого кода от Deepseek.
Deepseek запустил неделю open-source релизов и уже выкатил два интересных проекта — DeepEP и FlashMLA.
DeepEP: открытая библиотека для ускорения работы MoE-коммуникаций между экспертами, повышая скорость обмена между GPU ядрами в режиме все-со-всеми.
- Поддержка FP8 для быстрых dispatch/combine операций
- Оптимизация как для внутринодовой (NVLink), так и межнодовой (RDMA) коммуникации
- Специальные низколатентные ядра для inference decoding (~160-370μs на некоторых конфигурациях)
- Контроль использования SM-ресурсов GPU (можно выделить 24 SM на коммуникацию)
Бенчмарки: на H800+CX7 получают 153-158 GB/s внутри ноды (по NVLink) и 40-47 GB/s между нодами (по RDMA).
FlashMLA: эффективные ядра для MLA-декодирования
В релизе оптимизированный MLA-декодер для GPU Hopper:
- Поддержка BF16 и FP16
- Paged kvcache с размером блока 64
- До 3000 GB/s при memory-bound и 580 TFLOPS при compute-bound нагрузках на H800
Где пригодится?
1. Для обучения собственных MoE-моделей — как открытый фреймворк, который позволяет эффективно тренировать большие MoE
2. Для тюнинга инференса — если у вас есть Hopper GPU, можно существенно ускорить декодирование моделей с MLA
3. Для понимания архитектуры DeepSeek-моделей — код показывает, как на самом деле устроены модели Deepseek V3
И это только начало их #OpenSourceWeek — ждем еще релизов, особенно полезно будет если они продолжат раскрывать архитектуру своих моделей.
Но как тут сказали товарищи на одном из вебинаров недавно, - будет грустно, если они выложат всё в оупенсорс, а у нас некому будет понять что там написано и даже воспроизвести.
#MoE #MLA #DeepSeek #OpenSourceWeek
———
@tsingular
Deepseek запустил неделю open-source релизов и уже выкатил два интересных проекта — DeepEP и FlashMLA.
DeepEP: открытая библиотека для ускорения работы MoE-коммуникаций между экспертами, повышая скорость обмена между GPU ядрами в режиме все-со-всеми.
- Поддержка FP8 для быстрых dispatch/combine операций
- Оптимизация как для внутринодовой (NVLink), так и межнодовой (RDMA) коммуникации
- Специальные низколатентные ядра для inference decoding (~160-370μs на некоторых конфигурациях)
- Контроль использования SM-ресурсов GPU (можно выделить 24 SM на коммуникацию)
Бенчмарки: на H800+CX7 получают 153-158 GB/s внутри ноды (по NVLink) и 40-47 GB/s между нодами (по RDMA).
FlashMLA: эффективные ядра для MLA-декодирования
В релизе оптимизированный MLA-декодер для GPU Hopper:
- Поддержка BF16 и FP16
- Paged kvcache с размером блока 64
- До 3000 GB/s при memory-bound и 580 TFLOPS при compute-bound нагрузках на H800
Где пригодится?
1. Для обучения собственных MoE-моделей — как открытый фреймворк, который позволяет эффективно тренировать большие MoE
2. Для тюнинга инференса — если у вас есть Hopper GPU, можно существенно ускорить декодирование моделей с MLA
3. Для понимания архитектуры DeepSeek-моделей — код показывает, как на самом деле устроены модели Deepseek V3
И это только начало их #OpenSourceWeek — ждем еще релизов, особенно полезно будет если они продолжат раскрывать архитектуру своих моделей.
Но как тут сказали товарищи на одном из вебинаров недавно, - будет грустно, если они выложат всё в оупенсорс, а у нас некому будет понять что там написано и даже воспроизвести.
#MoE #MLA #DeepSeek #OpenSourceWeek
———
@tsingular
🔥11❤1
Tencent выпустил рассуждающую малую модель Hunyuan-A13B
Tencent представил открытую языковую модель Hunyuan-A13B на основе архитектуры Mixture-of-Experts.
Модель имеет 80 млрд параметров, но активно использует только 13 млрд.
Доступны версии FP8 и INT4. Поддерживается TensorRT-LLM, vLLM и SGLang.
Можно рассмотреть как альтернативу Qwen-3. Чуть лучше по некоторым метрикам.
UPD: а вот они следом выпустили нарезку GPTQ-Int4 на 42 гига.
#MoE #Hunyuan #TencentAI
———
@tsingular
Tencent представил открытую языковую модель Hunyuan-A13B на основе архитектуры Mixture-of-Experts.
Модель имеет 80 млрд параметров, но активно использует только 13 млрд.
Доступны версии FP8 и INT4. Поддерживается TensorRT-LLM, vLLM и SGLang.
Можно рассмотреть как альтернативу Qwen-3. Чуть лучше по некоторым метрикам.
UPD: а вот они следом выпустили нарезку GPTQ-Int4 на 42 гига.
#MoE #Hunyuan #TencentAI
———
@tsingular
✍3⚡3
Большое сравнение архитектур LLM 2025
Себастьян Рашка провел детальный анализ архитектур современных языковых моделей. Оказывается, за семь лет с момента создания GPT кардинальных изменений не произошло.
Главные тренды 2025: DeepSeek-V3 использует Multi-Head Latent Attention вместо популярного Grouped-Query Attention - это дает лучшую производительность при снижении использования памяти на 70%. Mixture-of-Experts стала мейнстримом - из 671 млрд параметров DeepSeek активны только 37 млрд.
Gemma 3 делает ставку на sliding window attention, OLMo 2 экспериментирует с размещением нормализации, а SmolLM3 вообще отказывается от позиционных кодировок.
Интересно, что Kimi 2 с триллионом параметров использует ту же архитектуру DeepSeek, только больше экспертов.
Интересная коллекция разборов разных типов моделей.
Пригодится для понимания в целом как они работают.
#LLM #обучений #MoE
------
@tsingular
Себастьян Рашка провел детальный анализ архитектур современных языковых моделей. Оказывается, за семь лет с момента создания GPT кардинальных изменений не произошло.
Главные тренды 2025: DeepSeek-V3 использует Multi-Head Latent Attention вместо популярного Grouped-Query Attention - это дает лучшую производительность при снижении использования памяти на 70%. Mixture-of-Experts стала мейнстримом - из 671 млрд параметров DeepSeek активны только 37 млрд.
Gemma 3 делает ставку на sliding window attention, OLMo 2 экспериментирует с размещением нормализации, а SmolLM3 вообще отказывается от позиционных кодировок.
Интересно, что Kimi 2 с триллионом параметров использует ту же архитектуру DeepSeek, только больше экспертов.
Интересная коллекция разборов разных типов моделей.
Пригодится для понимания в целом как они работают.
#LLM #обучений #MoE
------
@tsingular
👍7✍2⚡1
Qwen выпустил облегченную версию 235B модели без "размышлений"
Alibaba представила обновленную версию Qwen3-235B-A22B-Instruct-2507 — это режим "без размышлений", который больше не генерирует блоки think в ответах.
Модель использует архитектуру Mixture of Experts с 235B параметрами и активирует только 22B на токен. Это дает производительность больших моделей при затратах всего 10% вычислений.
Поддерживает 119 языков и показывает сильные результаты в программировании и математике. В некоторых бенчмарках обгоняет GPT-4.1, в других уступает.
Для работы с памятью рекомендуют сократить контекст до 32,768 токенов при проблемах с OOM. Поддерживается в популярных фреймворках включая transformers, vLLM и Ollama.
Обошли Кими К2, DeepSeek V3 и Claude Opus 4!!
Полный размер - 472 Гига.
Онлайн адрес не изменился, - https://chat.qwen.ai/
#Qwen #MoE #Китай
------
@tsingular
Alibaba представила обновленную версию Qwen3-235B-A22B-Instruct-2507 — это режим "без размышлений", который больше не генерирует блоки think в ответах.
Модель использует архитектуру Mixture of Experts с 235B параметрами и активирует только 22B на токен. Это дает производительность больших моделей при затратах всего 10% вычислений.
Поддерживает 119 языков и показывает сильные результаты в программировании и математике. В некоторых бенчмарках обгоняет GPT-4.1, в других уступает.
Для работы с памятью рекомендуют сократить контекст до 32,768 токенов при проблемах с OOM. Поддерживается в популярных фреймворках включая transformers, vLLM и Ollama.
Обошли Кими К2, DeepSeek V3 и Claude Opus 4!!
Полный размер - 472 Гига.
Онлайн адрес не изменился, - https://chat.qwen.ai/
#Qwen #MoE #Китай
------
@tsingular
✍2⚡1👀1