Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Notux лидирует на Hugging Face с MoE файнтюном на базе Mixtral 8x7B

Модель argilla/notux-8x7b-v1 возглавляет рейтинг MoE (Mixture of Experts) на доске лидеров Hugging Face Open LLM.
Улучшенная версия mistralai/Mixtral-8x7B-Instruct-v0.1 благодаря методу Direct Preference Optimization (DPO).
Дообучали на новейшем очищенном наборе данных argilla/ultrafeedback-binarized-preferences-cleaned на базе виртуалки с восемью GPU H100 80GB на платформе runpod.io за 10 часов.

Файнтюн за 10 часов... Микстраль вышла когда? месяц назад? Норм эволюция.

#Notux #HuggingFace #MoE
Forwarded from Machinelearning
⚡️ Molmo: семейство state-of-art MMLM.

Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:

🟢ответы на вопросы;
🟢обнаружение и сегментация по текстовому запросу;
🟢подсчет объектов или элементов;
🟢использование в сфере робототехники для изображений или видео;
🟢расширение возможностей VR.

▶️Molmo 72B - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o.

▶️Molmo 7B-D и Molmo 7B-O - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера.

▶️ MolmoE 1B - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V.

Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).

Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.

Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.

⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.


📌Лицензирование : Apache 2.0


🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo


@ai_machinelearning_big_data

#AI #ML #Molmo #MoE #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from Machinelearning
🌟 Branch-Train-MiX: метод получения MoE-модели

Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.

После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.


🟡 Страница проекта
🟡 Разбор метода


@ai_machinelearning_big_data

#MoE #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
31
Tencent выпускает самую мощную открытую MoE модель в мире

Hunyuan-Large устанавливает новый стандарт производительности языковых моделей с 389 млрд параметров.
Архитектура Mixture of Experts, контекстное окно в 256K токенов.
Система превосходит LLama3.1-405B на 2.6% в MMLU и на 3.6% в математических тестах.
Модель демонстрирует выдающиеся результаты в задачах на китайском языке, программировании и научных вычислениях.

HuggingFace
GitHub

Китайские модели умеют в оптимизацию, получается. При меньшем объеме показывают лучший результат. 😎

#Tencent #Hunyuan #MoE #Китай
-------
@tsingular
🔥4
Неделя открытого кода от Deepseek.

Deepseek запустил неделю open-source релизов и уже выкатил два интересных проекта — DeepEP и FlashMLA.

DeepEP: открытая библиотека для ускорения работы MoE-коммуникаций между экспертами, повышая скорость обмена между GPU ядрами в режиме все-со-всеми.

- Поддержка FP8 для быстрых dispatch/combine операций
- Оптимизация как для внутринодовой (NVLink), так и межнодовой (RDMA) коммуникации
- Специальные низколатентные ядра для inference decoding (~160-370μs на некоторых конфигурациях)
- Контроль использования SM-ресурсов GPU (можно выделить 24 SM на коммуникацию)

Бенчмарки: на H800+CX7 получают 153-158 GB/s внутри ноды (по NVLink) и 40-47 GB/s между нодами (по RDMA).

FlashMLA: эффективные ядра для MLA-декодирования

В релизе оптимизированный MLA-декодер для GPU Hopper:
- Поддержка BF16 и FP16
- Paged kvcache с размером блока 64
- До 3000 GB/s при memory-bound и 580 TFLOPS при compute-bound нагрузках на H800

Где пригодится?
1. Для обучения собственных MoE-моделей — как открытый фреймворк, который позволяет эффективно тренировать большие MoE

2. Для тюнинга инференса — если у вас есть Hopper GPU, можно существенно ускорить декодирование моделей с MLA

3. Для понимания архитектуры DeepSeek-моделей — код показывает, как на самом деле устроены модели Deepseek V3

И это только начало их #OpenSourceWeek — ждем еще релизов, особенно полезно будет если они продолжат раскрывать архитектуру своих моделей.

Но как тут сказали товарищи на одном из вебинаров недавно, - будет грустно, если они выложат всё в оупенсорс, а у нас некому будет понять что там написано и даже воспроизвести.

#MoE #MLA #DeepSeek #OpenSourceWeek
———
@tsingular
🔥111
Tencent выпустил рассуждающую малую модель Hunyuan-A13B

Tencent представил открытую языковую модель Hunyuan-A13B на основе архитектуры Mixture-of-Experts.

Модель имеет 80 млрд параметров, но активно использует только 13 млрд.

Доступны версии FP8 и INT4. Поддерживается TensorRT-LLM, vLLM и SGLang.

Можно рассмотреть как альтернативу Qwen-3. Чуть лучше по некоторым метрикам.

UPD: а вот они следом выпустили нарезку GPTQ-Int4 на 42 гига.

#MoE #Hunyuan #TencentAI
———
@tsingular
33
Большое сравнение архитектур LLM 2025

Себастьян Рашка провел детальный анализ архитектур современных языковых моделей. Оказывается, за семь лет с момента создания GPT кардинальных изменений не произошло.

Главные тренды 2025: DeepSeek-V3 использует Multi-Head Latent Attention вместо популярного Grouped-Query Attention - это дает лучшую производительность при снижении использования памяти на 70%. Mixture-of-Experts стала мейнстримом - из 671 млрд параметров DeepSeek активны только 37 млрд.

Gemma 3 делает ставку на sliding window attention, OLMo 2 экспериментирует с размещением нормализации, а SmolLM3 вообще отказывается от позиционных кодировок.

Интересно, что Kimi 2 с триллионом параметров использует ту же архитектуру DeepSeek, только больше экспертов.

Интересная коллекция разборов разных типов моделей.
Пригодится для понимания в целом как они работают.

#LLM #обучений #MoE
------
@tsingular
👍721
Qwen выпустил облегченную версию 235B модели без "размышлений"

Alibaba представила обновленную версию Qwen3-235B-A22B-Instruct-2507 — это режим "без размышлений", который больше не генерирует блоки think в ответах.

Модель использует архитектуру Mixture of Experts с 235B параметрами и активирует только 22B на токен. Это дает производительность больших моделей при затратах всего 10% вычислений.

Поддерживает 119 языков и показывает сильные результаты в программировании и математике. В некоторых бенчмарках обгоняет GPT-4.1, в других уступает.

Для работы с памятью рекомендуют сократить контекст до 32,768 токенов при проблемах с OOM. Поддерживается в популярных фреймворках включая transformers, vLLM и Ollama.

Обошли Кими К2, DeepSeek V3 и Claude Opus 4!!

Полный размер - 472 Гига.

Онлайн адрес не изменился, - https://chat.qwen.ai/

#Qwen #MoE #Китай
------
@tsingular
21👀1