Data Science by ODS.ai 🦜

🌟 Branch-Train-MiX: метод получения MoE-модели

Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.

После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.

🟡

Страница проекта

🟡

Разбор метода

@ai_machinelearning_big_data

#MoE #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3🔥3

9.37K views13:00

Data Science by ODS.ai 🦜

🔥 NVIDIA silently release a Llama 3.1 70B fine-tune that outperforms
GPT-4o and Claude Sonnet 3.5

Llama 3.1 Nemotron 70B Instruct a further RLHFed model on
huggingface

🏆 85.0 on Arena Hard, 57.6 on AlpacaEval 2 LC, and 8.98 MT-Bench
🥇 Outperforms GPT-4o and Claude 3.5 Sonnet on these benchmarks
🍓 Can accurately answer "How many r's are in strawberry?"
🦙 Based on Llama-3.1-70B-Instruct and trained using RLHF (REINFORCE)
🧠 Released also Llama-3.1-Nemotron-70B-Reward #2 on RewardBench
🤗 Available on Hugging Face and NVIDIA

https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8

@opendatascience

🔥25👍7❤4😁3🍓1

10.9K viewsedited 14:02

Data Science by ODS.ai 🦜

Forwarded from CV Time

Minimalist Vision with Freeform Pixels

На ECCV-24 была секция, посвящённая низкоуровневому устройству систем компьютерного зрения. По настоящему low-level решение предложили в статье Minimalist Vision with Freeform Pixels, которая получила награду Best Paper Award. Авторы создали прототип полностью автономной по электропитанию камеры.

Вместо обычных матриц в камере используются 24 фотодиода. Перед каждым из них установлена маска-фильтр, которая выступает первым слоем нейросети. Оптическая передаточная функция маски зависит от задачи, под которую обучена камера.

По сути первый слой обеспечивает произвольную форму для каждого пикселя — против фиксированной квадратной у традиционных камер. А последующие слои выводят результат задачи. Так авторы демонстрируют возможность мониторинга рабочего пространства и оценки дорожного трафика при помощи всего лишь 8 пикселей из 24.

Кроме того, камера хорошо показала себя в задаче оценки освещённости помещения. Используя те же 8 пикселей, она сумела определить, какие из источников света были включены в каждый конкретный момент. При этом ни один из источников не был виден камере напрямую — она собирала информацию исходя из состояния помещения.

Помимо низкого энергопотребления, такой подход позволяет обеспечивать конфиденциальность людей в кадре, так как записываемой оптической информации недостаточно для восстановления деталей изображения. Прототип камеры оснащён микроконтроллером с Bluetooth. А с четырёх сторон расположены солнечные панели для получения электроэнергии.

Разбор подготовила ❣ Алиса Родионова
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍8

7.05K views11:06

Data Science by ODS.ai 🦜

⚡️

Яндекс открыл доступ к более мощному семейству моделей YandexGPT 4

Pro-версия и облегчённая Lite-версия поддерживают более сложные запросы, расширенный контекст, скрытые рассуждения и работу с внешними инструментами. Модели уже доступны через API в Yandex Cloud.

🤖 Pro-версия превосходит предыдущее поколение в 70% случаев, а Lite не уступает лучшей модели прошлого поколения.
🤖 В четыре раза увеличено количество токенов (до 32 тысяч), которое нейросеть может обрабатывать в промте.
🤖 Улучшенная работа с RAG-сценариями и снижение доли галлюцинаций.
🤖 Внедрены скрытые рассуждения (Chain-of-thoughts) для пошагового анализа проблем, выделения этапов и поиска решений.

https://habr.com/ru/companies/yandex/articles/852968/

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤11🤡9🔥3😁2

8.48K views12:30

Data Science by ODS.ai 🦜

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

💡

SAM2Long, a training-free enhancement to SAM 2 for long-term video segmentation

- Less error accumulation facing occlusion/reappearance.
- A training-free memory tree for dynamic segmentation paths, boosting resilience efficiently.
- Significant improvements over SAM2 across 24 head-to-head comparisons on SA-V and LVOS.

🟡

Technical Report: https://huggingface.co/papers/2410.16268

🟡

Github: https://github.com/Mark12Ding/SAM2Long

🟡

Homepage: https://mark12ding.github.io/project/SAM2Long/

#AIML #VideoSegmentation #SAM2Long #ComputerVision

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍6❤4

8.99K views14:01

Data Science by ODS.ai 🦜

🔥 Ежегодной премией Yandex ML Prize наградили 14 лауреатов за достижения в области машинного обучения

Победителями стали ученые и преподаватели, чьи исследования способствуют развитию науки в области ИИ и открывают новые возможности для практического применения ML-технологий в различных сферах. Премия, основанная для поддержки молодых исследователей, проводится уже шестой год.

Лауреаты в номинации «Исследования»:
🥇Александр Колесов, занимается разработкой нейросетевых методов на основе оптимального транспорта между вероятностными распределениями, одной из главных задач является построение барицентра Вассерштейна.
🏆 Алексей Скрынник, занимается исследованием и разработкой передовых алгоритмов Follower и MATS-LP, комбинирующих обучение с подкреплением и подходы поиска пути для задач децентрализованного многоагентного планирования.
🧠 Александр Тюрин, занимается задачами оптимизации, включающими сжатия информации и асинхронные вычисления.

https://tass.ru/obschestvo/22283467

@opendatascience

❤‍🔥4👍3❤1

7.07K views12:06

Data Science by ODS.ai 🦜

Ms - SmolLM2 1.7B - beats Qwen 2.5 1.5B & Llama 3.21B, Apache 2.0 licensed, trained on 11 Trillion tokens 🔥

> 135M, 360M, 1.7B parameter model
> Trained on FineWeb-Edu, DCLM, The Stack, along w/ new mathematics and coding datasets
> Specialises in Text rewriting, Summarization & Function Calling
> Integrated with transformers & model on the hub!

You can run the 1.7B in less than 2GB VRAM on a Q4 👑

Fine-tune, run inference, test, train, repeat - intelligence is just 5 lines of code away!

https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

@opendatascience

👍12❤3🔥3

7.17K views14:06

Data Science by ODS.ai 🦜

Forwarded from Рекомендательная [RecSys Channel]

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

У нейросетевых рекомендательных систем есть одна большая проблема — они плохо масштабируются, в то время как в NLP и CV скейлинг по размеру нейросетевых энкодеров очень хороший. Выделяют несколько причин этого явления: гигантский нестационарный словарь айтемов, гетерогенная природа признаков, а также очень большой объем данных.

В сегодняшней статье авторы предлагают переформулировать задачу рекомендации в генеративной постановке. Для начала, они представляют данные в виде последовательности событий. Вещественные фичи (счетчики и проч.) выкидываются, из взаимодействий с айтемами формируется единая последовательность, и затем в нее добавляются события изменения статической информации, такие как смена локации или изменение любого другого контекста.

Архитектура для генерации кандидатов выглядит довольно стандартно и похожа на SASRec или Pinnerformer: представляем пользователя в виде последовательности событий (item, action), и в тех местах, где следующим событием идет положительное взаимодействие с айтемом, предсказываем, что это за айтем.

А вот для ранжирования новизна достаточно серьезная: чтобы сделать модель target-aware (см. Deep Interest Network от Alibaba), понадобилось сделать более хитрую последовательность, в которой чередуются токены айтемов и действий: item_1, action_1, item_2, action_2, …. Из айтем-токенов предсказывается, какое с ними произойдет действие. Еще говорят, что на практике можно решать в этом месте любую многоголовую мультизадачу. Важно отметить, что авторы не учат единую модель сразу на генерацию кандидатов и ранжирование, а обучают две отдельные модели.

Другое нововведение — отказ от софтмакса и FFN в трансформере. Утверждается, что софтмакс плох для выучивания «интенсивности» чего-либо в истории пользователя. Те вещественные признаки, которые были выкинуты авторами, в основном её и касались. Например, сколько раз пользователь лайкал автора видеоролика, сколько раз скипал и т. д. Такие признаки очень важны для качества ранжирования. То, что отказ от софтмакса эту проблему решает, видно по результатам экспериментов — действительно есть значительное улучшение результатов ранжирования при такой модификации.

В итоге HSTU (Hierarchical Sequential Transduction Unit, так авторы окрестили свою архитектуру) показывает отличные результаты как на публичных, так и на внутренних датасетах. Еще и работает гораздо быстрее, чем прошлый DLRM подход за счет авторегрессивности и нового энкодера. Результаты в онлайне тоже очень хорошие — на billion-scale платформе short-form video (предполагаем, что это рилсы) получили +12.4% относительного прироста целевой метрики в A/B-тесте. Тем не менее, итоговая архитектура, которую авторы измеряют и внедряют, с точки зрения количества параметров не очень большая, где-то сотни миллионов. А вот по размеру датасета и длине истории скейлинг получился очень хороший.

@RecSysChannel
Разбор подготовил ❣ Кирилл Хрыльченко

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Actions Speak Louder than Words: Trillion-Parameter Sequential...

Large-scale recommendation systems are characterized by their reliance on high cardinality, heterogeneous features and the need to handle tens of billions of user actions on a daily basis. Despite...

🔥5👍3

7.63K views16:54

Data Science by ODS.ai 🦜

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Smol TTS models are here! OuteTTS-0.1-350M - Zero shot voice cloning, built on LLaMa architecture, CC-BY license! 🔥

> Pure language modeling approach to TTS
> Zero-shot voice cloning
> LLaMa architecture w/ Audio tokens (WavTokenizer)
> BONUS: Works on-device w/ llama.cpp ⚡

Three-step approach to TTS:

> Audio tokenization using WavTokenizer (75 tok per second).
> CTC forced alignment for word-to-audio token mapping.
> Structured prompt creation w/ transcription, duration, audio tokens.

https://huggingface.co/OuteAI/OuteTTS-0.1-350M

@opendatascience

🔥11👍5❤1

7.56K views10:23

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

⚡️ Как использование нескольких пользовательских представлений (MUR) улучшает персонализацию в рекомендательных системах

В Google рассказали про схему итеративного взвешивания плотности (iterative density weighting scheme, IDW), которая помогает равномерно распределять интересы пользователя.

Она уменьшает влияние дисбалансированных данных и улучшает кластеризацию элементов, анализируя плотность предметов в пространстве представлений.

В подробном разборе статьи от ml-спецов Яндекса рассказали про устройство IDW и кратко привели результаты эксперимента.

🟡

Разбор

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #tech

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3

9.63K views11:00

Data Science by ODS.ai 🦜

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Speech to Speech model - Fish Agent v0.1 3B by FishAudio

> Trained on 700K hours of multilingual audio
> Continue-pretrained version of Qwen-2.5-3B-Instruct for 200B audio & text tokens
> Zero-shot voice cloning
> Text + audio input/ Audio output
> Ultra-fast inference w/ 200ms TTFA

> Models on the Hub & Finetuning code on its way! 🚀

https://huggingface.co/fishaudio/fish-agent-v0.1-3b

@opendatascience

🔥10👍8❤2🥰2🤯1

10.7K views12:30

Data Science by ODS.ai 🦜

Nexusflow released Athene v2 72B - competetive with GPT4o & Llama 3.1 405B Chat, Code and Math 🔥

> Arena Hard: GPT4o (84.9) vs Athene v2 (77.9) vs L3.1 405B (69.3)

> Bigcode-Bench Hard: GPT4o (30.8) vs Athene v2 (31.4) vs L3.1 405B (26.4)

> MATH: GPT4o (76.6) vs Athene v2 (83) vs L3.1 405B (73.8)

> Models on the Hub along and work out of the box w/ Transformers 🤗

https://huggingface.co/Nexusflow/Athene-V2-Chat

They also release an Agent model: https://huggingface.co/Nexusflow/Athene-V2-Agent

@opendatascience

👍11❤3🔥3

9.06K views20:30

Data Science by ODS.ai 🦜

⚡️

DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!

🔍 o1-preview-level performance on AIME & MATH benchmarks.
💡 Transparent thought process in real-time.
🛠️ Open-source models & API coming soon!

🌐 You can try it now: https://chat.deepseek.com

#DeepSeek #llm

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤4👍2

6.47K views18:27

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

⚡️

SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.

Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.

Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:

🟢

Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.

🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.

В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.

🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.

Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.

Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".

Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.

Результаты тестирования Sana впечатляют:

🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.

🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.

🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.

⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.

▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
      --config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
      --model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth

🟡

Страница проекта

🟡

Коллекция моделей на HF

🟡

Arxiv

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Diffusion #SANA #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM