Data Science by ODS.ai 🦜

💡

SAM2Long, a training-free enhancement to SAM 2 for long-term video segmentation

- Less error accumulation facing occlusion/reappearance.
- A training-free memory tree for dynamic segmentation paths, boosting resilience efficiently.
- Significant improvements over SAM2 across 24 head-to-head comparisons on SA-V and LVOS.

🟡

Technical Report: https://huggingface.co/papers/2410.16268

🟡

Github: https://github.com/Mark12Ding/SAM2Long

🟡

Homepage: https://mark12ding.github.io/project/SAM2Long/

#AIML #VideoSegmentation #SAM2Long #ComputerVision

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍6❤4

8.96K views14:01

Data Science by ODS.ai 🦜

🔥 Ежегодной премией Yandex ML Prize наградили 14 лауреатов за достижения в области машинного обучения

Победителями стали ученые и преподаватели, чьи исследования способствуют развитию науки в области ИИ и открывают новые возможности для практического применения ML-технологий в различных сферах. Премия, основанная для поддержки молодых исследователей, проводится уже шестой год.

Лауреаты в номинации «Исследования»:
🥇Александр Колесов, занимается разработкой нейросетевых методов на основе оптимального транспорта между вероятностными распределениями, одной из главных задач является построение барицентра Вассерштейна.
🏆 Алексей Скрынник, занимается исследованием и разработкой передовых алгоритмов Follower и MATS-LP, комбинирующих обучение с подкреплением и подходы поиска пути для задач децентрализованного многоагентного планирования.
🧠 Александр Тюрин, занимается задачами оптимизации, включающими сжатия информации и асинхронные вычисления.

https://tass.ru/obschestvo/22283467

@opendatascience

❤‍🔥4👍3❤1

7.04K views12:06

Data Science by ODS.ai 🦜

Ms - SmolLM2 1.7B - beats Qwen 2.5 1.5B & Llama 3.21B, Apache 2.0 licensed, trained on 11 Trillion tokens 🔥

> 135M, 360M, 1.7B parameter model
> Trained on FineWeb-Edu, DCLM, The Stack, along w/ new mathematics and coding datasets
> Specialises in Text rewriting, Summarization & Function Calling
> Integrated with transformers & model on the hub!

You can run the 1.7B in less than 2GB VRAM on a Q4 👑

Fine-tune, run inference, test, train, repeat - intelligence is just 5 lines of code away!

https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

@opendatascience

👍12❤3🔥3

7.15K views14:06

Data Science by ODS.ai 🦜

Forwarded from Рекомендательная [RecSys Channel]

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

У нейросетевых рекомендательных систем есть одна большая проблема — они плохо масштабируются, в то время как в NLP и CV скейлинг по размеру нейросетевых энкодеров очень хороший. Выделяют несколько причин этого явления: гигантский нестационарный словарь айтемов, гетерогенная природа признаков, а также очень большой объем данных.

В сегодняшней статье авторы предлагают переформулировать задачу рекомендации в генеративной постановке. Для начала, они представляют данные в виде последовательности событий. Вещественные фичи (счетчики и проч.) выкидываются, из взаимодействий с айтемами формируется единая последовательность, и затем в нее добавляются события изменения статической информации, такие как смена локации или изменение любого другого контекста.

Архитектура для генерации кандидатов выглядит довольно стандартно и похожа на SASRec или Pinnerformer: представляем пользователя в виде последовательности событий (item, action), и в тех местах, где следующим событием идет положительное взаимодействие с айтемом, предсказываем, что это за айтем.

А вот для ранжирования новизна достаточно серьезная: чтобы сделать модель target-aware (см. Deep Interest Network от Alibaba), понадобилось сделать более хитрую последовательность, в которой чередуются токены айтемов и действий: item_1, action_1, item_2, action_2, …. Из айтем-токенов предсказывается, какое с ними произойдет действие. Еще говорят, что на практике можно решать в этом месте любую многоголовую мультизадачу. Важно отметить, что авторы не учат единую модель сразу на генерацию кандидатов и ранжирование, а обучают две отдельные модели.

Другое нововведение — отказ от софтмакса и FFN в трансформере. Утверждается, что софтмакс плох для выучивания «интенсивности» чего-либо в истории пользователя. Те вещественные признаки, которые были выкинуты авторами, в основном её и касались. Например, сколько раз пользователь лайкал автора видеоролика, сколько раз скипал и т. д. Такие признаки очень важны для качества ранжирования. То, что отказ от софтмакса эту проблему решает, видно по результатам экспериментов — действительно есть значительное улучшение результатов ранжирования при такой модификации.

В итоге HSTU (Hierarchical Sequential Transduction Unit, так авторы окрестили свою архитектуру) показывает отличные результаты как на публичных, так и на внутренних датасетах. Еще и работает гораздо быстрее, чем прошлый DLRM подход за счет авторегрессивности и нового энкодера. Результаты в онлайне тоже очень хорошие — на billion-scale платформе short-form video (предполагаем, что это рилсы) получили +12.4% относительного прироста целевой метрики в A/B-тесте. Тем не менее, итоговая архитектура, которую авторы измеряют и внедряют, с точки зрения количества параметров не очень большая, где-то сотни миллионов. А вот по размеру датасета и длине истории скейлинг получился очень хороший.

@RecSysChannel
Разбор подготовил ❣ Кирилл Хрыльченко

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Actions Speak Louder than Words: Trillion-Parameter Sequential...

Large-scale recommendation systems are characterized by their reliance on high cardinality, heterogeneous features and the need to handle tens of billions of user actions on a daily basis. Despite...

🔥5👍3

7.6K views16:54

Data Science by ODS.ai 🦜

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Smol TTS models are here! OuteTTS-0.1-350M - Zero shot voice cloning, built on LLaMa architecture, CC-BY license! 🔥

> Pure language modeling approach to TTS
> Zero-shot voice cloning
> LLaMa architecture w/ Audio tokens (WavTokenizer)
> BONUS: Works on-device w/ llama.cpp ⚡

Three-step approach to TTS:

> Audio tokenization using WavTokenizer (75 tok per second).
> CTC forced alignment for word-to-audio token mapping.
> Structured prompt creation w/ transcription, duration, audio tokens.

https://huggingface.co/OuteAI/OuteTTS-0.1-350M

@opendatascience

🔥11👍5❤1

7.53K views10:23

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

⚡️ Как использование нескольких пользовательских представлений (MUR) улучшает персонализацию в рекомендательных системах

В Google рассказали про схему итеративного взвешивания плотности (iterative density weighting scheme, IDW), которая помогает равномерно распределять интересы пользователя.

Она уменьшает влияние дисбалансированных данных и улучшает кластеризацию элементов, анализируя плотность предметов в пространстве представлений.

В подробном разборе статьи от ml-спецов Яндекса рассказали про устройство IDW и кратко привели результаты эксперимента.

🟡

Разбор

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #tech

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3

9.6K views11:00

Data Science by ODS.ai 🦜

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Speech to Speech model - Fish Agent v0.1 3B by FishAudio

> Trained on 700K hours of multilingual audio
> Continue-pretrained version of Qwen-2.5-3B-Instruct for 200B audio & text tokens
> Zero-shot voice cloning
> Text + audio input/ Audio output
> Ultra-fast inference w/ 200ms TTFA

> Models on the Hub & Finetuning code on its way! 🚀

https://huggingface.co/fishaudio/fish-agent-v0.1-3b

@opendatascience

🔥10👍8❤2🥰2🤯1

10.7K views12:30

Data Science by ODS.ai 🦜

Nexusflow released Athene v2 72B - competetive with GPT4o & Llama 3.1 405B Chat, Code and Math 🔥

> Arena Hard: GPT4o (84.9) vs Athene v2 (77.9) vs L3.1 405B (69.3)

> Bigcode-Bench Hard: GPT4o (30.8) vs Athene v2 (31.4) vs L3.1 405B (26.4)

> MATH: GPT4o (76.6) vs Athene v2 (83) vs L3.1 405B (73.8)

> Models on the Hub along and work out of the box w/ Transformers 🤗

https://huggingface.co/Nexusflow/Athene-V2-Chat

They also release an Agent model: https://huggingface.co/Nexusflow/Athene-V2-Agent

@opendatascience

👍11❤3🔥3

9.03K views20:30

Data Science by ODS.ai 🦜

⚡️

DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!

🔍 o1-preview-level performance on AIME & MATH benchmarks.
💡 Transparent thought process in real-time.
🛠️ Open-source models & API coming soon!

🌐 You can try it now: https://chat.deepseek.com

#DeepSeek #llm

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤4👍2

6.45K views18:27

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

⚡️

SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.

Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.

Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:

🟢

Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.

🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.

В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.

🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.

Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.

Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".

Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.

Результаты тестирования Sana впечатляют:

🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.

🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.

🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.

⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.

▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
      --config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
      --model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth

🟡

Страница проекта

🟡

Коллекция моделей на HF

🟡

Arxiv

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Diffusion #SANA #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍7❤4

7.51K views14:56

Data Science by ODS.ai 🦜

⚡️ Biggest open text dataset release of the year: SmolTalk is a 1M sample big synthetic dataset that was used to train SmolLM v2.

TL;DR;
🧩 New datasets: Smol-Magpie-Ultra (400K) for instruction tuning; Smol-contraints (36K) for precise output; Smol-rewrite (50K) & Smol-summarize (100K) for rewriting and summarization.
🤝 Public Dataset Integrations: OpenHermes2.5 (100K), MetaMathQA & NuminaMath-CoT, Self-Oss-Starcoder2-Instruct, LongAlign & SystemChats2.0
🥇 Outperforms the new Orca-AgenInstruct 1M when trained with 1.7B and 7B models
🏆 Outperform models trained on OpenHermes and Magpie Pro on IFEval and MT-Bench
distilabel to generate all new synthetic datasets
🤗 Released under Apache 2.0 on huggingface

Apache 2.0

Synthetic generation pipelines and training code released.

Dataset: https://huggingface.co/datasets/HuggingFaceTB/smoltalk
Generation Code: https://github.com/huggingface/smollm
Training Code: https://github.com/huggingface/alignment-handbook/tree/main/recipes/smollm2

@opendatascience

👍15❤5🔥5

8.14K viewsedited 17:01

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

✔️

Stability AI выпустила модели ControlNet для Stable Diffusion 3.5 Large.

Stability AI представила 3 модели ControlNet: Blur, Canny и Depth, которые расширяют возможности Stable Diffusion 3.5 Large. Модели доступны для коммерческого и некоммерческого использования под лицензией Stability AI Community License..

Модель Blur предназначена для апскейла изображений до разрешений 8K и 16K. Canny использует карты границ для структурирования генерируемых изображений. Модель Depth использует карты глубины, созданные DepthFM, для управления композицией изображения.

ControlNet для Stable Diffusion 3.5 Large уже доступны на Hugging Face и поддерживаются в Comfy UI.
stability.ai

✔️

IMAX внедряет ИИ для расширения охвата оригинального контента.

Канадская компания, известная своими огромными кинотеатрами и иммерсивными впечатлениями от просмотра фильмов, объявила о партнерстве со стартапом Camb.ai, базирующимся в Дубае, для использования его моделей речевого ИИ для перевода оригинального контента.

Camb.ai предлагает свою модель Boli для перевода речи в текст и Mars для эмуляции речи. Модели доступны через платформу DubStudio, которая поддерживает 140 языков, включая малые языковые группы. IMAX начнет внедрять переводы на основе ИИ поэтапно, начиная с языков с большим объемом данных.
techcrunch.com

✔️

Anthropic добавила функцию пользовательских стилей в Claude AI.

Новая функция Claude - стиль ответов чат-бота. Обновление доступно для всех пользователей Claude AI и даёт возможность настроить стиль общения или выбрать один из предустановленных вариантов, чтобы быстро изменить тон и уровень детализации.

Пользователям предлагается три предустановленных стиля: формальный для «четкого и отточенного» текста, краткий для более коротких и прямых ответов, и пояснительный для образовательных ответов. Пользователи Claude могут создавать собственные стили, загрузив примеры текстов, отражающих их предпочтительный способ общения.
theverge.com

✔️

Google запустила платформу Health AI Developer Foundations (HAI-DEF) для разработки ИИ в здравоохранении.

Health AI Developer Foundations (HAI-DEF) - публичный ресурс, который должен помочь разработчикам в создании и внедрении моделей ИИ для здравоохранения. HAI-DEF предоставляет разработчикам модели, обучающие блокноты Colab и подробную документацию для поддержки каждого этапа разработки ИИ, от исследований до коммерциализации.

В HAI-DEF входят 3 специализированные модели для медицинской визуализации: CXR Foundation для рентгеновских снимков грудной клетки, Derm Foundation для изображений кожи и Path Foundation для цифровой патологии.
developers.google.com

✔️

Cursor получил обновление с автономными агентами.

Cursor выпустила обновление 0,43, которое обеспечивает частичную автоматизацию написания кода с помощью ИИ-агентов, способных самостоятельно перемещаться по контекстам и выполнять операции в терминале. Обновление позволяет ИИ-агентам реагировать на сообщения об ошибках и принимать автономные решения для устранения проблем. В демонстрации, опубликованной в X, Cursor создает полноценное веб-приложение секундомера с использованием HTML, CSS и JavaScript, включая запуск веб-сервера, все это с помощью одной текстовой подсказки.

Cursor остается бесплатным для загрузки и работает с GPT-4, Claude 3.5 Sonnet и Llama, как локально, так и через API. Платная подписка Pro за 20 долларов в месяц открывает доступ к дополнительным функциям, включая новых ИИ-агентов.
changelog.cursor.sh

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤6🔥3

5.11K views09:00

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🌟 cuPyNumeric: замена NumPy от NVIDIA.

По мере роста объемов данных и сложности вычислений, вычисления на Python и NumPy, основанные на CPU, нуждаются в ускорении для выполнения современных исследований.

cuPyNumeric разработана, чтобы стать заменой библиотеки NumPy, предоставляя сообществу Python распределенные и ускоренные вычисления на платформе NVIDIA. cuPyNumeric позволяет масштабировать вычисления без изменения кода проектов с одного CPU до суперкомпьютеров с несколькими GPU и вычислительными нодами.

Библиотека построена на Legate, поддерживает родной Python и интерфейс NumPy. cuPyNumeric доступен из conda (версия не ниже 24.1) в legate channel. На системах с GPU пакеты, поддерживающие графические ускорители будут выбраны автоматически во время установки.

Пример эффективности cuPyNumeric - обработка 10 ТБ микроизображений многоракурсной микроскопии в виде одного массива NumPy за один день с визуализаций в режиме реального времени.

▶️Установка и тест на примере из репозитория:

# Create new conda env
conda create -n myenv -c conda-forge -c legate cupynumeric

# Test via example from repo
$ legate examples/black_scholes.py
Running black scholes on 10K options...
Elapsed Time: 129.017 ms

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Документация

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #NumPy #NVIDIA #cuPyNumeric

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥6❤3