Data Science by ODS.ai 🦜

Яндекс запустил VLM в Нейро

Visual Language Model теперь работает в Поиске по картинкам и Умной камере Яндекса. ML-разработчик компании описал детали на Хабре.

VLM представляет собой новую стадию развития компьютерного зрения, расширяя возможности анализа изображений. Модель способна анализировать детали и отвечать на сложные вопросы пользователей. VLM решает многие задачи «из коробки», что делает её гибким инструментом. При небольшом дообучении она может достигать качества state-of-the-art в различных задачах компьютерного зрения.

🛠 Архитектура: LLM + картиночный энкодер + адаптер. В новом пайплайне VLM-рефразер и VLM-captioner

Подробности процесса создания и сравнение со старым LLM-пайплайном в статье:

▪️ Хабр

@opendatascience

👍20🔥11❤4😁1🤡1🌚1

8.8K views16:30

Data Science by ODS.ai 🦜

🥪 TripoSR (MIT license) is now available on , free for individual use!

💳 For commercial use, you can generate around 350 - 3D objects for just $1 using runpod_io's serverless infrastructure. 🔥

🧬code: https://github.com/VAST-AI-Research/TripoSR
📄paper: https://arxiv.org/abs/2403.02151
🍇runpod: https://github.com/camenduru/triposr-tost
🍊jupyter: https://github.com/camenduru/TripoSR-jupyter

@opendatascience

👍10🔥5❤4

10.1K viewsedited 22:24

Data Science by ODS.ai 🦜

✔️

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

New pipeline for selecting high-quality long-take videos and generating temporally dense captions.

Dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions.

🖥

Github: https://github.com/silentview/lvd-2m

📕

Paper: https://arxiv.org/abs/2410.10816v1

🖥

Dataset: https://paperswithcode.com/dataset/howto100m

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4🔥4

7.91K views18:31

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🌟 Branch-Train-MiX: метод получения MoE-модели

Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.

После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.

🟡

Страница проекта

🟡

Разбор метода

@ai_machinelearning_big_data

#MoE #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3🔥3

9.34K views13:00

Data Science by ODS.ai 🦜

🔥 NVIDIA silently release a Llama 3.1 70B fine-tune that outperforms
GPT-4o and Claude Sonnet 3.5

Llama 3.1 Nemotron 70B Instruct a further RLHFed model on
huggingface

🏆 85.0 on Arena Hard, 57.6 on AlpacaEval 2 LC, and 8.98 MT-Bench
🥇 Outperforms GPT-4o and Claude 3.5 Sonnet on these benchmarks
🍓 Can accurately answer "How many r's are in strawberry?"
🦙 Based on Llama-3.1-70B-Instruct and trained using RLHF (REINFORCE)
🧠 Released also Llama-3.1-Nemotron-70B-Reward #2 on RewardBench
🤗 Available on Hugging Face and NVIDIA

https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8

@opendatascience

🔥25👍7❤4😁3🍓1

10.9K viewsedited 14:02

Data Science by ODS.ai 🦜

Forwarded from CV Time

Minimalist Vision with Freeform Pixels

На ECCV-24 была секция, посвящённая низкоуровневому устройству систем компьютерного зрения. По настоящему low-level решение предложили в статье Minimalist Vision with Freeform Pixels, которая получила награду Best Paper Award. Авторы создали прототип полностью автономной по электропитанию камеры.

Вместо обычных матриц в камере используются 24 фотодиода. Перед каждым из них установлена маска-фильтр, которая выступает первым слоем нейросети. Оптическая передаточная функция маски зависит от задачи, под которую обучена камера.

По сути первый слой обеспечивает произвольную форму для каждого пикселя — против фиксированной квадратной у традиционных камер. А последующие слои выводят результат задачи. Так авторы демонстрируют возможность мониторинга рабочего пространства и оценки дорожного трафика при помощи всего лишь 8 пикселей из 24.

Кроме того, камера хорошо показала себя в задаче оценки освещённости помещения. Используя те же 8 пикселей, она сумела определить, какие из источников света были включены в каждый конкретный момент. При этом ни один из источников не был виден камере напрямую — она собирала информацию исходя из состояния помещения.

Помимо низкого энергопотребления, такой подход позволяет обеспечивать конфиденциальность людей в кадре, так как записываемой оптической информации недостаточно для восстановления деталей изображения. Прототип камеры оснащён микроконтроллером с Bluetooth. А с четырёх сторон расположены солнечные панели для получения электроэнергии.

Разбор подготовила ❣ Алиса Родионова
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍8

7.02K views11:06

Data Science by ODS.ai 🦜

⚡️

Яндекс открыл доступ к более мощному семейству моделей YandexGPT 4

Pro-версия и облегчённая Lite-версия поддерживают более сложные запросы, расширенный контекст, скрытые рассуждения и работу с внешними инструментами. Модели уже доступны через API в Yandex Cloud.

🤖 Pro-версия превосходит предыдущее поколение в 70% случаев, а Lite не уступает лучшей модели прошлого поколения.
🤖 В четыре раза увеличено количество токенов (до 32 тысяч), которое нейросеть может обрабатывать в промте.
🤖 Улучшенная работа с RAG-сценариями и снижение доли галлюцинаций.
🤖 Внедрены скрытые рассуждения (Chain-of-thoughts) для пошагового анализа проблем, выделения этапов и поиска решений.

https://habr.com/ru/companies/yandex/articles/852968/

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤11🤡9🔥3😁2

8.46K views12:30

Data Science by ODS.ai 🦜

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

💡

SAM2Long, a training-free enhancement to SAM 2 for long-term video segmentation

- Less error accumulation facing occlusion/reappearance.
- A training-free memory tree for dynamic segmentation paths, boosting resilience efficiently.
- Significant improvements over SAM2 across 24 head-to-head comparisons on SA-V and LVOS.

🟡

Technical Report: https://huggingface.co/papers/2410.16268

🟡

Github: https://github.com/Mark12Ding/SAM2Long

🟡

Homepage: https://mark12ding.github.io/project/SAM2Long/

#AIML #VideoSegmentation #SAM2Long #ComputerVision

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍6❤4

8.97K views14:01

Data Science by ODS.ai 🦜

🔥 Ежегодной премией Yandex ML Prize наградили 14 лауреатов за достижения в области машинного обучения

Победителями стали ученые и преподаватели, чьи исследования способствуют развитию науки в области ИИ и открывают новые возможности для практического применения ML-технологий в различных сферах. Премия, основанная для поддержки молодых исследователей, проводится уже шестой год.

Лауреаты в номинации «Исследования»:
🥇Александр Колесов, занимается разработкой нейросетевых методов на основе оптимального транспорта между вероятностными распределениями, одной из главных задач является построение барицентра Вассерштейна.
🏆 Алексей Скрынник, занимается исследованием и разработкой передовых алгоритмов Follower и MATS-LP, комбинирующих обучение с подкреплением и подходы поиска пути для задач децентрализованного многоагентного планирования.
🧠 Александр Тюрин, занимается задачами оптимизации, включающими сжатия информации и асинхронные вычисления.

https://tass.ru/obschestvo/22283467

@opendatascience

❤‍🔥4👍3❤1

7.05K views12:06

Data Science by ODS.ai 🦜

Ms - SmolLM2 1.7B - beats Qwen 2.5 1.5B & Llama 3.21B, Apache 2.0 licensed, trained on 11 Trillion tokens 🔥

> 135M, 360M, 1.7B parameter model
> Trained on FineWeb-Edu, DCLM, The Stack, along w/ new mathematics and coding datasets
> Specialises in Text rewriting, Summarization & Function Calling
> Integrated with transformers & model on the hub!

You can run the 1.7B in less than 2GB VRAM on a Q4 👑

Fine-tune, run inference, test, train, repeat - intelligence is just 5 lines of code away!

https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

@opendatascience

👍12❤3🔥3

7.15K views14:06

Data Science by ODS.ai 🦜

Forwarded from Рекомендательная [RecSys Channel]

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

У нейросетевых рекомендательных систем есть одна большая проблема — они плохо масштабируются, в то время как в NLP и CV скейлинг по размеру нейросетевых энкодеров очень хороший. Выделяют несколько причин этого явления: гигантский нестационарный словарь айтемов, гетерогенная природа признаков, а также очень большой объем данных.

В сегодняшней статье авторы предлагают переформулировать задачу рекомендации в генеративной постановке. Для начала, они представляют данные в виде последовательности событий. Вещественные фичи (счетчики и проч.) выкидываются, из взаимодействий с айтемами формируется единая последовательность, и затем в нее добавляются события изменения статической информации, такие как смена локации или изменение любого другого контекста.

Архитектура для генерации кандидатов выглядит довольно стандартно и похожа на SASRec или Pinnerformer: представляем пользователя в виде последовательности событий (item, action), и в тех местах, где следующим событием идет положительное взаимодействие с айтемом, предсказываем, что это за айтем.

А вот для ранжирования новизна достаточно серьезная: чтобы сделать модель target-aware (см. Deep Interest Network от Alibaba), понадобилось сделать более хитрую последовательность, в которой чередуются токены айтемов и действий: item_1, action_1, item_2, action_2, …. Из айтем-токенов предсказывается, какое с ними произойдет действие. Еще говорят, что на практике можно решать в этом месте любую многоголовую мультизадачу. Важно отметить, что авторы не учат единую модель сразу на генерацию кандидатов и ранжирование, а обучают две отдельные модели.

Другое нововведение — отказ от софтмакса и FFN в трансформере. Утверждается, что софтмакс плох для выучивания «интенсивности» чего-либо в истории пользователя. Те вещественные признаки, которые были выкинуты авторами, в основном её и касались. Например, сколько раз пользователь лайкал автора видеоролика, сколько раз скипал и т. д. Такие признаки очень важны для качества ранжирования. То, что отказ от софтмакса эту проблему решает, видно по результатам экспериментов — действительно есть значительное улучшение результатов ранжирования при такой модификации.

В итоге HSTU (Hierarchical Sequential Transduction Unit, так авторы окрестили свою архитектуру) показывает отличные результаты как на публичных, так и на внутренних датасетах. Еще и работает гораздо быстрее, чем прошлый DLRM подход за счет авторегрессивности и нового энкодера. Результаты в онлайне тоже очень хорошие — на billion-scale платформе short-form video (предполагаем, что это рилсы) получили +12.4% относительного прироста целевой метрики в A/B-тесте. Тем не менее, итоговая архитектура, которую авторы измеряют и внедряют, с точки зрения количества параметров не очень большая, где-то сотни миллионов. А вот по размеру датасета и длине истории скейлинг получился очень хороший.

@RecSysChannel
Разбор подготовил ❣ Кирилл Хрыльченко

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Actions Speak Louder than Words: Trillion-Parameter Sequential...

Large-scale recommendation systems are characterized by their reliance on high cardinality, heterogeneous features and the need to handle tens of billions of user actions on a daily basis. Despite...

🔥5👍3

7.61K views16:54

Data Science by ODS.ai 🦜

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Smol TTS models are here! OuteTTS-0.1-350M - Zero shot voice cloning, built on LLaMa architecture, CC-BY license! 🔥

> Pure language modeling approach to TTS
> Zero-shot voice cloning
> LLaMa architecture w/ Audio tokens (WavTokenizer)
> BONUS: Works on-device w/ llama.cpp ⚡

Three-step approach to TTS:

> Audio tokenization using WavTokenizer (75 tok per second).
> CTC forced alignment for word-to-audio token mapping.
> Structured prompt creation w/ transcription, duration, audio tokens.

https://huggingface.co/OuteAI/OuteTTS-0.1-350M

@opendatascience

🔥11👍5❤1

7.54K views10:23

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

⚡️ Как использование нескольких пользовательских представлений (MUR) улучшает персонализацию в рекомендательных системах

В Google рассказали про схему итеративного взвешивания плотности (iterative density weighting scheme, IDW), которая помогает равномерно распределять интересы пользователя.

Она уменьшает влияние дисбалансированных данных и улучшает кластеризацию элементов, анализируя плотность предметов в пространстве представлений.

В подробном разборе статьи от ml-спецов Яндекса рассказали про устройство IDW и кратко привели результаты эксперимента.

🟡

Разбор

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #tech

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3

9.61K views11:00

About

Blog

Apps

Platform