Data Science by ODS.ai 🦜

Нейроредактор Яндекс Браузера: ключевые особенности масштабного ИИ-проекта

Яндекс доработал возможности YandexGPT, превратив их в отдельный инструмент — нейроредактор. Теперь это не просто набор функций, а полноценный редактор, который создаёт тексты, исправляет ошибки и улучшает стиль, интегрированный прямо в Браузер.

Эксперименты разработчиков:
> Переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками. Эксперименты дали ускорение в 2 раза без потери качества, стабилизировали поведение на длинных текстах и в среднем обеспечили +10% качества на открытых датасетах.

К чему пришли:
>Надежная поддержка Маркдауна: раньше нейроредактатор некорректно обращался с разметкой, мог удалить или добавить спецсимволы, что делало результат непредсказуемым. Теперь, благодаря обучению на размеченных текстах, ручному восстановлению разметки и переобучению модели, достигнуто точное сохранение разметки 1:1 в процессе исправления ошибок.
>Новые возможности: перефразирование, упрощение/усложнение, перевод стиля, свободный ввод указаний (кастомный промт). Последний приближает нейроредактор к диалоговым ИИ-системам, позволяя решать любую задачу преобразования текста, не выбивая из состояния потока.

▪️Хабр

@opendatascience

❤18🤡5👍3🔥2🥰1

9.39K views12:01

Data Science by ODS.ai 🦜

⚡️

Most of the models from Mistral are now available for free via the API

What is this attraction of unprecedented generosity? Your queries will probably be used to train new models (although this is not accurate).

https://docs.mistral.ai/getting-started/models/

#mistral #opensource

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥9❤5😱4👏2

10.5K views14:01

Data Science by ODS.ai 🦜

Яндекс запустил VLM в Нейро

Visual Language Model теперь работает в Поиске по картинкам и Умной камере Яндекса. ML-разработчик компании описал детали на Хабре.

VLM представляет собой новую стадию развития компьютерного зрения, расширяя возможности анализа изображений. Модель способна анализировать детали и отвечать на сложные вопросы пользователей. VLM решает многие задачи «из коробки», что делает её гибким инструментом. При небольшом дообучении она может достигать качества state-of-the-art в различных задачах компьютерного зрения.

🛠 Архитектура: LLM + картиночный энкодер + адаптер. В новом пайплайне VLM-рефразер и VLM-captioner

Подробности процесса создания и сравнение со старым LLM-пайплайном в статье:

▪️ Хабр

@opendatascience

👍20🔥11❤5😁1🤡1🌚1

8.87K views16:30

Data Science by ODS.ai 🦜

🥪 TripoSR (MIT license) is now available on , free for individual use!

💳 For commercial use, you can generate around 350 - 3D objects for just $1 using runpod_io's serverless infrastructure. 🔥

🧬code: https://github.com/VAST-AI-Research/TripoSR
📄paper: https://arxiv.org/abs/2403.02151
🍇runpod: https://github.com/camenduru/triposr-tost
🍊jupyter: https://github.com/camenduru/TripoSR-jupyter

@opendatascience

👍10🔥5❤4

10.1K viewsedited 22:24

Data Science by ODS.ai 🦜

✔️

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

New pipeline for selecting high-quality long-take videos and generating temporally dense captions.

Dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions.

🖥

Github: https://github.com/silentview/lvd-2m

📕

Paper: https://arxiv.org/abs/2410.10816v1

🖥

Dataset: https://paperswithcode.com/dataset/howto100m

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4🔥4

7.97K views18:31

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🌟 Branch-Train-MiX: метод получения MoE-модели

Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.

После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.

🟡

Страница проекта

🟡

Разбор метода

@ai_machinelearning_big_data

#MoE #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3🔥3

9.4K views13:00

Data Science by ODS.ai 🦜

🔥 NVIDIA silently release a Llama 3.1 70B fine-tune that outperforms
GPT-4o and Claude Sonnet 3.5

Llama 3.1 Nemotron 70B Instruct a further RLHFed model on
huggingface

🏆 85.0 on Arena Hard, 57.6 on AlpacaEval 2 LC, and 8.98 MT-Bench
🥇 Outperforms GPT-4o and Claude 3.5 Sonnet on these benchmarks
🍓 Can accurately answer "How many r's are in strawberry?"
🦙 Based on Llama-3.1-70B-Instruct and trained using RLHF (REINFORCE)
🧠 Released also Llama-3.1-Nemotron-70B-Reward #2 on RewardBench
🤗 Available on Hugging Face and NVIDIA

https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8

@opendatascience

🔥25👍7❤4😁3🍓1

10.9K viewsedited 14:02

Data Science by ODS.ai 🦜

Forwarded from CV Time

Minimalist Vision with Freeform Pixels

На ECCV-24 была секция, посвящённая низкоуровневому устройству систем компьютерного зрения. По настоящему low-level решение предложили в статье Minimalist Vision with Freeform Pixels, которая получила награду Best Paper Award. Авторы создали прототип полностью автономной по электропитанию камеры.

Вместо обычных матриц в камере используются 24 фотодиода. Перед каждым из них установлена маска-фильтр, которая выступает первым слоем нейросети. Оптическая передаточная функция маски зависит от задачи, под которую обучена камера.

По сути первый слой обеспечивает произвольную форму для каждого пикселя — против фиксированной квадратной у традиционных камер. А последующие слои выводят результат задачи. Так авторы демонстрируют возможность мониторинга рабочего пространства и оценки дорожного трафика при помощи всего лишь 8 пикселей из 24.

Кроме того, камера хорошо показала себя в задаче оценки освещённости помещения. Используя те же 8 пикселей, она сумела определить, какие из источников света были включены в каждый конкретный момент. При этом ни один из источников не был виден камере напрямую — она собирала информацию исходя из состояния помещения.

Помимо низкого энергопотребления, такой подход позволяет обеспечивать конфиденциальность людей в кадре, так как записываемой оптической информации недостаточно для восстановления деталей изображения. Прототип камеры оснащён микроконтроллером с Bluetooth. А с четырёх сторон расположены солнечные панели для получения электроэнергии.

Разбор подготовила ❣ Алиса Родионова
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍8

7.08K views11:06

Data Science by ODS.ai 🦜

⚡️

Яндекс открыл доступ к более мощному семейству моделей YandexGPT 4

Pro-версия и облегчённая Lite-версия поддерживают более сложные запросы, расширенный контекст, скрытые рассуждения и работу с внешними инструментами. Модели уже доступны через API в Yandex Cloud.

🤖 Pro-версия превосходит предыдущее поколение в 70% случаев, а Lite не уступает лучшей модели прошлого поколения.
🤖 В четыре раза увеличено количество токенов (до 32 тысяч), которое нейросеть может обрабатывать в промте.
🤖 Улучшенная работа с RAG-сценариями и снижение доли галлюцинаций.
🤖 Внедрены скрытые рассуждения (Chain-of-thoughts) для пошагового анализа проблем, выделения этапов и поиска решений.

https://habr.com/ru/companies/yandex/articles/852968/

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤11🤡9🔥3😁2

8.51K views12:30

Data Science by ODS.ai 🦜

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

💡

SAM2Long, a training-free enhancement to SAM 2 for long-term video segmentation

- Less error accumulation facing occlusion/reappearance.
- A training-free memory tree for dynamic segmentation paths, boosting resilience efficiently.
- Significant improvements over SAM2 across 24 head-to-head comparisons on SA-V and LVOS.

🟡

Technical Report: https://huggingface.co/papers/2410.16268

🟡

Github: https://github.com/Mark12Ding/SAM2Long

🟡

Homepage: https://mark12ding.github.io/project/SAM2Long/

#AIML #VideoSegmentation #SAM2Long #ComputerVision

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍6❤4

9.01K views14:01

Data Science by ODS.ai 🦜

🔥 Ежегодной премией Yandex ML Prize наградили 14 лауреатов за достижения в области машинного обучения

Победителями стали ученые и преподаватели, чьи исследования способствуют развитию науки в области ИИ и открывают новые возможности для практического применения ML-технологий в различных сферах. Премия, основанная для поддержки молодых исследователей, проводится уже шестой год.

Лауреаты в номинации «Исследования»:
🥇Александр Колесов, занимается разработкой нейросетевых методов на основе оптимального транспорта между вероятностными распределениями, одной из главных задач является построение барицентра Вассерштейна.
🏆 Алексей Скрынник, занимается исследованием и разработкой передовых алгоритмов Follower и MATS-LP, комбинирующих обучение с подкреплением и подходы поиска пути для задач децентрализованного многоагентного планирования.
🧠 Александр Тюрин, занимается задачами оптимизации, включающими сжатия информации и асинхронные вычисления.

https://tass.ru/obschestvo/22283467

@opendatascience

❤‍🔥4👍3❤1

7.1K views12:06

Data Science by ODS.ai 🦜

Ms - SmolLM2 1.7B - beats Qwen 2.5 1.5B & Llama 3.21B, Apache 2.0 licensed, trained on 11 Trillion tokens 🔥

> 135M, 360M, 1.7B parameter model
> Trained on FineWeb-Edu, DCLM, The Stack, along w/ new mathematics and coding datasets
> Specialises in Text rewriting, Summarization & Function Calling
> Integrated with transformers & model on the hub!

You can run the 1.7B in less than 2GB VRAM on a Q4 👑

Fine-tune, run inference, test, train, repeat - intelligence is just 5 lines of code away!

https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

@opendatascience

👍12❤3🔥3

7.19K views14:06

Data Science by ODS.ai 🦜

Forwarded from Рекомендательная [RecSys Channel]

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

У нейросетевых рекомендательных систем есть одна большая проблема — они плохо масштабируются, в то время как в NLP и CV скейлинг по размеру нейросетевых энкодеров очень хороший. Выделяют несколько причин этого явления: гигантский нестационарный словарь айтемов, гетерогенная природа признаков, а также очень большой объем данных.

В сегодняшней статье авторы предлагают переформулировать задачу рекомендации в генеративной постановке. Для начала, они представляют данные в виде последовательности событий. Вещественные фичи (счетчики и проч.) выкидываются, из взаимодействий с айтемами формируется единая последовательность, и затем в нее добавляются события изменения статической информации, такие как смена локации или изменение любого другого контекста.

Архитектура для генерации кандидатов выглядит довольно стандартно и похожа на SASRec или Pinnerformer: представляем пользователя в виде последовательности событий (item, action), и в тех местах, где следующим событием идет положительное взаимодействие с айтемом, предсказываем, что это за айтем.

А вот для ранжирования новизна достаточно серьезная: чтобы сделать модель target-aware (см. Deep Interest Network от Alibaba), понадобилось сделать более хитрую последовательность, в которой чередуются токены айтемов и действий: item_1, action_1, item_2, action_2, …. Из айтем-токенов предсказывается, какое с ними произойдет действие. Еще говорят, что на практике можно решать в этом месте любую многоголовую мультизадачу. Важно отметить, что авторы не учат единую модель сразу на генерацию кандидатов и ранжирование, а обучают две отдельные модели.

Другое нововведение — отказ от софтмакса и FFN в трансформере. Утверждается, что софтмакс плох для выучивания «интенсивности» чего-либо в истории пользователя. Те вещественные признаки, которые были выкинуты авторами, в основном её и касались. Например, сколько раз пользователь лайкал автора видеоролика, сколько раз скипал и т. д. Такие признаки очень важны для качества ранжирования. То, что отказ от софтмакса эту проблему решает, видно по результатам экспериментов — действительно есть значительное улучшение результатов ранжирования при такой модификации.

В итоге HSTU (Hierarchical Sequential Transduction Unit, так авторы окрестили свою архитектуру) показывает отличные результаты как на публичных, так и на внутренних датасетах. Еще и работает гораздо быстрее, чем прошлый DLRM подход за счет авторегрессивности и нового энкодера. Результаты в онлайне тоже очень хорошие — на billion-scale платформе short-form video (предполагаем, что это рилсы) получили +12.4% относительного прироста целевой метрики в A/B-тесте. Тем не менее, итоговая архитектура, которую авторы измеряют и внедряют, с точки зрения количества параметров не очень большая, где-то сотни миллионов. А вот по размеру датасета и длине истории скейлинг получился очень хороший.

@RecSysChannel
Разбор подготовил ❣ Кирилл Хрыльченко

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Actions Speak Louder than Words: Trillion-Parameter Sequential...

Large-scale recommendation systems are characterized by their reliance on high cardinality, heterogeneous features and the need to handle tens of billions of user actions on a daily basis. Despite...

🔥5👍3

7.65K views16:54

Data Science by ODS.ai 🦜

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Smol TTS models are here! OuteTTS-0.1-350M - Zero shot voice cloning, built on LLaMa architecture, CC-BY license! 🔥

> Pure language modeling approach to TTS
> Zero-shot voice cloning
> LLaMa architecture w/ Audio tokens (WavTokenizer)
> BONUS: Works on-device w/ llama.cpp ⚡

Three-step approach to TTS:

> Audio tokenization using WavTokenizer (75 tok per second).
> CTC forced alignment for word-to-audio token mapping.
> Structured prompt creation w/ transcription, duration, audio tokens.

https://huggingface.co/OuteAI/OuteTTS-0.1-350M

@opendatascience

🔥11👍5❤1

7.59K views10:23

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

⚡️ Как использование нескольких пользовательских представлений (MUR) улучшает персонализацию в рекомендательных системах

В Google рассказали про схему итеративного взвешивания плотности (iterative density weighting scheme, IDW), которая помогает равномерно распределять интересы пользователя.

Она уменьшает влияние дисбалансированных данных и улучшает кластеризацию элементов, анализируя плотность предметов в пространстве представлений.

В подробном разборе статьи от ml-спецов Яндекса рассказали про устройство IDW и кратко привели результаты эксперимента.

🟡

Разбор

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #tech

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3

9.65K views11:00

About

Blog

Apps

Platform