Data Science by ODS.ai 🦜

Forwarded from Рекомендательная [RecSys Channel]

Законы масштабирования в больших моделях последовательных рекомендаций

Авторы из WeChat и Tencent разбирались, работают ли законы масштабирования нейросетей для рекомендательных систем. Главный вопрос — есть ли улучшение качества рекомендаций при увеличении количества обучаемых параметров? Короткий ответ — да.

Известно, что рост количества параметров моделей иногда коррелирует с улучшением качества решаемых задач. Больше всего работ посвящено законам масштабирования в языковых моделях. В них определяется эмпирическая зависимость функции потерь на отложенной выборке от характеристик обучения. Обычно рассматривают параметры энкодеров и/или декодеров. Для NLP зависимость в логарифмических координатах получается линейной.

В работе об SR авторы масштабировали декодер трансформера и вносили изменения в стратегии обучения, чтобы получить закон масштабирования для рекомендательных систем:
— Для слоёв в начале последовательности декодер-блоков применяли больший dropout-rate, а для слоёв на вершине — меньший, что позволило избежать оверфита.
— Сначала обучались с Adam до полной сходимости, а потом брали чекпоинты, с которых продолжали обучение при помощи SGD, потому что несмотря на лучшую сходимость, итоговый минимум у Adam получался хуже.

Историю взаимодействий форматировали как хронологическую последовательность ID айтемов. То есть задача решалась так же, как в случае с языковыми моделями. Исследователи не брали другую информацию (например, текст айтема), так как хотели изучить работу закона с т. з. поведения пользователя. Модели увеличивали до 0,8B параметров, сравнивая эффекты в разных диапазонах размеров.

Оказалось, закон масштабирования работает для SR-моделей даже в сценариях с ограниченным количеством данных. Авторы показали преимущество больших моделей и на сложных задачах рекомендаций: cold start, long tail, определяли траектории пользователей и смотрели, что происходит при мультидоменном трансфере — во всех случаях масштабирование улучшало результаты.

@RecSysChannel
Разбор подготовил ❣ Артем Матвеев

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥2❤1

8.61K views15:33

Data Science by ODS.ai 🦜

76-page survey paper on Prompting Techniques ✨

Explores structured understanding and taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities.

📌 The paper focuses on discrete prefix prompts rather than cloze prompts, because prefix prompts are widely used with modern LLM architectures like decoder-only models. It excludes soft prompts and techniques using gradient-based updates.

📌 The paper identifies 58 text-based prompting techniques broken into 6 major categories:

1) In-Context Learning (ICL) - learning from exemplars/instructions in the prompt

2) Zero-Shot - prompting without exemplars

3) Thought Generation - prompting the LLM to articulate reasoning

4) Decomposition - breaking down complex problems

5) Ensembling - using multiple prompts and aggregating outputs

6) Self-Criticism - having the LLM critique its own outputs

📌 For ICL, it discusses key design decisions like exemplar quantity, ordering, label quality, format, and similarity that critically influence output quality. It also covers ICL techniques like K-Nearest Neighbor exemplar selection.

📌 Extends the taxonomy to multilingual prompts, discussing techniques like translate-first prompting and cross-lingual ICL. It also covers multimodal prompts spanning image, audio, video, segmentation, and 3D modalities.

📌 More complex techniques like agents that access external tools, code generation, and retrieval augmented generation are also taxonomized. Evaluation techniques using LLMs are discussed.

📌 Prompting issues like security (prompt hacking), overconfidence, biases, and ambiguity are highlighted. Two case studies - benchmarking techniques on MMLU and an entrapment detection prompt engineering exercise - are presented.

https://arxiv.org/abs/2406.06608

@opendatascience

👍15🔥3❤2

11.7K viewsedited 19:00

Data Science by ODS.ai 🦜

This open-source RAG tool for chatting with your documents is Trending at Number-1 in Github from the past few days

🔍 Open-source RAG UI for document QA
🛠️ Supports local LLMs and API providers
📊 Hybrid RAG pipeline with full-text & vector retrieval
🖼️ Multi-modal QA with figures & tables support
📄 Advanced citations with in-browser PDF preview
🧠 Complex reasoning with question decomposition
⚙️ Configurable settings UI
🔧 Extensible Gradio-based architecture

Key features:

🌐 Host your own RAG web UI with multi-user login
🤖 Organize LLM & embedding models (local & API)
🔎 Hybrid retrieval + re-ranking for quality
📚 Multi-modal parsing and QA across documents
💡 Detailed citations with relevance scores
🧩 Question decomposition for complex queries
🎛️ Adjustable retrieval & generation settings
🔌 Customizable UI and indexing strategies

#rag #ml

▪ Github

@opendatascience

👍20❤8🔥4

13.8K views17:05

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 PuLID+FLUX: перенос внешности на генерации в FLUX .

PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.

PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:

🟢ID-кодер перенесен из структуры MLP в структуру Transformer;

🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT;

🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален;

🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU;

🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload, но генерация будет выполняться очень, очень, очень медленно.

В PuLID for FLUX есть два критически важных гиперпараметра:

timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.

true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.

Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.

Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:

🟠

собственная реализация сообщества ComfyUI;

🟠

diffusers-based implementation.

⚠️ Важно!

🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении;

🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1

▶️Установка и запуск GradioUI:

# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

# create conda env
conda create --name pulid python=3.10

# activate env
conda activate pulid

# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt

# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt

# Run Gradio UI
python app.py

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🟡

Demo

🟡

Google Collab

🖥

Github

@ai_machinelearning_big_data

#AI #ML #FLUX #GenAI #PuLID

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥7❤5

11.7K views15:07

Data Science by ODS.ai 🦜

Нейроредактор Яндекс Браузера: ключевые особенности масштабного ИИ-проекта

Яндекс доработал возможности YandexGPT, превратив их в отдельный инструмент — нейроредактор. Теперь это не просто набор функций, а полноценный редактор, который создаёт тексты, исправляет ошибки и улучшает стиль, интегрированный прямо в Браузер.

Эксперименты разработчиков:
> Переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками. Эксперименты дали ускорение в 2 раза без потери качества, стабилизировали поведение на длинных текстах и в среднем обеспечили +10% качества на открытых датасетах.

К чему пришли:
>Надежная поддержка Маркдауна: раньше нейроредактатор некорректно обращался с разметкой, мог удалить или добавить спецсимволы, что делало результат непредсказуемым. Теперь, благодаря обучению на размеченных текстах, ручному восстановлению разметки и переобучению модели, достигнуто точное сохранение разметки 1:1 в процессе исправления ошибок.
>Новые возможности: перефразирование, упрощение/усложнение, перевод стиля, свободный ввод указаний (кастомный промт). Последний приближает нейроредактор к диалоговым ИИ-системам, позволяя решать любую задачу преобразования текста, не выбивая из состояния потока.

▪️Хабр

@opendatascience

❤18🤡5👍3🔥2🥰1

9.39K views12:01

Data Science by ODS.ai 🦜

⚡️

Most of the models from Mistral are now available for free via the API

What is this attraction of unprecedented generosity? Your queries will probably be used to train new models (although this is not accurate).

https://docs.mistral.ai/getting-started/models/

#mistral #opensource

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥9❤5😱4👏2

10.5K views14:01

Data Science by ODS.ai 🦜

Яндекс запустил VLM в Нейро

Visual Language Model теперь работает в Поиске по картинкам и Умной камере Яндекса. ML-разработчик компании описал детали на Хабре.

VLM представляет собой новую стадию развития компьютерного зрения, расширяя возможности анализа изображений. Модель способна анализировать детали и отвечать на сложные вопросы пользователей. VLM решает многие задачи «из коробки», что делает её гибким инструментом. При небольшом дообучении она может достигать качества state-of-the-art в различных задачах компьютерного зрения.

🛠 Архитектура: LLM + картиночный энкодер + адаптер. В новом пайплайне VLM-рефразер и VLM-captioner

Подробности процесса создания и сравнение со старым LLM-пайплайном в статье:

▪️ Хабр

@opendatascience

👍20🔥11❤5😁1🤡1🌚1

8.87K views16:30

Data Science by ODS.ai 🦜

🥪 TripoSR (MIT license) is now available on , free for individual use!

💳 For commercial use, you can generate around 350 - 3D objects for just $1 using runpod_io's serverless infrastructure. 🔥

🧬code: https://github.com/VAST-AI-Research/TripoSR
📄paper: https://arxiv.org/abs/2403.02151
🍇runpod: https://github.com/camenduru/triposr-tost
🍊jupyter: https://github.com/camenduru/TripoSR-jupyter

@opendatascience

👍10🔥5❤4

10.1K viewsedited 22:24

Data Science by ODS.ai 🦜

✔️

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

New pipeline for selecting high-quality long-take videos and generating temporally dense captions.

Dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions.

🖥

Github: https://github.com/silentview/lvd-2m

📕

Paper: https://arxiv.org/abs/2410.10816v1

🖥

Dataset: https://paperswithcode.com/dataset/howto100m

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4🔥4

7.97K views18:31

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🌟 Branch-Train-MiX: метод получения MoE-модели

Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.

После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.

🟡

Страница проекта

🟡

Разбор метода

@ai_machinelearning_big_data

#MoE #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3🔥3

9.4K views13:00

Data Science by ODS.ai 🦜

🔥 NVIDIA silently release a Llama 3.1 70B fine-tune that outperforms
GPT-4o and Claude Sonnet 3.5

Llama 3.1 Nemotron 70B Instruct a further RLHFed model on
huggingface

🏆 85.0 on Arena Hard, 57.6 on AlpacaEval 2 LC, and 8.98 MT-Bench
🥇 Outperforms GPT-4o and Claude 3.5 Sonnet on these benchmarks
🍓 Can accurately answer "How many r's are in strawberry?"
🦙 Based on Llama-3.1-70B-Instruct and trained using RLHF (REINFORCE)
🧠 Released also Llama-3.1-Nemotron-70B-Reward #2 on RewardBench
🤗 Available on Hugging Face and NVIDIA

https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8

@opendatascience

🔥25👍7❤4😁3🍓1

10.9K viewsedited 14:02

Data Science by ODS.ai 🦜

Forwarded from CV Time

Minimalist Vision with Freeform Pixels

На ECCV-24 была секция, посвящённая низкоуровневому устройству систем компьютерного зрения. По настоящему low-level решение предложили в статье Minimalist Vision with Freeform Pixels, которая получила награду Best Paper Award. Авторы создали прототип полностью автономной по электропитанию камеры.

Вместо обычных матриц в камере используются 24 фотодиода. Перед каждым из них установлена маска-фильтр, которая выступает первым слоем нейросети. Оптическая передаточная функция маски зависит от задачи, под которую обучена камера.

По сути первый слой обеспечивает произвольную форму для каждого пикселя — против фиксированной квадратной у традиционных камер. А последующие слои выводят результат задачи. Так авторы демонстрируют возможность мониторинга рабочего пространства и оценки дорожного трафика при помощи всего лишь 8 пикселей из 24.

Кроме того, камера хорошо показала себя в задаче оценки освещённости помещения. Используя те же 8 пикселей, она сумела определить, какие из источников света были включены в каждый конкретный момент. При этом ни один из источников не был виден камере напрямую — она собирала информацию исходя из состояния помещения.

Помимо низкого энергопотребления, такой подход позволяет обеспечивать конфиденциальность людей в кадре, так как записываемой оптической информации недостаточно для восстановления деталей изображения. Прототип камеры оснащён микроконтроллером с Bluetooth. А с четырёх сторон расположены солнечные панели для получения электроэнергии.

Разбор подготовила ❣ Алиса Родионова
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍8

7.08K views11:06

Data Science by ODS.ai 🦜

⚡️

Яндекс открыл доступ к более мощному семейству моделей YandexGPT 4

Pro-версия и облегчённая Lite-версия поддерживают более сложные запросы, расширенный контекст, скрытые рассуждения и работу с внешними инструментами. Модели уже доступны через API в Yandex Cloud.

🤖 Pro-версия превосходит предыдущее поколение в 70% случаев, а Lite не уступает лучшей модели прошлого поколения.
🤖 В четыре раза увеличено количество токенов (до 32 тысяч), которое нейросеть может обрабатывать в промте.
🤖 Улучшенная работа с RAG-сценариями и снижение доли галлюцинаций.
🤖 Внедрены скрытые рассуждения (Chain-of-thoughts) для пошагового анализа проблем, выделения этапов и поиска решений.

https://habr.com/ru/companies/yandex/articles/852968/

@opendatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤11🤡9🔥3😁2

8.5K views12:30

About

Blog

Apps

Platform