Forwarded from Рекомендательная [RecSys Channel]
Законы масштабирования в больших моделях последовательных рекомендаций
Авторы из WeChat и Tencent разбирались, работают ли законы масштабирования нейросетей для рекомендательных систем. Главный вопрос — есть ли улучшение качества рекомендаций при увеличении количества обучаемых параметров? Короткий ответ — да.
Известно, что рост количества параметров моделей иногда коррелирует с улучшением качества решаемых задач. Больше всего работ посвящено законам масштабирования в языковых моделях. В них определяется эмпирическая зависимость функции потерь на отложенной выборке от характеристик обучения. Обычно рассматривают параметры энкодеров и/или декодеров. Для NLP зависимость в логарифмических координатах получается линейной.
В работе об SR авторы масштабировали декодер трансформера и вносили изменения в стратегии обучения, чтобы получить закон масштабирования для рекомендательных систем:
— Для слоёв в начале последовательности декодер-блоков применяли больший dropout-rate, а для слоёв на вершине — меньший, что позволило избежать оверфита.
— Сначала обучались с Adam до полной сходимости, а потом брали чекпоинты, с которых продолжали обучение при помощи SGD, потому что несмотря на лучшую сходимость, итоговый минимум у Adam получался хуже.
Историю взаимодействий форматировали как хронологическую последовательность ID айтемов. То есть задача решалась так же, как в случае с языковыми моделями. Исследователи не брали другую информацию (например, текст айтема), так как хотели изучить работу закона с т. з. поведения пользователя. Модели увеличивали до 0,8B параметров, сравнивая эффекты в разных диапазонах размеров.
Оказалось, закон масштабирования работает для SR-моделей даже в сценариях с ограниченным количеством данных. Авторы показали преимущество больших моделей и на сложных задачах рекомендаций: cold start, long tail, определяли траектории пользователей и смотрели, что происходит при мультидоменном трансфере — во всех случаях масштабирование улучшало результаты.
@RecSysChannel
Разбор подготовил❣ Артем Матвеев
Авторы из WeChat и Tencent разбирались, работают ли законы масштабирования нейросетей для рекомендательных систем. Главный вопрос — есть ли улучшение качества рекомендаций при увеличении количества обучаемых параметров? Короткий ответ — да.
Известно, что рост количества параметров моделей иногда коррелирует с улучшением качества решаемых задач. Больше всего работ посвящено законам масштабирования в языковых моделях. В них определяется эмпирическая зависимость функции потерь на отложенной выборке от характеристик обучения. Обычно рассматривают параметры энкодеров и/или декодеров. Для NLP зависимость в логарифмических координатах получается линейной.
В работе об SR авторы масштабировали декодер трансформера и вносили изменения в стратегии обучения, чтобы получить закон масштабирования для рекомендательных систем:
— Для слоёв в начале последовательности декодер-блоков применяли больший dropout-rate, а для слоёв на вершине — меньший, что позволило избежать оверфита.
— Сначала обучались с Adam до полной сходимости, а потом брали чекпоинты, с которых продолжали обучение при помощи SGD, потому что несмотря на лучшую сходимость, итоговый минимум у Adam получался хуже.
Историю взаимодействий форматировали как хронологическую последовательность ID айтемов. То есть задача решалась так же, как в случае с языковыми моделями. Исследователи не брали другую информацию (например, текст айтема), так как хотели изучить работу закона с т. з. поведения пользователя. Модели увеличивали до 0,8B параметров, сравнивая эффекты в разных диапазонах размеров.
Оказалось, закон масштабирования работает для SR-моделей даже в сценариях с ограниченным количеством данных. Авторы показали преимущество больших моделей и на сложных задачах рекомендаций: cold start, long tail, определяли траектории пользователей и смотрели, что происходит при мультидоменном трансфере — во всех случаях масштабирование улучшало результаты.
@RecSysChannel
Разбор подготовил
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2❤1
76-page survey paper on Prompting Techniques ✨
Explores structured understanding and taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities.
📌 The paper focuses on discrete prefix prompts rather than cloze prompts, because prefix prompts are widely used with modern LLM architectures like decoder-only models. It excludes soft prompts and techniques using gradient-based updates.
📌 The paper identifies 58 text-based prompting techniques broken into 6 major categories:
1) In-Context Learning (ICL) - learning from exemplars/instructions in the prompt
2) Zero-Shot - prompting without exemplars
3) Thought Generation - prompting the LLM to articulate reasoning
4) Decomposition - breaking down complex problems
5) Ensembling - using multiple prompts and aggregating outputs
6) Self-Criticism - having the LLM critique its own outputs
📌 For ICL, it discusses key design decisions like exemplar quantity, ordering, label quality, format, and similarity that critically influence output quality. It also covers ICL techniques like K-Nearest Neighbor exemplar selection.
📌 Extends the taxonomy to multilingual prompts, discussing techniques like translate-first prompting and cross-lingual ICL. It also covers multimodal prompts spanning image, audio, video, segmentation, and 3D modalities.
📌 More complex techniques like agents that access external tools, code generation, and retrieval augmented generation are also taxonomized. Evaluation techniques using LLMs are discussed.
📌 Prompting issues like security (prompt hacking), overconfidence, biases, and ambiguity are highlighted. Two case studies - benchmarking techniques on MMLU and an entrapment detection prompt engineering exercise - are presented.
https://arxiv.org/abs/2406.06608
@opendatascience
Explores structured understanding and taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities.
📌 The paper focuses on discrete prefix prompts rather than cloze prompts, because prefix prompts are widely used with modern LLM architectures like decoder-only models. It excludes soft prompts and techniques using gradient-based updates.
📌 The paper identifies 58 text-based prompting techniques broken into 6 major categories:
1) In-Context Learning (ICL) - learning from exemplars/instructions in the prompt
2) Zero-Shot - prompting without exemplars
3) Thought Generation - prompting the LLM to articulate reasoning
4) Decomposition - breaking down complex problems
5) Ensembling - using multiple prompts and aggregating outputs
6) Self-Criticism - having the LLM critique its own outputs
📌 For ICL, it discusses key design decisions like exemplar quantity, ordering, label quality, format, and similarity that critically influence output quality. It also covers ICL techniques like K-Nearest Neighbor exemplar selection.
📌 Extends the taxonomy to multilingual prompts, discussing techniques like translate-first prompting and cross-lingual ICL. It also covers multimodal prompts spanning image, audio, video, segmentation, and 3D modalities.
📌 More complex techniques like agents that access external tools, code generation, and retrieval augmented generation are also taxonomized. Evaluation techniques using LLMs are discussed.
📌 Prompting issues like security (prompt hacking), overconfidence, biases, and ambiguity are highlighted. Two case studies - benchmarking techniques on MMLU and an entrapment detection prompt engineering exercise - are presented.
https://arxiv.org/abs/2406.06608
@opendatascience
👍15🔥3❤2
This open-source RAG tool for chatting with your documents is Trending at Number-1 in Github from the past few days
🔍 Open-source RAG UI for document QA
🛠️ Supports local LLMs and API providers
📊 Hybrid RAG pipeline with full-text & vector retrieval
🖼️ Multi-modal QA with figures & tables support
📄 Advanced citations with in-browser PDF preview
🧠 Complex reasoning with question decomposition
⚙️ Configurable settings UI
🔧 Extensible Gradio-based architecture
Key features:
🌐 Host your own RAG web UI with multi-user login
🤖 Organize LLM & embedding models (local & API)
🔎 Hybrid retrieval + re-ranking for quality
📚 Multi-modal parsing and QA across documents
💡 Detailed citations with relevance scores
🧩 Question decomposition for complex queries
🎛️ Adjustable retrieval & generation settings
🔌 Customizable UI and indexing strategies
#rag #ml
▪ Github
@opendatascience
🔍 Open-source RAG UI for document QA
🛠️ Supports local LLMs and API providers
📊 Hybrid RAG pipeline with full-text & vector retrieval
🖼️ Multi-modal QA with figures & tables support
📄 Advanced citations with in-browser PDF preview
🧠 Complex reasoning with question decomposition
⚙️ Configurable settings UI
🔧 Extensible Gradio-based architecture
Key features:
🌐 Host your own RAG web UI with multi-user login
🤖 Organize LLM & embedding models (local & API)
🔎 Hybrid retrieval + re-ranking for quality
📚 Multi-modal parsing and QA across documents
💡 Detailed citations with relevance scores
🧩 Question decomposition for complex queries
🎛️ Adjustable retrieval & generation settings
🔌 Customizable UI and indexing strategies
#rag #ml
▪ Github
@opendatascience
👍20❤8🔥4
Forwarded from Machinelearning
PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.
PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:
--aggressive_offload
, но генерация будет выполняться очень, очень, очень медленно.В PuLID for FLUX есть два критически важных гиперпараметра:
timestep to start inserting ID
. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.true CFG scale
. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.
Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:
⚠️ Важно!
# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID
# create conda env
conda create --name pulid python=3.10
# activate env
conda activate pulid
# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt
# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt
# Run Gradio UI
python app.py
@ai_machinelearning_big_data
#AI #ML #FLUX #GenAI #PuLID
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥7❤5
Нейроредактор Яндекс Браузера: ключевые особенности масштабного ИИ-проекта
Яндекс доработал возможности YandexGPT, превратив их в отдельный инструмент — нейроредактор. Теперь это не просто набор функций, а полноценный редактор, который создаёт тексты, исправляет ошибки и улучшает стиль, интегрированный прямо в Браузер.
Эксперименты разработчиков:
> Переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками. Эксперименты дали ускорение в 2 раза без потери качества, стабилизировали поведение на длинных текстах и в среднем обеспечили +10% качества на открытых датасетах.
К чему пришли:
>Надежная поддержка Маркдауна: раньше нейроредактатор некорректно обращался с разметкой, мог удалить или добавить спецсимволы, что делало результат непредсказуемым. Теперь, благодаря обучению на размеченных текстах, ручному восстановлению разметки и переобучению модели, достигнуто точное сохранение разметки 1:1 в процессе исправления ошибок.
>Новые возможности: перефразирование, упрощение/усложнение, перевод стиля, свободный ввод указаний (кастомный промт). Последний приближает нейроредактор к диалоговым ИИ-системам, позволяя решать любую задачу преобразования текста, не выбивая из состояния потока.
▪️Хабр
@opendatascience
Яндекс доработал возможности YandexGPT, превратив их в отдельный инструмент — нейроредактор. Теперь это не просто набор функций, а полноценный редактор, который создаёт тексты, исправляет ошибки и улучшает стиль, интегрированный прямо в Браузер.
Эксперименты разработчиков:
> Переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками. Эксперименты дали ускорение в 2 раза без потери качества, стабилизировали поведение на длинных текстах и в среднем обеспечили +10% качества на открытых датасетах.
К чему пришли:
>Надежная поддержка Маркдауна: раньше нейроредактатор некорректно обращался с разметкой, мог удалить или добавить спецсимволы, что делало результат непредсказуемым. Теперь, благодаря обучению на размеченных текстах, ручному восстановлению разметки и переобучению модели, достигнуто точное сохранение разметки 1:1 в процессе исправления ошибок.
>Новые возможности: перефразирование, упрощение/усложнение, перевод стиля, свободный ввод указаний (кастомный промт). Последний приближает нейроредактор к диалоговым ИИ-системам, позволяя решать любую задачу преобразования текста, не выбивая из состояния потока.
▪️Хабр
@opendatascience
❤18🤡5👍3🔥2🥰1
What is this attraction of unprecedented generosity? Your queries will probably be used to train new models (although this is not accurate).
https://docs.mistral.ai/getting-started/models/
#mistral #opensource
@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥9❤5😱4👏1
Яндекс запустил VLM в Нейро
Visual Language Model теперь работает в Поиске по картинкам и Умной камере Яндекса. ML-разработчик компании описал детали на Хабре.
VLM представляет собой новую стадию развития компьютерного зрения, расширяя возможности анализа изображений. Модель способна анализировать детали и отвечать на сложные вопросы пользователей. VLM решает многие задачи «из коробки», что делает её гибким инструментом. При небольшом дообучении она может достигать качества state-of-the-art в различных задачах компьютерного зрения.
🛠 Архитектура: LLM + картиночный энкодер + адаптер. В новом пайплайне VLM-рефразер и VLM-captioner
Подробности процесса создания и сравнение со старым LLM-пайплайном в статье:
▪️ Хабр
@opendatascience
Visual Language Model теперь работает в Поиске по картинкам и Умной камере Яндекса. ML-разработчик компании описал детали на Хабре.
VLM представляет собой новую стадию развития компьютерного зрения, расширяя возможности анализа изображений. Модель способна анализировать детали и отвечать на сложные вопросы пользователей. VLM решает многие задачи «из коробки», что делает её гибким инструментом. При небольшом дообучении она может достигать качества state-of-the-art в различных задачах компьютерного зрения.
🛠 Архитектура: LLM + картиночный энкодер + адаптер. В новом пайплайне VLM-рефразер и VLM-captioner
Подробности процесса создания и сравнение со старым LLM-пайплайном в статье:
▪️ Хабр
@opendatascience
👍20🔥11❤4😁1🤡1🌚1
🥪 TripoSR (MIT license) is now available on , free for individual use!
💳 For commercial use, you can generate around 350 - 3D objects for just $1 using runpod_io's serverless infrastructure. 🔥
🧬code: https://github.com/VAST-AI-Research/TripoSR
📄paper: https://arxiv.org/abs/2403.02151
🍇runpod: https://github.com/camenduru/triposr-tost
🍊jupyter: https://github.com/camenduru/TripoSR-jupyter
@opendatascience
💳 For commercial use, you can generate around 350 - 3D objects for just $1 using runpod_io's serverless infrastructure. 🔥
🧬code: https://github.com/VAST-AI-Research/TripoSR
📄paper: https://arxiv.org/abs/2403.02151
🍇runpod: https://github.com/camenduru/triposr-tost
🍊jupyter: https://github.com/camenduru/TripoSR-jupyter
@opendatascience
👍10🔥5❤4
New pipeline for selecting high-quality long-take videos and generating temporally dense captions.
Dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions.
@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥4
Forwarded from Machinelearning
Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.
После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.
@ai_machinelearning_big_data
#MoE #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤3🔥3
🔥 NVIDIA silently release a Llama 3.1 70B fine-tune that outperforms
GPT-4o and Claude Sonnet 3.5
Llama 3.1 Nemotron 70B Instruct a further RLHFed model on
huggingface
🏆 85.0 on Arena Hard, 57.6 on AlpacaEval 2 LC, and 8.98 MT-Bench
🥇 Outperforms GPT-4o and Claude 3.5 Sonnet on these benchmarks
🍓 Can accurately answer "How many r's are in strawberry?"
🦙 Based on Llama-3.1-70B-Instruct and trained using RLHF (REINFORCE)
🧠 Released also Llama-3.1-Nemotron-70B-Reward #2 on RewardBench
🤗 Available on Hugging Face and NVIDIA
https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8
@opendatascience
GPT-4o and Claude Sonnet 3.5
Llama 3.1 Nemotron 70B Instruct a further RLHFed model on
huggingface
🏆 85.0 on Arena Hard, 57.6 on AlpacaEval 2 LC, and 8.98 MT-Bench
🥇 Outperforms GPT-4o and Claude 3.5 Sonnet on these benchmarks
🍓 Can accurately answer "How many r's are in strawberry?"
🦙 Based on Llama-3.1-70B-Instruct and trained using RLHF (REINFORCE)
🧠 Released also Llama-3.1-Nemotron-70B-Reward #2 on RewardBench
🤗 Available on Hugging Face and NVIDIA
https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8
@opendatascience
🔥25👍7❤4😁3🍓1
Forwarded from CV Time
Minimalist Vision with Freeform Pixels
На ECCV-24 была секция, посвящённая низкоуровневому устройству систем компьютерного зрения. По настоящему low-level решение предложили в статье Minimalist Vision with Freeform Pixels, которая получила награду Best Paper Award. Авторы создали прототип полностью автономной по электропитанию камеры.
Вместо обычных матриц в камере используются 24 фотодиода. Перед каждым из них установлена маска-фильтр, которая выступает первым слоем нейросети. Оптическая передаточная функция маски зависит от задачи, под которую обучена камера.
По сути первый слой обеспечивает произвольную форму для каждого пикселя — против фиксированной квадратной у традиционных камер. А последующие слои выводят результат задачи. Так авторы демонстрируют возможность мониторинга рабочего пространства и оценки дорожного трафика при помощи всего лишь 8 пикселей из 24.
Кроме того, камера хорошо показала себя в задаче оценки освещённости помещения. Используя те же 8 пикселей, она сумела определить, какие из источников света были включены в каждый конкретный момент. При этом ни один из источников не был виден камере напрямую — она собирала информацию исходя из состояния помещения.
Помимо низкого энергопотребления, такой подход позволяет обеспечивать конфиденциальность людей в кадре, так как записываемой оптической информации недостаточно для восстановления деталей изображения. Прототип камеры оснащён микроконтроллером с Bluetooth. А с четырёх сторон расположены солнечные панели для получения электроэнергии.
Разбор подготовила❣ Алиса Родионова
CV Time
На ECCV-24 была секция, посвящённая низкоуровневому устройству систем компьютерного зрения. По настоящему low-level решение предложили в статье Minimalist Vision with Freeform Pixels, которая получила награду Best Paper Award. Авторы создали прототип полностью автономной по электропитанию камеры.
Вместо обычных матриц в камере используются 24 фотодиода. Перед каждым из них установлена маска-фильтр, которая выступает первым слоем нейросети. Оптическая передаточная функция маски зависит от задачи, под которую обучена камера.
По сути первый слой обеспечивает произвольную форму для каждого пикселя — против фиксированной квадратной у традиционных камер. А последующие слои выводят результат задачи. Так авторы демонстрируют возможность мониторинга рабочего пространства и оценки дорожного трафика при помощи всего лишь 8 пикселей из 24.
Кроме того, камера хорошо показала себя в задаче оценки освещённости помещения. Используя те же 8 пикселей, она сумела определить, какие из источников света были включены в каждый конкретный момент. При этом ни один из источников не был виден камере напрямую — она собирала информацию исходя из состояния помещения.
Помимо низкого энергопотребления, такой подход позволяет обеспечивать конфиденциальность людей в кадре, так как записываемой оптической информации недостаточно для восстановления деталей изображения. Прототип камеры оснащён микроконтроллером с Bluetooth. А с четырёх сторон расположены солнечные панели для получения электроэнергии.
Разбор подготовила
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍8
Pro-версия и облегчённая Lite-версия поддерживают более сложные запросы, расширенный контекст, скрытые рассуждения и работу с внешними инструментами. Модели уже доступны через API в Yandex Cloud.
🤖 Pro-версия превосходит предыдущее поколение в 70% случаев, а Lite не уступает лучшей модели прошлого поколения.
🤖 В четыре раза увеличено количество токенов (до 32 тысяч), которое нейросеть может обрабатывать в промте.
🤖 Улучшенная работа с RAG-сценариями и снижение доли галлюцинаций.
🤖 Внедрены скрытые рассуждения (Chain-of-thoughts) для пошагового анализа проблем, выделения этапов и поиска решений.
https://habr.com/ru/companies/yandex/articles/852968/
@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤11🤡9🔥3😁2