Neural Networks | Нейронные сети

Mixture-of-Agents — простой способ улучшения ответов LLM

Сегодня рассмотрим статью, которая описывает метод улучшения результатов LLM на разных бенчмарках без дообучения. Он называется Mixture-of-Agents (MoA).

Суть метода заключается в использовании нескольких LLM для генерации ответов. Авторы статьи создали многослойную структуру с несколькими агентами — собственно, моделями — на каждом слое. На вход подавали один вопрос. Каждый из агентов давал ответ. Затем полученные данные агрегировались и вместе с промптом передавались на следующий слой, где процесс запускался заново.

В итоге получался ответ, который превосходит по качеству все предыдущие. Интересно то, что модели показывают лучшие результаты, когда имеют доступ к выходным данным других LLM — даже если ответы последних не слишком качественные. Этот феномен авторы назвали «коллаборативностью LLM» (Сollaborativeness of LLMs).

Эксперименты показали, что использование разных LLM на разных слоях улучшает результаты. Агрегаторы тоже играют важную роль — если пропоузеры могут быть относительно простыми и легкими, то агрегаторы требуют значительных вычислительных ресурсов.

Бенчмарки подтвердили, что MoA — эффективный метод. Скажем, на AlpacaEval 2.0 и MT-Bench применение такой архитектуры дало прирост производительности до 8% по сравнению с GPT-4 Omni.

Впрочем, MoA есть куда расти. Например, в области уменьшения времени до первого токена. Из-за итеративной агрегации конечному пользователю приходится долго ждать ответа на вопрос. Авторы статьи намерены бороться с этим недостатком.

Рассказывайте в комментариях, что думаете о MoA?

Разбор подготовил ❣ Никита Шевченко

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

1.79K views13:38

Neural Networks | Нейронные сети

1:54

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Midjourney стал бесплатным! Разработчики только что выпустили полноценную веб-версию и снова открыли free trial для всех!

Теперь на сайте можно не только создавать изображения, но и просматривать ленту с работами других пользователей, а также изучать лучшие промпты. Каждая ваша генерация автоматически сохраняется в библиотеке. Бонус: в веб-версии за одну генерацию вы получаете сразу 4 готовых изображения.

Создавайте уникальные картинки прямо на сайте!

2.1K views18:20

Neural Networks | Нейронные сети

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

👉 Трудности при обучении Алисы казахскому языку

ML-разработчики Яндекса рассказали, как устроен синтез речи у виртуального помощника и насколько сложно было обучить Алису новому языку. В частности, написали про работу с заимствованиями, агглютинацию и нормализацию.

@neural

2.02K views14:05

Neural Networks | Нейронные сети

Нейросетевая технология OmniCast помогает прогнозировать погоду с точностью до городского квартала

О создании новой, внедренной в Яндекс Погоду, технологии рассказали на Хабре. Разработчики поделились, как вообще Яндекс Погода создает прогноз и что изменилось с запуском OmniCast.

@neural

2K views17:38

Neural Networks | Нейронные сети

Forwarded from Yandex for Developers

👀

ICML 2024 глазами ML-лидов Яндекса

The International Conference on Machine Learning — одна из крупнейших международных конференций по машинному обучению.

➡️ В этом году её посетила делегация из 46 яндексоидов. Недавно впечатлениями делился наш коллега Владислав Офицеров, а теперь о своих наблюдениях рассказывают CTO Поиска Алексей Гусаков и ML Brand Director Пётр Ермаков — листайте карточки!

⭐️

Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь:

💬

@Yandex4Developers

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.57K views13:16

Neural Networks | Нейронные сети

Forwarded from Machinelearning

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 OmniRe: 3DGS-метод реконструкции и симуляции городской среды.

OmniRe - метод для целостной реконструкции городских среды с движущимися объектами по существующим видеозаписям.
Метод использует нейронный граф сцены и гауссовы представления для моделирования различных динамических объектов - транспортные средства, пешеходов и велосипедистов.

OmniRe реконструирует и оптимизирует всю композицию сцены за один этап: гауссовские атрибуты, положения объектов, позы людей и веса сети деформаций.

Способность целостного моделирования динамических объектов позволяет применять OmniRe в проектах управления транспортными средствами, моделирования дорожного движения и симуляции поведения человека в условиях городской среды.

Ограничения и недостатки:

🟠метод не моделирует световые эффекты при различных условиях освещения;
🟠OmniRe еще не умеет генерировать отсутствующие или исправлять некорректные ракурсы, когда камера значительно отклоняется от траекторий съемки.

Прикладное применения метода реализовано в виде фреймворка Drive Studio. Помимо имплементации метода OmniRe, он имеет ряд полезных функций:

🟢гибкое обучение с использованием нескольких камер;
🟢использование ядра растеризации gsplat с расширенными функциями абсолютных градиентов, сглаживания и т.д;
🟢уточнение ракурса камеры;
🟢уточнение границ для Bounding Box объектов в режиме GT;
🟢афинное преобразование экспозиции съемки для выравнивания освещенности.

Фреймворк поддерживает методы OmniRe, Deformable-GS, PVG, Street Gaussians с использованием набора данных Waymo, NuScenes, NuPlan, ArgoVerse, PandaSet, KITTI.

Планы по развитию Drive Studio:

🟢разработка средство просмотра в режиме реального времени;
🟢инструменты для редактирования и симуляции сцен;
🟢поддержка 2DGS, Surfels и других представлений.

⚠️ Важно! Перед началом обучения внимательно ознакомьтесь с инструкциями по подготовке наборов данных.

▶️Установка:

# Clone repository with submodules
git clone --recursive https://github.com/ziyc/drivestudio.git
cd drivestudio

# Create venv and install requirements
conda create -n drivestudio python=3.9 -y
conda activate drivestudio
pip install -r requirements.txt
pip install git+https://github.com/facebookresearch/pytorch3d.git
pip install git+https://github.com/NVlabs/nvdiffrast

# Set up for SMPL Gaussians
cd third_party/smplx/
pip install -e .
cd ../..

📌Лицензирование : MIT License.

🟡

Страница проекта

🟡

Arxiv

🖥

Github [ Stars: 117 | Issues: 1 | Forks: 7]

@ai_machinelearning_big_data

#AI #DriveStudio #ML #OmiRe #Gaussian

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.19K views15:18

Neural Networks | Нейронные сети

⚡️ Программа конференции Practical ML Conf о практическом применении ML

В этом году мероприятие пройдет 14 сентября. Среди наиболее интересных докладов:

— Ирина Барская, руководитель службы аналитики и исследований – «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
— Виктор Плошихин, руководитель ML-лаборатории в Yandex Platform Engineering — «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
— Савва Степурин, старший разработчик команды рекомендаций — «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».

Чтобы посетить конференцию офлайн или онлайн, необходимо заранее зарегистрироваться.

🔗 Подробности и регистрация

@neural

2.04K views08:03

Neural Networks | Нейронные сети

Forwarded from Искусственный интеллект. Высокие технологии

1:54

Media is too big

VIEW IN TELEGRAM

⚡️ Alibaba и Tencent представили нейросеть Minimax для создания видео из текста. Она способна быстро и качественно генерировать ролики с нуля, но с ограничением по длительности до 6 секунд.

Станет ли это конкурентом для Sora или очередным источником странных нейрогенераций? Узнать можно бесплатно после регистрации.

— Потребуется китайский;
— Работает только на ПК или в десктоп-версии на смартфоне.

• Попробовать

@vistehno

1.94K views12:11

Neural Networks | Нейронные сети

⚙️ Как работает кластерная якорная регуляризация в рекомендательных системах

ML-специалисты Яндекса разобрали метод от DeepMind, который применяется для YouTube Shorts. Якорная регуляризация помогает справиться с проблемой, когда обучение на логах юзеров может приводить к popularity bias.

@neural

2.21K views15:49

Neural Networks | Нейронные сети

Forwarded from Machinelearning

0:47

Media is too big

VIEW IN TELEGRAM

🌟 ICRT : Внутриконтекстное обучение имитации действия с помощью предсказания следующего токена.

In-Context Robot Transformer (ICRT) - модель, которая позволяет роботу выполнять новые задачи, интерпретируя контекстную информацию, предоставленную во время демонстрационной фазы, без обновления параметров базовой политики.

ICRT представляет собой причинно-следственный трансформер, который выполняет автоматический прогноз сенсомоторных траекторий без использования лингвистических данных или функции вознаграждения. Он позволяет гибко и без обучения выполнять новые задачи на основе наблюдений изображений, действий и состояний, собранных с помощью телеопераций человека.

Модель состоит из трех частей: предварительно обученного кодировщика изображений, серии проекторов для каждой из входных модальностей и каузального трансформера:

🟠Кодировщик изображений обрабатывает разноплановые наблюдения через трансформер, который был обучен на смеси данных ImageNet и Open X-Embodiment

🟠Проекторы преобразуют наблюдения, состояние робота и действия в общее латентное пространство для последующего моделирования

🟠Трансформер принимает на вход последовательность токенов, представляющих состояние робота и действия, и производит выходные данные, которые используются для управления роботом.

Для предварительного обучения модели использовался датасет DROID и созданный вручную мультизадачный датасет ICRT-Multi-Task (ICRT-MT - 1098 траекторий, 26 задач с 6 примитивами), который использовался в этапе дообучения.

Результаты экспериментов показывают, что ICRT способен обобщать незнакомые задачи и объекты, даже в средах, которые отличаются от демонстрационных.

▶️Установка:

# Create & activate venv
conda create -n icrt python=3.10 -y
conda activate icrt

# Install torch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia 
conda install -c conda-forge ffmpeg

# Clone the Repository
git clone https://github.com/Max-Fu/icrt.git
cd icrt

# Install required packages
pip install -e .

# Install git-lfs 
sudo apt install git-lfs
git lfs install

# Download checkpoints
git clone [email protected]:mlfu7/ICRT checkpoints

Пример инференса приведен в ноутбуке inference.ipynb. Перед его запуском обязательно ознакомьтесь с рекомендациями по загрузке и созданию собственного датасета.

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🟡

Dataset

🟡

Модель

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Robotics #ICRT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM