Neural Networks | Нейронные сети
11.6K subscribers
739 photos
161 videos
170 files
9.4K links
Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263
Download Telegram
⚙️ Как работает кластерная якорная регуляризация в рекомендательных системах

ML-специалисты Яндекса разобрали метод от DeepMind, который применяется для YouTube Shorts. Якорная регуляризация помогает справиться с проблемой, когда обучение на логах юзеров может приводить к popularity bias.

@neural
Forwarded from Machinelearning
🌟 ICRT : Внутриконтекстное обучение имитации действия с помощью предсказания следующего токена.

In-Context Robot Transformer (ICRT) - модель, которая позволяет роботу выполнять новые задачи, интерпретируя контекстную информацию, предоставленную во время демонстрационной фазы, без обновления параметров базовой политики.

ICRT представляет собой причинно-следственный трансформер, который выполняет автоматический прогноз сенсомоторных траекторий без использования лингвистических данных или функции вознаграждения. Он позволяет гибко и без обучения выполнять новые задачи на основе наблюдений изображений, действий и состояний, собранных с помощью телеопераций человека.

Модель состоит из трех частей: предварительно обученного кодировщика изображений, серии проекторов для каждой из входных модальностей и каузального трансформера:

🟠Кодировщик изображений обрабатывает разноплановые наблюдения через трансформер, который был обучен на смеси данных ImageNet и Open X-Embodiment

🟠Проекторы преобразуют наблюдения, состояние робота и действия в общее латентное пространство для последующего моделирования

🟠Трансформер принимает на вход последовательность токенов, представляющих состояние робота и действия, и производит выходные данные, которые используются для управления роботом.

Для предварительного обучения модели использовался датасет DROID и созданный вручную мультизадачный датасет ICRT-Multi-Task (ICRT-MT - 1098 траекторий, 26 задач с 6 примитивами), который использовался в этапе дообучения.

Результаты экспериментов показывают, что ICRT способен обобщать незнакомые задачи и объекты, даже в средах, которые отличаются от демонстрационных.

▶️Установка:

# Create & activate venv
conda create -n icrt python=3.10 -y
conda activate icrt

# Install torch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
conda install -c conda-forge ffmpeg

# Clone the Repository
git clone https://github.com/Max-Fu/icrt.git
cd icrt

# Install required packages
pip install -e .

# Install git-lfs
sudo apt install git-lfs
git lfs install

# Download checkpoints
git clone [email protected]:mlfu7/ICRT checkpoints


Пример инференса приведен в ноутбуке inference.ipynb. Перед его запуском обязательно ознакомьтесь с рекомендациями по загрузке и созданию собственного датасета.


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Dataset
🟡Модель
🖥Github


@ai_machinelearning_big_data

#AI #ML #Robotics #ICRT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 OpenVLA: Open-Source Vision-Language-Action модели.

OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами.

OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.

Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).

Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.

OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).

Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции по самостоятельному дообучению на вашем наборе демонстраций.

Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:

🟢openvla-7b-prismatic - адаптация для использования с Prismatic VLMs project codebase;

🟢openvla-7b-finetuned-libero-spatial - - файнтюн с помощью LoRA на датасете LIBERO-Spatial бенчмарка LIBERO;

🟢openvla-7b-finetuned-libero-object - файнтюн с помощью LoRA на датасете LIBERO-Object;

🟢openvla/openvla-7b-finetuned-libero-10 - файнтюн с помощью LoRA на датасете LIBERO-10 (Long).

▶️Установка :

# Create venv 
conda create -n openvla python=3.10 -y
conda activate openvla

# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y

# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .

# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation


📌Лицензирование : MIT License.



🟡Страница проекта
🟡Arxiv
🟡Набор моделей
🖥Github


@ai_machinelearning_big_data

#AI #ML #OpetVLA #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧬 Machine Learning: Медицинский дайджест 1.09-07.09 2024 г

https://habr.com/ru/articles/841870/

@neural
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Крутая бесплатная нейросеть которая превращает любое видео в обучающий курс

Утилита study.new загрузит видео, достанет из него всё самое важное и выдаст вам.

Всё, что нужно — вставить перед ссылкой study.new/
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Gen-3 video-to-video только что вышел

Runway Gen-3 представили новую функцию video-to-video!

Теперь можно загружать видео до 10 секунд и редактировать его с помощью текстовых команд.

Меняйте стиль, погоду, освещение и движения, при этом сохраняя детали и геометрию сцены. Новая функция доступна только для подписчиков.

https://runwayml.com/product

@vistehno
👉 Открытые решения в сфере ML/Data в России

Исследовательский центр ИТМО
провел анализ использования Open Source в области машинного обучения и работы с данными в России. Результаты показали, что отечественные компании активно развивают и применяют открытые технологии, ориентируясь как на внутренний, так и на международный рынок.

Исследование также отмечает, что идея о том, что участие в опенсорс-разработках помогает конкурентам, постепенно теряет свою актуальность. Всё больше компаний нацелены на развитие всей отрасли.

Лидером среди российских разработчиков открытого ПО стали Яндекс, Сбер и Т-банк. У Яндекса насчитали 120 открытых решений, среди которых выделяются: CatBoost — библиотека для градиентного бустинга, YTsaurus — платформа для работы с большими данными и YDB — распределённая SQL база данных. Вне основного рейтинга был отмечен проект ClickHouse.

▪️ Источник: https://opensource.itmo.ru

@neural
Forwarded from Big Data AI
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчики Kling AI представили новый инструмент Motion Brush, который позволяет анимировать отдельные объекты в видео. Пользователи могут загружать изображения и задавать пути движения, просто нарисовав траекторию ✍️. Это дает возможность точно управлять движением до шести элементов одновременно, что делает видео более динамичными и увлекательными 🎥.

Среди ключевых функций Kling AI 1.5 — поддержка 1080p HD для улучшенного качества изображений и возможность комбинирования статических и анимированных объектов. Это позволяет авторам фиксировать определенные области, предотвращая нежелательные движения в финальном видео 🌟.

Kling Motion Brush — это революция в создании видео, открывающая новые горизонты для контент-креаторов! 🚀

Пробуем здесь.

#KlingAI #MotionBrush #AI #VideoCreation #Animation #DigitalArt

@bigdatai
Forwarded from Machinelearning
🌟 WordLlama: простой тулкит для NLP.

WordLlama — это быстрый и легкий набор инструментов для обработки естественного языка для задач нечеткой дедупликации, оценки сходства и ранжирования слов.

Он оптимизирован для CPU и способен создавать эффективные представления текстовых лексем, используя компоненты из больших языковых моделей, например LLama3.

Ключевые особенности WordLlama:

🟢Представления матрешки: пользователь могут обрезать измерения эмбеддинга по мере необходимости, 1024-dim может быть усечена до 64, 128, 256 или 512.

🟢Низкие требования к ресурсам: WordLlama эффективно работает на CPU, выполняя быстрый поиск токенов со средним пулом.

🟢Бинаризация: будущие обновления будут включать модели, которые можно упаковать в небольшие целочисленные массивы для более быстрых вычислений с использованием расстояния Хэмминга.

🟢Инференс только на основе NumPy: конструкция легкая и простая, что позволяет легко интегрировать ее в существующие рабочие процессы.

Эксперименты на наборе данных MTEB показывают, что WordLlama превосходит GloVe 300d по всем показателям, несмотря на значительно меньший размер (16 МБ против >2 ГБ).

WordLlama демонстрирует высокую производительность в задачах кластеризации, реранжирования, классификации текстов и семантического поиска.

В будущем разработчики планируют добавить функции для семантического разделения текста, а также примеры блокнотов и конвейеры RAG.


📌Лицензирование : MIT License.


🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #Toolkit #NLP #WordLlama
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Aibase — огромная коллекция нейросетей для любых задач! 🔥

🌟 Здесь на множество категорий разобраны сотни, если не тысячи различных нейросеток — для создания текста, кода, фото, видео, аудио и другого контента!

🔗 Посмотреть можно здесь: *клик*

@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Забавная нейросеть, которая "ломает" картинки

🌟 На сайте pika.art бесплатно (до десяти генераций в месяц) можно изменить элементы на картинках одним из нескольких способов — раздавить прессом, превратить в пластилин, расплавить и другие! Отличный способ, чтобы посмеяться над фото ваших друзей

🌟 На сайте простая регистрация через Google

🔗 Ссылка: *клик*

@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Поисковая система Яндекса получила серьезное обновление: в Нейро интегрирована новая мультимодальная VLM

VLM представляют собой сложные системы с многоуровневой архитектурой и многоэтапным процессом обучения. Яндекс, например, использовал для обучения своей модели метод instruct-based pretrain с несколькими миллионами семплов. Эти и другие подробности о технологии VLM рассматриваются ML-разработчиком Яндекса на Хабре.

Внутри сравнительный анализ пайплайнов старой и новой версий Нейро. Если раньше система опиралась на отдельные LLM-модели, то теперь в её основе лежит интегрированный подход с использованием VLM-рефразера и VLM-captioner.

Для оценки качества работы VLM Яндекс использует не только стандартные численные метрики, но и метод Side-by-Side (SbS) с привлечением асессоров, которые оценивают грамотность, полноту ответа и отсутствие ошибок.

▪️ Источник: https://habr.com/ru/companies/yandex/articles/847706/

@neural
⚡️napkin — полезная нейросеть, которая поможет создать стильные графики и таблицы из любого текста.

Сервис создает несколько шаблонов на выбор, их элементы можно редактировать. Поддерживает сохранение в PDF, PNG или SVG. Ну и главное, приложение бесплатное

https://app.napkin.ai/signin
Forwarded from Machinelearning
🌟 Ctrl-X: генерация T2I по структурным и визуальным референсам без необходимости обучения.

trl-X - метод, который позволяет управлять структурой и внешним видом изображений, создаваемых диффузионными моделями без необходимости дополнительного обучения или использования инструкций.

Ctrl-X предлагает управляемую генерацию, разделяя ее на две основные составляющие: сохранение пространственной структуры и семантически-осведомленный перенос стиля.

Для управления структурой используется прямая инъекция признаков сверточных слоев и карт внимания из входного изображения, который задает структуру.

Для переноса внешнего вида c входного источника применяется метод, основанный на статистике признаков, который учитывает пространственное соответствие между исходным и генерируемым изображениями.

Анализ карт внимания позволяет выявить семантические соответствия между ними и перенести стилистические характеристики с учетом их пространственного расположения.

Метод Ctrl-X не привязан к конкретным моделям и может применяться к любым диффузионным моделям T2I (текст-изображение) и T2V (текст-видео).

Программная реализация Ctrl-X на модели Stable Diffusion XL 1.0 поддерживает запуск с Gradio UI и инференс в CLI.

В обоих типах запуска Ctrl-X (Gradio и CLI) предусмотрена возможность оптимизации потребления VRAM : ключи запуска cpu_offload и disable_refiner.

Примерная утилизация VRAM для Gradio с использованием оптимизации выглядит следующим образом:

🟠no flags - 19 GB VRAM;

🟢cpu_offload - 13GB VRAM;

🟠disable_refiner - 15GB VRAM;

🟢cpu_offload + disable_refiner - 8 GB VRAM.

▶️Установка и запуск с Gradio или CLI:

# Clone the repository
git clone https://github.com/genforce/ctrl-x.git

# Create Conda environment
conda env create -f environment.yaml
conda activate ctrlx

# Run Gradio Demo
python app_ctrlx.py

# or run CLI inference
python run_ctrlx.py \
--structure_image assets/images/horse__point_cloud.jpg \
--appearance_image assets/images/horse.jpg \
--prompt "a photo of a horse standing on grass" \
--structure_prompt "a 3D point cloud of a horse"



🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusers #CtrlX
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM