Neural Networks | Нейронные сети – Telegram

Neural Networks | Нейронные сети

11.6K subscribers

775 photos

176 videos

170 files

9.43K links

Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263

Download Telegram

About

Blog

Apps

Platform

Neural Networks | Нейронные сети

11.6K subscribers

Neural Networks | Нейронные сети

⚙️ Как работает кластерная якорная регуляризация в рекомендательных системах

ML-специалисты Яндекса разобрали метод от DeepMind, который применяется для YouTube Shorts. Якорная регуляризация помогает справиться с проблемой, когда обучение на логах юзеров может приводить к popularity bias.

@neural

2.21K views15:49

Neural Networks | Нейронные сети

Forwarded from Machinelearning

Media is too big

VIEW IN TELEGRAM

🌟 ICRT : Внутриконтекстное обучение имитации действия с помощью предсказания следующего токена.

In-Context Robot Transformer (ICRT) - модель, которая позволяет роботу выполнять новые задачи, интерпретируя контекстную информацию, предоставленную во время демонстрационной фазы, без обновления параметров базовой политики.

ICRT представляет собой причинно-следственный трансформер, который выполняет автоматический прогноз сенсомоторных траекторий без использования лингвистических данных или функции вознаграждения. Он позволяет гибко и без обучения выполнять новые задачи на основе наблюдений изображений, действий и состояний, собранных с помощью телеопераций человека.

Модель состоит из трех частей: предварительно обученного кодировщика изображений, серии проекторов для каждой из входных модальностей и каузального трансформера:

🟠Кодировщик изображений обрабатывает разноплановые наблюдения через трансформер, который был обучен на смеси данных ImageNet и Open X-Embodiment

🟠Проекторы преобразуют наблюдения, состояние робота и действия в общее латентное пространство для последующего моделирования

🟠Трансформер принимает на вход последовательность токенов, представляющих состояние робота и действия, и производит выходные данные, которые используются для управления роботом.

Для предварительного обучения модели использовался датасет DROID и созданный вручную мультизадачный датасет ICRT-Multi-Task (ICRT-MT - 1098 траекторий, 26 задач с 6 примитивами), который использовался в этапе дообучения.

Результаты экспериментов показывают, что ICRT способен обобщать незнакомые задачи и объекты, даже в средах, которые отличаются от демонстрационных.

▶️Установка:

# Create & activate venv
conda create -n icrt python=3.10 -y
conda activate icrt

# Install torch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia 
conda install -c conda-forge ffmpeg

# Clone the Repository
git clone https://github.com/Max-Fu/icrt.git
cd icrt

# Install required packages
pip install -e .

# Install git-lfs 
sudo apt install git-lfs
git lfs install

# Download checkpoints
git clone [email protected]:mlfu7/ICRT checkpoints

Пример инференса приведен в ноутбуке inference.ipynb. Перед его запуском обязательно ознакомьтесь с рекомендациями по загрузке и созданию собственного датасета.

📌Лицензирование : Apache 2.0 License.

🟡

🟡

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Robotics #ICRT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.13K views10:26

Neural Networks | Нейронные сети

Forwarded from Machinelearning

🌟 OpenVLA: Open-Source Vision-Language-Action модели.

OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами.

OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.

Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).

Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.

OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).

Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции по самостоятельному дообучению на вашем наборе демонстраций.

Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:

🟢

openvla-7b-prismatic - адаптация для использования с Prismatic VLMs project codebase;

🟢

openvla-7b-finetuned-libero-spatial - - файнтюн с помощью LoRA на датасете LIBERO-Spatial бенчмарка LIBERO;

🟢

openvla-7b-finetuned-libero-object - файнтюн с помощью LoRA на датасете LIBERO-Object;

🟢

openvla/openvla-7b-finetuned-libero-10 - файнтюн с помощью LoRA на датасете LIBERO-10 (Long).

▶️Установка :

# Create venv 
conda create -n openvla python=3.10 -y
conda activate openvla

# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y

# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .

# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation

📌Лицензирование : MIT License.

🟡

Страница проекта

🟡

🟡

Набор моделей

🖥

Github

@ai_machinelearning_big_data

#AI #ML #OpetVLA #Robotics

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.96K views08:14

Neural Networks | Нейронные сети

🧬 Machine Learning: Медицинский дайджест 1.09-07.09 2024 г

https://habr.com/ru/articles/841870/

@neural

2.36K views09:21

Neural Networks | Нейронные сети

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Крутая бесплатная нейросеть которая превращает любое видео в обучающий курс

Утилита study.new загрузит видео, достанет из него всё самое важное и выдаст вам.

Всё, что нужно — вставить перед ссылкой study.new/

2.6K views13:03

Neural Networks | Нейронные сети

Forwarded from Искусственный интеллект. Высокие технологии

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Gen-3 video-to-video только что вышел

Runway Gen-3 представили новую функцию video-to-video!

Теперь можно загружать видео до 10 секунд и редактировать его с помощью текстовых команд.

Меняйте стиль, погоду, освещение и движения, при этом сохраняя детали и геометрию сцены. Новая функция доступна только для подписчиков.

https://runwayml.com/product

@vistehno

2.31K views09:13

Neural Networks | Нейронные сети

👉 Открытые решения в сфере ML/Data в России

Исследовательский центр ИТМО провел анализ использования Open Source в области машинного обучения и работы с данными в России. Результаты показали, что отечественные компании активно развивают и применяют открытые технологии, ориентируясь как на внутренний, так и на международный рынок.

Исследование также отмечает, что идея о том, что участие в опенсорс-разработках помогает конкурентам, постепенно теряет свою актуальность. Всё больше компаний нацелены на развитие всей отрасли.

Лидером среди российских разработчиков открытого ПО стали Яндекс, Сбер и Т-банк. У Яндекса насчитали 120 открытых решений, среди которых выделяются: CatBoost — библиотека для градиентного бустинга, YTsaurus — платформа для работы с большими данными и YDB — распределённая SQL база данных. Вне основного рейтинга был отмечен проект ClickHouse.

▪️ Источник: https://opensource.itmo.ru

@neural

2.42K views13:04

Neural Networks | Нейронные сети

Forwarded from Big Data AI

This media is not supported in your browser

VIEW IN TELEGRAM

Разработчики Kling AI представили новый инструмент Motion Brush, который позволяет анимировать отдельные объекты в видео. Пользователи могут загружать изображения и задавать пути движения, просто нарисовав траекторию ✍️. Это дает возможность точно управлять движением до шести элементов одновременно, что делает видео более динамичными и увлекательными 🎥.

Среди ключевых функций Kling AI 1.5 — поддержка 1080p HD для улучшенного качества изображений и возможность комбинирования статических и анимированных объектов. Это позволяет авторам фиксировать определенные области, предотвращая нежелательные движения в финальном видео 🌟.

Kling Motion Brush — это революция в создании видео, открывающая новые горизонты для контент-креаторов! 🚀

Пробуем здесь.

#KlingAI #MotionBrush #AI #VideoCreation #Animation #DigitalArt

@bigdatai

2.08K views13:37

Neural Networks | Нейронные сети

Forwarded from Machinelearning

🌟 WordLlama: простой тулкит для NLP.

WordLlama — это быстрый и легкий набор инструментов для обработки естественного языка для задач нечеткой дедупликации, оценки сходства и ранжирования слов.

Он оптимизирован для CPU и способен создавать эффективные представления текстовых лексем, используя компоненты из больших языковых моделей, например LLama3.

Ключевые особенности WordLlama:

🟢Представления матрешки: пользователь могут обрезать измерения эмбеддинга по мере необходимости, 1024-dim может быть усечена до 64, 128, 256 или 512.

🟢Низкие требования к ресурсам: WordLlama эффективно работает на CPU, выполняя быстрый поиск токенов со средним пулом.

🟢Бинаризация: будущие обновления будут включать модели, которые можно упаковать в небольшие целочисленные массивы для более быстрых вычислений с использованием расстояния Хэмминга.

🟢Инференс только на основе NumPy: конструкция легкая и простая, что позволяет легко интегрировать ее в существующие рабочие процессы.

Эксперименты на наборе данных MTEB показывают, что WordLlama превосходит GloVe 300d по всем показателям, несмотря на значительно меньший размер (16 МБ против >2 ГБ).

WordLlama демонстрирует высокую производительность в задачах кластеризации, реранжирования, классификации текстов и семантического поиска.

В будущем разработчики планируют добавить функции для семантического разделения текста, а также примеры блокнотов и конвейеры RAG.

📌Лицензирование : MIT License.

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Toolkit #NLP #WordLlama

Please open Telegram to view this post

VIEW IN TELEGRAM

2.89K views10:57

Neural Networks | Нейронные сети

🖥

Aibase — огромная коллекция нейросетей для любых задач! 🔥

🌟 Здесь на множество категорий разобраны сотни, если не тысячи различных нейросеток — для создания текста, кода, фото, видео, аудио и другого контента!

🔗 Посмотреть можно здесь: *клик*

@neural

Please open Telegram to view this post

VIEW IN TELEGRAM

3.11K viewsedited 17:56

Neural Networks | Нейронные сети

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Забавная нейросеть, которая "ломает" картинки

🌟 На сайте pika.art бесплатно (до десяти генераций в месяц) можно изменить элементы на картинках одним из нескольких способов — раздавить прессом, превратить в пластилин, расплавить и другие! Отличный способ, чтобы посмеяться над фото ваших друзей

🌟 На сайте простая регистрация через Google

🔗 Ссылка: *клик*

@neural

Please open Telegram to view this post

VIEW IN TELEGRAM

2.85K viewsedited 08:07

Neural Networks | Нейронные сети

⚙️ Поисковая система Яндекса получила серьезное обновление: в Нейро интегрирована новая мультимодальная VLM

VLM представляют собой сложные системы с многоуровневой архитектурой и многоэтапным процессом обучения. Яндекс, например, использовал для обучения своей модели метод instruct-based pretrain с несколькими миллионами семплов. Эти и другие подробности о технологии VLM рассматриваются ML-разработчиком Яндекса на Хабре.

Внутри сравнительный анализ пайплайнов старой и новой версий Нейро. Если раньше система опиралась на отдельные LLM-модели, то теперь в её основе лежит интегрированный подход с использованием VLM-рефразера и VLM-captioner.

Для оценки качества работы VLM Яндекс использует не только стандартные численные метрики, но и метод Side-by-Side (SbS) с привлечением асессоров, которые оценивают грамотность, полноту ответа и отсутствие ошибок.

▪️ Источник: https://habr.com/ru/companies/yandex/articles/847706/

@neural

3.09K views16:01

Neural Networks | Нейронные сети

⚡️napkin — полезная нейросеть, которая поможет создать стильные графики и таблицы из любого текста.

Сервис создает несколько шаблонов на выбор, их элементы можно редактировать. Поддерживает сохранение в PDF, PNG или SVG. Ну и главное, приложение бесплатное

https://app.napkin.ai/signin

4.61K views10:35

Neural Networks | Нейронные сети

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Ctrl-X: генерация T2I по структурным и визуальным референсам без необходимости обучения.

trl-X - метод, который позволяет управлять структурой и внешним видом изображений, создаваемых диффузионными моделями без необходимости дополнительного обучения или использования инструкций.

Ctrl-X предлагает управляемую генерацию, разделяя ее на две основные составляющие: сохранение пространственной структуры и семантически-осведомленный перенос стиля.

Для управления структурой используется прямая инъекция признаков сверточных слоев и карт внимания из входного изображения, который задает структуру.

Для переноса внешнего вида c входного источника применяется метод, основанный на статистике признаков, который учитывает пространственное соответствие между исходным и генерируемым изображениями.

Анализ карт внимания позволяет выявить семантические соответствия между ними и перенести стилистические характеристики с учетом их пространственного расположения.

Метод Ctrl-X не привязан к конкретным моделям и может применяться к любым диффузионным моделям T2I (текст-изображение) и T2V (текст-видео).

Программная реализация Ctrl-X на модели Stable Diffusion XL 1.0 поддерживает запуск с Gradio UI и инференс в CLI.

В обоих типах запуска Ctrl-X (Gradio и CLI) предусмотрена возможность оптимизации потребления VRAM : ключи запуска cpu_offload и disable_refiner.

Примерная утилизация VRAM для Gradio с использованием оптимизации выглядит следующим образом:

🟠no flags - 19 GB VRAM;

🟢cpu_offload - 13GB VRAM;

🟠disable_refiner - 15GB VRAM;

🟢cpu_offload + disable_refiner - 8 GB VRAM.

▶️Установка и запуск с Gradio или CLI:

# Clone the repository
git clone https://github.com/genforce/ctrl-x.git

# Create Conda environment
conda env create -f environment.yaml
conda activate ctrlx

# Run Gradio Demo
python app_ctrlx.py

# or run CLI inference
python run_ctrlx.py \
    --structure_image assets/images/horse__point_cloud.jpg \
    --appearance_image assets/images/horse.jpg \
    --prompt "a photo of a horse standing on grass" \
    --structure_prompt "a 3D point cloud of a horse"

🟡

Страница проекта

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Diffusers #CtrlX

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5.1K views18:15