Forwarded from Machinelearning
OmniRe - метод для целостной реконструкции городских среды с движущимися объектами по существующим видеозаписям.
Метод использует нейронный граф сцены и гауссовы представления для моделирования различных динамических объектов - транспортные средства, пешеходов и велосипедистов.
OmniRe реконструирует и оптимизирует всю композицию сцены за один этап: гауссовские атрибуты, положения объектов, позы людей и веса сети деформаций.
Способность целостного моделирования динамических объектов позволяет применять OmniRe в проектах управления транспортными средствами, моделирования дорожного движения и симуляции поведения человека в условиях городской среды.
Ограничения и недостатки:
Прикладное применения метода реализовано в виде фреймворка Drive Studio. Помимо имплементации метода OmniRe, он имеет ряд полезных функций:
Фреймворк поддерживает методы OmniRe, Deformable-GS, PVG, Street Gaussians с использованием набора данных Waymo, NuScenes, NuPlan, ArgoVerse, PandaSet, KITTI.
Планы по развитию Drive Studio:
⚠️ Важно! Перед началом обучения внимательно ознакомьтесь с инструкциями по подготовке наборов данных.
# Clone repository with submodules
git clone --recursive https://github.com/ziyc/drivestudio.git
cd drivestudio
# Create venv and install requirements
conda create -n drivestudio python=3.9 -y
conda activate drivestudio
pip install -r requirements.txt
pip install git+https://github.com/facebookresearch/pytorch3d.git
pip install git+https://github.com/NVlabs/nvdiffrast
# Set up for SMPL Gaussians
cd third_party/smplx/
pip install -e .
cd ../..
@ai_machinelearning_big_data
#AI #DriveStudio #ML #OmiRe #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Программа конференции Practical ML Conf о практическом применении ML
В этом году мероприятие пройдет 14 сентября. Среди наиболее интересных докладов:
— Ирина Барская, руководитель службы аналитики и исследований – «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
— Виктор Плошихин, руководитель ML-лаборатории в Yandex Platform Engineering — «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
— Савва Степурин, старший разработчик команды рекомендаций — «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».
Чтобы посетить конференцию офлайн или онлайн, необходимо заранее зарегистрироваться.
🔗 Подробности и регистрация
@neural
В этом году мероприятие пройдет 14 сентября. Среди наиболее интересных докладов:
— Ирина Барская, руководитель службы аналитики и исследований – «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
— Виктор Плошихин, руководитель ML-лаборатории в Yandex Platform Engineering — «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
— Савва Степурин, старший разработчик команды рекомендаций — «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».
Чтобы посетить конференцию офлайн или онлайн, необходимо заранее зарегистрироваться.
🔗 Подробности и регистрация
@neural
Forwarded from Искусственный интеллект. Высокие технологии
Media is too big
VIEW IN TELEGRAM
⚡️ Alibaba и Tencent представили нейросеть Minimax для создания видео из текста. Она способна быстро и качественно генерировать ролики с нуля, но с ограничением по длительности до 6 секунд.
Станет ли это конкурентом для Sora или очередным источником странных нейрогенераций? Узнать можно бесплатно после регистрации.
— Потребуется китайский;
— Работает только на ПК или в десктоп-версии на смартфоне.
• Попробовать
@vistehno
Станет ли это конкурентом для Sora или очередным источником странных нейрогенераций? Узнать можно бесплатно после регистрации.
— Потребуется китайский;
— Работает только на ПК или в десктоп-версии на смартфоне.
• Попробовать
@vistehno
Forwarded from Machinelearning
In-Context Robot Transformer (ICRT) - модель, которая позволяет роботу выполнять новые задачи, интерпретируя контекстную информацию, предоставленную во время демонстрационной фазы, без обновления параметров базовой политики.
ICRT представляет собой причинно-следственный трансформер, который выполняет автоматический прогноз сенсомоторных траекторий без использования лингвистических данных или функции вознаграждения. Он позволяет гибко и без обучения выполнять новые задачи на основе наблюдений изображений, действий и состояний, собранных с помощью телеопераций человека.
Модель состоит из трех частей: предварительно обученного кодировщика изображений, серии проекторов для каждой из входных модальностей и каузального трансформера:
Для предварительного обучения модели использовался датасет DROID и созданный вручную мультизадачный датасет ICRT-Multi-Task (ICRT-MT - 1098 траекторий, 26 задач с 6 примитивами), который использовался в этапе дообучения.
Результаты экспериментов показывают, что ICRT способен обобщать незнакомые задачи и объекты, даже в средах, которые отличаются от демонстрационных.
# Create & activate venv
conda create -n icrt python=3.10 -y
conda activate icrt
# Install torch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
conda install -c conda-forge ffmpeg
# Clone the Repository
git clone https://github.com/Max-Fu/icrt.git
cd icrt
# Install required packages
pip install -e .
# Install git-lfs
sudo apt install git-lfs
git lfs install
# Download checkpoints
git clone [email protected]:mlfu7/ICRT checkpoints
Пример инференса приведен в ноутбуке inference.ipynb. Перед его запуском обязательно ознакомьтесь с рекомендациями по загрузке и созданию собственного датасета.
@ai_machinelearning_big_data
#AI #ML #Robotics #ICRT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами.
OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.
Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).
Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.
OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).
Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции по самостоятельному дообучению на вашем наборе демонстраций.
Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:
# Create venv
conda create -n openvla python=3.10 -y
conda activate openvla
# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y
# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .
# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation
@ai_machinelearning_big_data
#AI #ML #OpetVLA #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧬 Machine Learning: Медицинский дайджест 1.09-07.09 2024 г
https://habr.com/ru/articles/841870/
@neural
https://habr.com/ru/articles/841870/
@neural
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Крутая бесплатная нейросеть которая превращает любое видео в обучающий курс
Утилита
Всё, что нужно — вставить перед ссылкой
Утилита
study.new
загрузит видео, достанет из него всё самое важное и выдаст вам.Всё, что нужно — вставить перед ссылкой
study.new/
Forwarded from Искусственный интеллект. Высокие технологии
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Gen-3 video-to-video только что вышел
Runway Gen-3 представили новую функцию video-to-video!
Теперь можно загружать видео до 10 секунд и редактировать его с помощью текстовых команд.
Меняйте стиль, погоду, освещение и движения, при этом сохраняя детали и геометрию сцены. Новая функция доступна только для подписчиков.
https://runwayml.com/product
@vistehno
Runway Gen-3 представили новую функцию video-to-video!
Теперь можно загружать видео до 10 секунд и редактировать его с помощью текстовых команд.
Меняйте стиль, погоду, освещение и движения, при этом сохраняя детали и геометрию сцены. Новая функция доступна только для подписчиков.
https://runwayml.com/product
@vistehno
👉 Открытые решения в сфере ML/Data в России
Исследовательский центр ИТМО провел анализ использования Open Source в области машинного обучения и работы с данными в России. Результаты показали, что отечественные компании активно развивают и применяют открытые технологии, ориентируясь как на внутренний, так и на международный рынок.
Исследование также отмечает, что идея о том, что участие в опенсорс-разработках помогает конкурентам, постепенно теряет свою актуальность. Всё больше компаний нацелены на развитие всей отрасли.
Лидером среди российских разработчиков открытого ПО стали Яндекс, Сбер и Т-банк. У Яндекса насчитали 120 открытых решений, среди которых выделяются: CatBoost — библиотека для градиентного бустинга, YTsaurus — платформа для работы с большими данными и YDB — распределённая SQL база данных. Вне основного рейтинга был отмечен проект ClickHouse.
▪️ Источник: https://opensource.itmo.ru
@neural
Исследовательский центр ИТМО провел анализ использования Open Source в области машинного обучения и работы с данными в России. Результаты показали, что отечественные компании активно развивают и применяют открытые технологии, ориентируясь как на внутренний, так и на международный рынок.
Исследование также отмечает, что идея о том, что участие в опенсорс-разработках помогает конкурентам, постепенно теряет свою актуальность. Всё больше компаний нацелены на развитие всей отрасли.
Лидером среди российских разработчиков открытого ПО стали Яндекс, Сбер и Т-банк. У Яндекса насчитали 120 открытых решений, среди которых выделяются: CatBoost — библиотека для градиентного бустинга, YTsaurus — платформа для работы с большими данными и YDB — распределённая SQL база данных. Вне основного рейтинга был отмечен проект ClickHouse.
▪️ Источник: https://opensource.itmo.ru
@neural
Forwarded from Big Data AI
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчики Kling AI представили новый инструмент Motion Brush, который позволяет анимировать отдельные объекты в видео. Пользователи могут загружать изображения и задавать пути движения, просто нарисовав траекторию ✍️. Это дает возможность точно управлять движением до шести элементов одновременно, что делает видео более динамичными и увлекательными 🎥.
Среди ключевых функций Kling AI 1.5 — поддержка 1080p HD для улучшенного качества изображений и возможность комбинирования статических и анимированных объектов. Это позволяет авторам фиксировать определенные области, предотвращая нежелательные движения в финальном видео 🌟.
Kling Motion Brush — это революция в создании видео, открывающая новые горизонты для контент-креаторов! 🚀
Пробуем здесь.
#KlingAI #MotionBrush #AI #VideoCreation #Animation #DigitalArt
@bigdatai
Среди ключевых функций Kling AI 1.5 — поддержка 1080p HD для улучшенного качества изображений и возможность комбинирования статических и анимированных объектов. Это позволяет авторам фиксировать определенные области, предотвращая нежелательные движения в финальном видео 🌟.
Kling Motion Brush — это революция в создании видео, открывающая новые горизонты для контент-креаторов! 🚀
Пробуем здесь.
#KlingAI #MotionBrush #AI #VideoCreation #Animation #DigitalArt
@bigdatai
Forwarded from Machinelearning
WordLlama — это быстрый и легкий набор инструментов для обработки естественного языка для задач нечеткой дедупликации, оценки сходства и ранжирования слов.
Он оптимизирован для CPU и способен создавать эффективные представления текстовых лексем, используя компоненты из больших языковых моделей, например LLama3.
Ключевые особенности WordLlama:
Эксперименты на наборе данных MTEB показывают, что WordLlama превосходит GloVe 300d по всем показателям, несмотря на значительно меньший размер (16 МБ против >2 ГБ).
WordLlama демонстрирует высокую производительность в задачах кластеризации, реранжирования, классификации текстов и семантического поиска.
В будущем разработчики планируют добавить функции для семантического разделения текста, а также примеры блокнотов и конвейеры RAG.
@ai_machinelearning_big_data
#AI #ML #Toolkit #NLP #WordLlama
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Поисковая система Яндекса получила серьезное обновление: в Нейро интегрирована новая мультимодальная VLM
VLM представляют собой сложные системы с многоуровневой архитектурой и многоэтапным процессом обучения. Яндекс, например, использовал для обучения своей модели метод instruct-based pretrain с несколькими миллионами семплов. Эти и другие подробности о технологии VLM рассматриваются ML-разработчиком Яндекса на Хабре.
Внутри сравнительный анализ пайплайнов старой и новой версий Нейро. Если раньше система опиралась на отдельные LLM-модели, то теперь в её основе лежит интегрированный подход с использованием VLM-рефразера и VLM-captioner.
Для оценки качества работы VLM Яндекс использует не только стандартные численные метрики, но и метод Side-by-Side (SbS) с привлечением асессоров, которые оценивают грамотность, полноту ответа и отсутствие ошибок.
▪️ Источник: https://habr.com/ru/companies/yandex/articles/847706/
@neural
VLM представляют собой сложные системы с многоуровневой архитектурой и многоэтапным процессом обучения. Яндекс, например, использовал для обучения своей модели метод instruct-based pretrain с несколькими миллионами семплов. Эти и другие подробности о технологии VLM рассматриваются ML-разработчиком Яндекса на Хабре.
Внутри сравнительный анализ пайплайнов старой и новой версий Нейро. Если раньше система опиралась на отдельные LLM-модели, то теперь в её основе лежит интегрированный подход с использованием VLM-рефразера и VLM-captioner.
Для оценки качества работы VLM Яндекс использует не только стандартные численные метрики, но и метод Side-by-Side (SbS) с привлечением асессоров, которые оценивают грамотность, полноту ответа и отсутствие ошибок.
▪️ Источник: https://habr.com/ru/companies/yandex/articles/847706/
@neural
⚡️napkin — полезная нейросеть, которая поможет создать стильные графики и таблицы из любого текста.
Сервис создает несколько шаблонов на выбор, их элементы можно редактировать. Поддерживает сохранение в
https://app.napkin.ai/signin
Сервис создает несколько шаблонов на выбор, их элементы можно редактировать. Поддерживает сохранение в
PDF, PNG
или SVG. Ну и главное, приложение бесплатное https://app.napkin.ai/signin