Machinelearning

🌟

VSI-Bench: бенчмарк для оценки визуально-пространственного восприятия MMLM.

VSI-Bench - видео-бенчмарк из 5130 пар "вопрос-ответ" основанных на 288 видеозаписях реальных сцен. Видеоматериалы были собраны из публичных датасетов ScanNet, ScanNet++ и ARKitScenes и содержат типы пространств: жилые помещения, офисы и производственные объекты.

Бенчмарк структурирован в виде 8 задач, классифицированных по трем категориям: конфигурационные, измерительные и пространственно-временные:

🟢Конфигурационные задачи определяют количество объектов, измеряют относительные расстояния и направления и планируют маршруты.

🟢Измерительные - определяют размеры объектов, помещений и абсолютные расстояния.

🟢Пространственно-временные задачи выполняют оценку способности тестируемой MMLM к запоминанию последовательности появления объектов в видео.

▶️Структура датасета:

🟠

idx - номер записи в датасете;

🟠

dataset - источник видео (датасет): scannet, arkitscenes or scannetpp;

🟠

scene_name - название видео;

🟠

question_type - тип вопроса;

🟠

question - вопрос;

🟠

options - варианты ответа на вопрос, если возможен множественный выбор;

🟠

ground_truth - правильный ответ на вопрос.

Возможности VSI-Bench оценивались с 15 MLLM, поддерживающих видеоформат: Gemini-1.5, GPT-4o, InternVL2, ViLA, LongViLA, LongVA, LLaVA-OneVision и LLaVA-NeXT-Video.

Оценка проводилась в режиме zero-shot с применением стандартных запросов для каждой модели. В качестве метрик для задач с множественным выбором использовалась Accuracy (ACC), а для задач с числовыми ответами — Mean Relative Accuracy (MRA).

Результаты оценки показали, что, несмотря на достижение значительных результатов топовыми моделями, их производительность все еще уступает человеческой. Люди демонстрируют среднюю точность в 79%, в то время как MLLM с высшим результатом (Gemini-1.5 Pro) показывают более низкие показатели (48.8%).

Использование стандартных лингвистических техник: chain-of-thought, self-consistency и tree-of-thoughts не привели к улучшению результатов. Анализ ошибок выявил, что основная проблема для моделей - пространственное рассуждение, а не визуальное восприятие, NLP-навыки или обработка временных данных.

▶️Локальная установка и запуск evaluation скрипта для нескольких моделей:

# Create conda env
conda create --name vsibench python=3.10
conda activate vsibench

# Clone repo
git clone [email protected]:vision-x-nyu/thinking-in-space.git
cd thinking-in-space

# Update submodules
git submodule update --init --recursive

# Install requirements
cd transformers && pip install -e . && cd ..
pip install -e .
pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales
pip install deepspeed

# Run all-in-one evaluation script
bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

📌Лицензирование: Apache 2.0 License.

🟡

Страница проекта

🟡

Датасет

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #Benchmark #VSIBench

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29❤12✍7🔥3🤨1

21.5K views12:01

Machinelearning

🖥

nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌

GitHub

📌

Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥43👍22❤8

21.8K views17:04

Machinelearning

🖥

NVIDIA представила видеокарты серии RTX 50 — всего четыре модели.

RTX 5090 оказалась в 1,5 раза производительнее предыдущей версии RTX 4090! Более того, благодаря технологии DLSS 4, даже самая доступная модель RTX 5070 за $550 способна обеспечить производительность на уровне RTX 4090.

Мы все ожидали от RTX 5090, крутые характеристики и все такое. Но все ли поняли, что Дженсен сказал о графике?

Что новая карта использует нейронные сети для генерации 90+% пикселей в играх?

Традиционные алгоритмы трассировки лучей отрисовывают только ~10%, своего рода «скетч», а затем генеративная модель заполняет остальные мелкие детали. За один проход в режиме реального времени.

ИИ - это новый уровень графики, дамы и господа.

Цены и технические характеристики:

GeForce RTX 5090:
- Процессор: GB202-300
- CUDA-ядер: 21 760
- Память: 32 ГБ GDDR7 (1792 Гбайт/с)
- Шина: 512 бит
- Потребление энергии: 575 Вт
- Цена: $1999

GeForce RTX 5080:
- Процессор: GB203-400
- CUDA-ядер: 10 752
- Память: 16 ГБ GDDR7 (960 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 360 Вт
- Цена: $999

GeForce RTX 5070 Ti:
- Процессор: GB203-300
- CUDA-ядер: 8 960
- Память: 16 ГБ GDDR7 (896 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 300 Вт
- Цена: $749

GeForce RTX 5070:
- Процессор: GB205-300
- CUDA-ядер: 6 144
- Память: 12 ГБ GDDR7 (672 Гбайт/с)
- Шина: 192 бит
- Потребление энергии: 250 Вт
- Цена: $549

Продажи стартуют уже в этом месяце!

Еще NVIDIA анонсировали проект DIGITS — персональный суперкомпьютер на базе искусственного интеллекта стоимостью 3000 долларов, который настолько мал, что выглядит как Mac Mini, но при этом в 1000 раз мощнее среднестатистического ноутбука.

Обрабатывает модели ИИ с максимальным количеством параметров 200 МИЛЛИАРДОВ.

Это невероятно..

@ai_machinelearning_big_data

#nvidia

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍97🔥39❤22😢4🤬3👏2🤔1

31.4K views04:14

Machinelearning

🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов.

Лицензия MIT!

🤗 HF: https://huggingface.co/microsoft/phi-4

🧠

Demo: https://huggingface.co/spaces/Tonic/Phi-4

@ai_machinelearning_big_data

#phi4 #llm #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍68❤18🔥11🤔2🤬1😐1

25.5K views19:25

Machinelearning

⚡Microsoft на высоте!

rStar-Math SoTA для решения математических задач с точностью 90,0% (по сравнению с 58,8% Qwen2.5-Math-7B) и 86,4% (по сравнению с 41,4% Phi3-mini-3.8B), 🔥

превосходя o1-preview на 4,5% и 0,9%, решает 53,3% задач математической олимпиады США, попадая в 20% лучших математиков старшей школы

Код будет опубликован в ближайшее время! 🤗

https://huggingface.co/papers/2501.04519с

@ai_machinelearning_big_data

#microsoft #llm

❤64👍36🔥23🤔4❤‍🔥1🤩1

15.8K viewsedited 09:46

Machinelearning

⚡️🔥 Недавно Google Cloud выпустил «Руководство разработчика PyTorch по основам JAX».

Jax – это фреймворк для машинного обучения, подобный PyTorch и TensorFlow.

Его разработали в Deepmind, хотя он не является официальным продуктом Google, он остается популярным.

Jax объединяет Autograd и XLA (Accelerated Linear Algebra - компилятор с открытым исходным кодом для машинного обучения) для обеспечения высокопроизводительных численных вычислений.

Созданный на основе NumPy, его синтаксис следует той же структуре, что делает его простым выбором для разработчиков.

В этом руководстве содержится пошаговый гайд по реализации простой нейронной сети на Pytorch (JAX + Flax NNX) для тех, кто хочет начать работать с JAX.

📌 Читать
📌Документация Jax

@ai_machinelearning_big_data

#jax #pytorch #google

🔥56👍21❤10❤‍🔥1

28.1K viewsedited 05:31

Machinelearning

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

📲 Diffusion Explainer - визуализация, которая поможет понять работу моделей, основанных на диффузии:

⭐️Визуал, который будет понятен каждому
⭐️Работает в браузере
⭐️Отличное наглядное объяснение того, как модели диффузии генерируют изображения.

https://poloclub.github.io/diffusion-explainer

▪Diffusion explainer
▪Github
▪Статья
▪Видео

@ai_machinelearning_big_data

#diffusion #tutorial #ml

❤54👍26🔥21

19.5K views06:29

Machinelearning

💻

ACU - Awesome Agents for Computer Use

Проект, который содержит тщательно отобранный перечень ресурсов о ИИ-агентах, предназначенных для автономной работы на ваших компьютерах.

В него включены научные исследования, проекты, фреймворки, гайды и различные инструменты.

Агенты поддерживают функции анализа задач и принятия решений для взаимодействия с любыми интерфейсам.

▪ Github

@ai_machinelearning_big_data

#aiagents #awesome #agents

Please open Telegram to view this post

VIEW IN TELEGRAM

👍43❤14🥰3😨1💘1

15.2K views14:22

Machinelearning

🦑 SQL Squid Game: 9 уровней. 1 работа Дата Сайентиста. Ваша жизнь на кону 🔫.

Развлечение на выходные - Игра в Кальмара с SQL. Это бесплатный образовательный тренажер по работе с БД, по мотивам Netflix's Squid Game, SQL Murder Mystery и других известных SQL-игр.

❓О чем игра?
Вы только что были приняты на работу в качестве Дата Сайентиста в загадочную организацию Squid Game.

Таинственный работодатель, управляющий игрой, пообещал вам полностью удаленную работу, на которой вы будете составлять промпты, работать с pandas и генеративным ИИ

Но, как это обычно бывает в индустрии данных, вас подставили и обманули.

Оказалось, что работа связана с аналитикой данных на SQL, а работа не полностью удаленная, а гибридная: 5 дней в офисе, а 2 дня удаленно.

Не успели вы отказаться от работы , как работодатель приставил к вашей голове пистолет и начал требовать ответов на различные бизнес-вопросы.

Вы должны написать SQL-запросы, чтобы ответить ему - иначе вас ждет печальный конец 💀

📌 Как играть

- На каждом уровне вам будут даны задачи, а также одна или несколько таблиц и их схема.

Вам будет дана ячейка решения, в которую вы должны будете записать свое решение и отправить его на проверку.

Каждый уровень становится сложнее.

PS: Для прохождения SQL Squid Games, вам нужно хорошо знать SQL.А если хотите освежить свои знания или выучить SQL с нуля, вот 33 интерактивных уроков от Datalemur.

📲 Начать игру

@ai_machinelearning_big_data

#sql #tutorial #educationalgame

👍49🔥27❤14🆒5❤‍🔥1

51K views17:22

Machinelearning

✔ Google Research выпустили новую версию TimesFM-2.0 (jax + pytorch)

Это предварительно обученная модель для прогнозирования временных рядов .

Новая версия работает в показывает улучшение производительности на 25 %, чем v1.0 на различных бенчмарках, при этом имеет в 4 раза большую максимальную длину контекста.

TimesFM-2.0 возглавляет таблицу лидеров GIFT-Eval в метриках вероятностного прогнозирования.

▪Hf
▪Paper
▪Google Research blog
▪GitHub

@ai_machinelearning_big_data

#google #Timeseriesforecasting #timesFM #прогнозированиевременныхрядов

👍47🔥20❤3🥰3😁1

15.3K views06:14

About

Blog

Apps

Platform