LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.
В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.
Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.
👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G
⚖️ Лицензирование кода: Apache-2.0 license
⚖️ Лицензирование моделей: Qwen2 license
@ai_machinelearning_big_data
#ML #VLM #VQA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥2
—
pip install llama-recipes
Llama Recipes предоставляет набор методов для файнтюнинга Llama3 с использованием FSDP и PEFT для работы на одном/нескольких GPU.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥5❤4
установка CLI:
pip install -U polyaxon
Polyaxon — это платформа для создания, обучения и мониторинга крупномасштабных ML-приложений, призванная решить проблемы воспроизводимости, автоматизации и масштабируемости.
Polyaxon можно развернуть в любом ЦОДе или облачном провайдере;
платформа поддерживает все необходимые фреймворки, такие как Tensorflow, MXNet, Caffe, Torch и т. д.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6❤4
—
pip install kedro
Kedro — фреймворк, который добавляет модульность, удобную для работы с данными. С помощью Kedro можно создавать проекты по шаблону, настраивать пайплайн в YAML, делить его на части, документировать проект — и это далеко не всё.
Kedro позволяет сохранять и загружать данные в различные хранилища, такие как S3, GCP, Azure, sFTP, DBFS и локальные файловые системы. Поддерживаются такие форматы файлов, как Pandas, Spark, Dask, NetworkX, Pickle, Plotly, Matplotlib и многие другие.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤5🥰3🤣1
Forwarded from Machinelearning
DeepSeek выложила в открытый доступ веса модели V2-Chat-0628. Это обновление флагманской Deepseek-V2, одной из лучших моделей в открытом доступе.
Согласно чартам LMSYS Chatbot Arena - эта модель №11 среди open-source моделей на сегодняшний день.
Детальные достижения:
Основная особенность обновления - была оптимизирована возможность следования инструкциям в области "система", что значительно повышает удобство работы с иммерсивным переводом, RAG и другими задачами.
Одновременно с обновлением в репозитории на Huggingface, модель доступна по API в сервисе https://platform.deepseek.com.
💵 Стоимость API DeepSeek-V2-Chat-0628 (128K Context length):
Input - $0.14 / 1M tokens
Output - $0.28 / 1M tokens
⚠️ Размер модели ~ 480 Gb, для локального запуска формата BF16 потребуется 8х80GB GPU`s.
⚖️ Лицензирование кода: MIT
⚖️ Лицензирование модели: Своя лицензия семейства DeepSeek-v2
@ai_machinelearning_big_data
#LLM #DeepSeekV2 #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥3🥰1
—
pip install neuralforecast
NeuralForecast предлагает множество моделей прогнозирования: от классических MLP и RNN, до новых моделей, таких как NBEATS, NHITS, TFT и других.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤4👍4
—
pip install geomstats
Данные из многих прикладных областей тесно связаны с нелинейными многообразиями. Например, многообразие трехмерных вращений SO(3) естественным образом возникает при проведении статистического обучения на сочлененных объектах, таких как человеческий позвоночник или руки роботов.
Аналогично, другие многообразия возникают при моделировании сложных биологических объектов
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥6❤4
Metarank позволяет реализовать персонализированное ранжирование статей, объявлений, результатов поиска — в общем отлично подходит для создания рекомендательных систем
Быстрый старт с Docker:
docker run -i -t -p 8080:8080 -v $(pwd):/opt/metarank metarank/metarank:latest standalone --config /opt/metarank/config.yml --data /opt/metarank/events.jsonl.gz
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤3🔥3
Xorbits позволяет, к примеру, легко использовать данные для обучения генеративных моделей а также разворачивать обученные модели в своей инфраструктуре.
Xorbits может использовать несколько ядер/GPU, может работать на 1 машине или масштабироваться до тысяч машин для поддержки обработки терабайтов данных.
Xorbits предоставляет набор полезных библиотек для анализа данных и ML.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍9❤5