Анализ данных (Data analysis)
46.3K subscribers
2.31K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Forwarded from Machinelearning
⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud.

Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:

🟢Распознавание изображений с различным разрешением и соотношением сторон;
🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога;
🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления;
🟢Мультиязычность внутри входных данных, например на изображениях или видео.
🟢Улучшенное распознавание объектов и предметов;
🟢Расширенные возможности в области математики и понимания программного кода.

Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:

🟠Qwen2-VL-72B;
🟢Qwen2-VL-7B-Instruct;
🟢Qwen2-VL-2B-Instruct,

и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.

Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:

🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека.

🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию.

⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.

Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.

▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥Github [ Stars: 59 | Issues: 3 | Forks: 2]


@ai_machinelearning_big_data

#AI #Qwen #ML #GPTQ #VLM #AWQ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3🔥2
🌟 Action2Sound — модель для генерации звуков на основе видео от первого лица

python main.py --base configs/ldm/ego4dsounds.yaml -t --name audiocond --num-nodes 1 --gpus 0,1,2,3,4,5,6,7 --epoch 8 --scale_lr False --batch-size 90 --pretrained-model data/pretrained/av.pth --pool-patches max model.params.audio_cond_config.neighbor_audio_cond_prob=1 --audio-cond rand_neighbor


Action2Sound — это новый метод генерирования звуков на основе видео от первого лица;
также этот метод позволяет учесть обстановку и создавать соответствующие фоновые звуки.

В целом, Action2Sound — это первая работа, в которой сгенерированные звуки точно соответствуют наблюдаемому визуальному контенту.

🖥 GitHub
🟡 Arxiv

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍2🔥2
🌟 FLAN-T5 small — модель от Google для задач NLP

Если кто знаком с моделью T5, то FLAN-T5 — это её улучшенная версия.
При том же количестве параметров FLAN-T5 тонко настроена для 1000+ дополнительных задач NLP; при этом модель поддерживает большое количество языков.

🤗 Hugging Face
🟡 Arxiv

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍5🔥3
⚡️ WonderWorld — рендеринг 3D-сцен в реалтайме

WonderWorld позволяет пользователю быстро генерировать 3D-сцены вокруг себя с помощью текстовых промптов и движения камеры.
В качестве отправной точки WonderWorld принимает на вход 1 изображение и генерирует связанные с ним разнообразные 3D-сцены для создания виртуального мира.
Генерация одной 3D-сцены занимает менее чем 10 секунд благодаря 2 моментам: во-первых, это оптимизация представления 3D-сцены, Fast Gaussian Surfels, а во-вторых, используется особый подход, позволяющий генерировать для каждой сцены только 1 вид, а не несколько, не создавая при этом больших дыр в восприятии этой сцены.

🟡 Страничка WonderWorld
🟡 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥2
⚡️ Этот инструмент RAG с открытым исходным кодом для работы с вашими документами в режиме чата в последние несколько дней занимает лидирующие позиции на Github

- RAGUI с открытым исходным кодом для контроля качества инструмента
- Поддерживает локальные Lms и API-провайдеров
- Гибридный конвейер RAG с полнотекстовым и векторным поиском
- Мультимодальность
- Поддерживает Сложные рассуждения с декомпозицией вопросов
- Настраиваемый пользовательский
интерфейс,
- Расширяемая архитектура

Github

@data_analysis_ml
👍236🔥5
🚀 Мощная библиотека для быстрого LLM-инференса

NanoFlow стабильно обеспечивает более высокую производительность по сравнению с vLLM, Deepspeed-FastGen и TensorRT-LLM. 🤯

🔹 Увеличение производительности в 1,91 раза по сравнению с TensorRT-LLM
🔹 Опережает vLLM, Deepspeed-FastGen
🔹 Достигает 68,5 % от оптимальной пропускной способности

При крупномасштабных развертываниях LLM сталкивается с узкими местами в пропускной способности. 🤔

🔹 Бэкенд на C++, фронтенд на Python
🔹 Интеграция с CUTLASS, FlashInfer, MSCCL++
🔹 Поддерживает LLaMA2-70B, Mixtral 8x7B, LLaMA3-8B

- Nano-batching: разбивает запросы на более мелкие партии для одновременного выполнения
- Разделяет ресурсы GPU для эффективной работы
- Менеджер KV-кэша: Оптимизирует использование памяти
- Механизм автоматизированного поиска: Находит оптимальные параметры для запуска модели

Github

@data_analysis_ml
👍136🔥2
⚡️ ReconX

Это полезная библиотека для создания детализированных 3D-сцен на основе ограниченного количества изображений, решая проблему, которая долгое время была сложной в компьютерном зрении.

В отличие от традиционных методов, которые часто сталкиваются с артефактами и искажениями в невидимых областях, ReconX рассматривает задачу как временную генерацию, используя видеодиффузионную модель.

Основное новшество — использование генеративных возможностей крупных предварительно обученных моделей видео с сохранением 3D-согласованности сцен.

📌 Github
📌 Project

@data_analysis_ml
👍7🔥43
📢 Вышла версия TorchGeo 0.6.0!

В него добавлено 18 датасетов, 15 новых модулей данных и 27 новых предварительно обученных моделей, что является результатом 11 месяцев работы команды из 23 разработчиков🔥.

https://github.com/microsoft/torchgeo/releases/tag/v0.6.0

@data_analysis_ml
👍20🔥72
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Представляем многоязычную систему преобразования речи в речь Hugging Face! 🎤

💬 Модульный кросс-платформенный конвейер для запуска GPT4o-подобных моделей на устройствах, с плавным переключением языков во время разговора с незаметной задержкой в 100 мс.

🌟 2700 звезд на GitHub 🌟


🔥 Тестируйте с флагом: --language
🤯 Или не устанавливайте флаг и позвольте системе самой определить язык

Github

@data_analysis_ml
👍176🔥6🤔1
💻 Проект Graph RAG - это пакет для обработки и преобразования данных, предназначенный для извлечения значимых структурированных данных из неструктурированного текста с использованием возможностей LLMs.

Запись в блоге :https://microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/
GitHub: https://github.com/microsoft/graphrag?tab=readme-ov-file

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥3
⚡️ OLMoE: Открытые языковые модели смеси экспертов

«OLMOE-1B-7B имеет 7 миллиардов (B) параметров, но использует только 1B на входную лексему.

Она предварительно обучена ее на 5 триллионах лексем.

OLMOE-1B-7B-INSTRUCT, превосходят все доступные модели с аналогичными активными параметрами, даже превосходят такие крупные модели, как Llama2-13B-Chat и DeepSeekMoE-16B.»

Статья: https://arxiv.org/abs/2409.02060
Модель: https://hf.co/allenai/OLMoE-1B-7B-0924

@data_analysis_ml
👍74🔥3
⚡️ HivisionIDPhoto

Крутое репо с открытым исходным кодом, занимающее сегодня первое место на GitHub трендах.

- Локально генерирует профессиональные фотографии на документы
- Работает на центральном процессоре для быстрого вычисления
- Предоставляет веб-интерфейс Gradio и API для простоты использования
- Использует среду выполнения ONNX и OpenCV
- Может быть развернута через Docker
- Доступен API для операций обработки фотографий

При запуске инструменты будет создана локальная веб-страница, на которой можно выполнять операции и работать с фотографиями.

git clone https://github.com/Zeyi-Lin/HivisionIDPhotos.git
cd HivisionIDPhotos


📚 https://github.com/Zeyi-Lin/HivisionIDPhotos

@data_analysis_ml
7👍6🔥3
⚡️ The Tensor Cookbook: Свежий Гайд по тензорам

Эта компактная книга на 50 страниц даёт полное представление обо всём, что связано с тензорами.

Тензор — это обобщённое понятие для матриц с любым количеством измерений. Тензорами являются скаляры (тензоры нулевого ранга), векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).

В книге также присутствует немало математики, которая поможет глубже понять работу с тензорами.

📚 Книга

@data_analysis_ml
17👍4🔥3
Визуализируйте Google Таблицы с помощью Grafana или используйте Google Таблицы в качестве источника данных для Grafana.

GitHub: https://github.com/grafana/google-sheets-datasource

#data #moni #grafana #datasource
13🔥8👍6🥱1
🌟 MoMo: моделирование движения для интерполяции видеокадров.

MoMo - метод интерполяции видеокадров VFI, основанный на диффузии, который улучшает качество изображения, за счет генеративного моделирования промежуточного движения.

Метод строится на рассогласованном двухэтапном процессе обучения. Сначала обучается модель синтеза кадров для генерации кадров из входных пар и их оптических потоков. Затем обучается модель диффузии движения, разработанной для оптических потоков, для создания двунаправленных потоков между кадрами.

В процессе создания модели использовался набор данных Vimeo90k, содержащий 51 312 видеотриплетов, где каждый триплет состоит из двух входных кадров и одного целевого промежуточного кадра.

Этот метод, используя простое низкочастотное представление движений, достигает высокого качества при меньших вычислительных требованиях по сравнению с другими генеративными методами моделирования.

Демо результаты MoMo для 2K и 4К видеороликов можно посмотреть на Google Drive.

⚠️ Перед установкой загрузите модель для инференса и сохраните в папку проекта так, чтобы иерархический путь выглядел так: MoMo/experiments/diffusion/momo_full/weights/model.pth

▶️Установка и запуск:


# Create venv
conda create -n momo python=3.10.9
conda activate momo

# Install requirements
pip install -r requirements.txt

# Run x2 interpolation on single GPU
python demo.py --video <path_to_video.mp4> --output_path <path_to_x2_video.mp4>



Arxiv
Модель
Сообщество в Discord
Github


@data_analysis_ml

#AI #ML #Diffusers #Interpolation #MoMo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥2