Анализ данных (Data analysis)

🌟

VADER — video diffusion alignment via reward gradient

VADER — это метод выравнивания результатов диффузионных моделей по генерации видео;
VADER позволяет улучшить различные модели, такие как VideoCrafter, OpenSora, ModelScope и StableVideoDiffusion, с помощью разных подходов, таких как HPS, PickScore, VideoMAE, VJEPA, YOLO, Aesthetics и др.

🖥

GitHub

🟡

Страничка VADER

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤4🔥2

6.12K views07:40

Анализ данных (Data analysis)

🌟

InternVL 2.0 40B — open-source альтернатива GPT-4o

InternVL 2.0 превосходит большинство открытых мультимодальных LLM.

Модель показывает конкурентоспособную производительность в различных областях, включая понимание документов и схем, анализ инфографики, решение задач OCR, решение научных и математических задач.

Модель InternVL 2.0 обучалась с контекстным окном 8k на датасете из длинных текстов, нескольких изображений и видео, что значительно улучшает ее способность обрабатывать эти типы входных данных по сравнению с InternVL 1.5.

🤗 Hugging Face

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤5🔥3🤯1

6.78K views19:36

Анализ данных (Data analysis)

⚡️ Лучшее за неделю из мира Open ML/ AI:

1. В качестве сюрприза команда Qwen выпустила -

Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных

Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.

2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.

3. LG выпустили модель EXAONE 7.8B, обученную на 8T токсинах, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, набравшей 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).

4. Hugging Face выпустили IDEFICS3 Llama 8B - VLM-модель с лицензией Apache 2.0 с расширенными возможностями контроля качества и Мощным функционалом работы с документами! Модель основанп на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9

5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн, модель обучена работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7

6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!

И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (которая на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge 1T.

@data_analysis_ml

#ainews #mlnews #digest

👍9❤4🔥3❤‍🔥2

5.94K viewsedited 09:02

Анализ данных (Data analysis)

⚡️

Whisper Diarization — очень точное распознавание речи прямо в браузере

Whisper Diarization совмещает в себе возможности whisper-base и pyannote-segmentation-3.0, двух мощных инструментов для распознавания речи, а также поддерживает 100 различных языков

Whisper Diarization работает полностью локально в браузере с помощью Transformers.js и ONNX Runtime Web, без всяких API-вызовов на сервер.

🤗 HuggingFace

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤6🥰3

6.27K views16:05

Анализ данных (Data analysis)

🌟

T2V-CompBench — комплексный бенчмарк для анализа T2V-моделей

Модели генерации текста в видео (T2V) значительно продвинулись вперед, однако их способность точно компоновать различные объекты, атрибуты и движения в видео остается неизученной.

В данной работе Kaiyue Sun с коллегами проводит первое систематическое исследование этого вопроса.
В результате работы появился T2V-CompBench — первый бенчмарк, предназначенный для оценивания точности размещения нужных объектов в кадре, точности их движения и т.д.

🟡

Страничка T2V-CompBench

🟡

Arxiv

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3🔥2

5.89K views07:52

Анализ данных (Data analysis)

Вышла бета-версия Grok-2

https://x.ai/blog/grok-2

Она превосходит, Claude 3.5 Sonnet и GPT-4-Turbo.

@data_analysis_ml

🤣12🔥6👍4❤3🥱1

5.9K viewsedited 06:46

Анализ данных (Data analysis)

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

VideoPoet — продвинутая LLM для генерации видео

Dan Kondratyuk и его коллеги представляют VideoPoet — языковую модель, способную синтезировать высококачественное видео с соответствующим звуком.

VideoPoet использует архитектуру трансформера, работающего только с декодером, который обрабатывает мультимодальные входные сигналы — изображения, видео, текст и аудио.

🟡

Страничка VideoPoet

🟡

Arxiv

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤4🔥2

5.53K views11:02

Анализ данных (Data analysis)

🚀 Прорыв в оптимизации LLM: Tree Attention — новый алгоритм для сверхбыстрого масштабирования!

Исследователи представили революционный алгоритм Tree Attention, который обещает трансформировать обучение и интерфейс больших языковых моделей (LLM).

Ключевые преимущества:
🔥 Ускорение до 8 раз по сравнению с Ring Attention
🧠 Вдвое меньшее использование пиковой памяти
🌐 Значительное снижение межузловых коммуникаций
📊 Сравнение методов (на 1М токенов, 64 GPU):
Стандартное внимание: 100% (базовая линия)
Ring Attention: 60% времени базовой линии
Tree Attention: всего 15% времени базовой линии!
🔬 Теоретическая основа:
Функция энергии самовнимания связывает его с энергетическими моделями
Байесовская интерпретация как метод максимального правдоподобия

⚙️ Технические детали:
Сложность O(N/p + log p) для последовательности длины N на p процессорах
Древовидная структура редукции на основе свойств logsumexp и max
Интеграция с Flash Attention 2 и оптимизированными операциями NCCL
🖥️ Практическое применение:
Оптимизация для GPU-кластеров с учетом топологии сети
Непревзойденная эффективность для контекстов >1M токенов
🔮 Влияние на будущее AI:
Tree Attention может стать ключом к созданию LLM с гигантскими контекстными окнами, открывая путь к моделям с долгосрочной памятью и более глубоким пониманием сложных текстов.
🔗 Для углубленного изучения:
Рекомендуем заинтересованным читателям искать последние публикации по ключевым словам "Tree Attention", "GPU optimization for LLM" на научных порталах, таких как arXiv или Google Scholar.

Tree Attention — это не просто оптимизация, а потенциальный прорыв в масштабировании AI. Представьте LLM, способную анализировать целые книги за один проход или вести длительный диалог без потери контекста!

💬 А что вы думаете? Как Tree Attention может изменить ваши AI-проекты? Поделитесь мнением в комментариях!

📌 Почитать
#AI #MachineLearning #TreeAttention #LLM #GPUOptimization

@data_analysis_ml

👍10❤5🔥4🥴1

5.76K views11:47

Анализ данных (Data analysis)

1:28

Media is too big

VIEW IN TELEGRAM

🌟

NVIDIA Kaolin — библиотека PyTorch для ускорения работы с 3D

pip install kaolin==0.16.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-{TORCH_VERSION}_cu{CUDA_VERSION}.html

Библиотека NVIDIA Kaolin предоставляет PyTorch API для работы с различными 3D-представлениями и включает коллекцию GPU-оптимизированных операций, таких как модульный рендеринг, быстрые преобразования между представлениями и других операций.

🖥

GitHub

🟡

Страничка NVIDIA Kaolin

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥8❤3🔥2👍1

8.62K views15:03

Анализ данных (Data analysis)

Мем, который репостнул Илон Маск

@data_analysis_ml

👍28😁16❤4🔥2🥱2🌭1

6.85K viewsedited 16:38

Анализ данных (Data analysis)

📸

Generative Photomontage

Generative Photomontage - модель, которая позволяет вам создавать изображения путем объединения нескольких сгенерированных изображений.

Фреймворк является гибким и может использоваться для различных задач, таких как создание невидимых комбинаций изображений, коррекция изображений и удаление артефактов".

▪abs: https://arxiv.org/abs/2408.07116
▪страница проекта: https://lseancs.github.io/generativephotomontage/
▪код: https://github.com/lseancs/GenerativePhotomontage

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍4🔥2

7.03K viewsedited 07:44

Анализ данных (Data analysis)

Жиза

@data_analysis_ml

👍26🤣22🔥8😁5❤3😢2

6.27K viewsedited 10:44

Анализ данных (Data analysis)

1:06

This media is not supported in your browser

VIEW IN TELEGRAM

🦀 CRAB: бенчмарк для агентов работающих с мультимодальными языковыми моделями

🦀 CRAB предоставляет комплексную и простую в использовании платформу для создания мультимодальных агентов, управления различных ос и создания тестов для их оценки, состоящую из трех ключевых компонентов:

- 🔀 Агенты могут выполнять задачи на 📱 Android и 💻 Ubuntu.
- 🕸 Graph Graph evaluator - предоставляет агентам точную метрику оценки работы агентов.
- 🤖 Автоматическая гнерация задач для агентов.

Подключая все устройства к агентам, 🦀CRAB открывает больше возможностей для выполнения различных задач, аналогичных реальным задачам.

Используйте 🦀 CRAB для тестирования ваших мультимодальных агентов!

- 👨‍💻 Репозиторий: https://github.com/camel-ai/crab
- 📝 Статья: https://arxiv.org/abs/2407.01511
- 🌐 Проект https://crab.camel-ai.org

@data_analysis_ml

👍9❤6🔥2

6.95K views11:04

About

Blog

Apps

Platform