VADER — это метод выравнивания результатов диффузионных моделей по генерации видео;
VADER позволяет улучшить различные модели, такие как VideoCrafter, OpenSora, ModelScope и StableVideoDiffusion, с помощью разных подходов, таких как HPS, PickScore, VideoMAE, VJEPA, YOLO, Aesthetics и др.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥2
InternVL 2.0 превосходит большинство открытых мультимодальных LLM.
Модель показывает конкурентоспособную производительность в различных областях, включая понимание документов и схем, анализ инфографики, решение задач OCR, решение научных и математических задач.
Модель InternVL 2.0 обучалась с контекстным окном 8k на датасете из длинных текстов, нескольких изображений и видео, что значительно улучшает ее способность обрабатывать эти типы входных данных по сравнению с InternVL 1.5.
🤗 Hugging Face
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤5🔥3🤯1
⚡️ Лучшее за неделю из мира Open ML/ AI:
1. В качестве сюрприза команда Qwen выпустила -
Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных
Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
3. LG выпустили модель EXAONE 7.8B, обученную на 8T токсинах, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, набравшей 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).
4. Hugging Face выпустили IDEFICS3 Llama 8B - VLM-модель с лицензией Apache 2.0 с расширенными возможностями контроля качества и Мощным функционалом работы с документами! Модель основанп на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9
5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн, модель обучена работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7
6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!
И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (которая на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge 1T.
@data_analysis_ml
#ainews #mlnews #digest
1. В качестве сюрприза команда Qwen выпустила -
Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных
Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
3. LG выпустили модель EXAONE 7.8B, обученную на 8T токсинах, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, набравшей 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).
4. Hugging Face выпустили IDEFICS3 Llama 8B - VLM-модель с лицензией Apache 2.0 с расширенными возможностями контроля качества и Мощным функционалом работы с документами! Модель основанп на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9
5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн, модель обучена работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7
6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!
И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (которая на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge 1T.
@data_analysis_ml
#ainews #mlnews #digest
👍9❤4🔥3❤🔥2
Whisper Diarization совмещает в себе возможности whisper-base и pyannote-segmentation-3.0, двух мощных инструментов для распознавания речи, а также поддерживает 100 различных языков
Whisper Diarization работает полностью локально в браузере с помощью Transformers.js и ONNX Runtime Web, без всяких API-вызовов на сервер.
🤗 HuggingFace
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤6🥰3
Модели генерации текста в видео (T2V) значительно продвинулись вперед, однако их способность точно компоновать различные объекты, атрибуты и движения в видео остается неизученной.
В данной работе Kaiyue Sun с коллегами проводит первое систематическое исследование этого вопроса.
В результате работы появился T2V-CompBench — первый бенчмарк, предназначенный для оценивания точности размещения нужных объектов в кадре, точности их движения и т.д.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2
Вышла бета-версия Grok-2
https://x.ai/blog/grok-2
Она превосходит, Claude 3.5 Sonnet и GPT-4-Turbo.
@data_analysis_ml
https://x.ai/blog/grok-2
Она превосходит, Claude 3.5 Sonnet и GPT-4-Turbo.
@data_analysis_ml
🤣12🔥6👍4❤3🥱1
Dan Kondratyuk и его коллеги представляют VideoPoet — языковую модель, способную синтезировать высококачественное видео с соответствующим звуком.
VideoPoet использует архитектуру трансформера, работающего только с декодером, который обрабатывает мультимодальные входные сигналы — изображения, видео, текст и аудио.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥2
🚀 Прорыв в оптимизации LLM: Tree Attention — новый алгоритм для сверхбыстрого масштабирования!
Исследователи представили революционный алгоритм Tree Attention, который обещает трансформировать обучение и интерфейс больших языковых моделей (LLM).
Ключевые преимущества:
🔥 Ускорение до 8 раз по сравнению с Ring Attention
🧠 Вдвое меньшее использование пиковой памяти
🌐 Значительное снижение межузловых коммуникаций
📊 Сравнение методов (на 1М токенов, 64 GPU):
Стандартное внимание: 100% (базовая линия)
Ring Attention: 60% времени базовой линии
Tree Attention: всего 15% времени базовой линии!
🔬 Теоретическая основа:
Функция энергии самовнимания связывает его с энергетическими моделями
Байесовская интерпретация как метод максимального правдоподобия
⚙️ Технические детали:
Сложность
Древовидная структура редукции на основе свойств logsumexp и max
Интеграция с Flash Attention 2 и оптимизированными операциями NCCL
🖥️ Практическое применение:
Оптимизация для GPU-кластеров с учетом топологии сети
Непревзойденная эффективность для контекстов >1M токенов
🔮 Влияние на будущее AI:
Tree Attention может стать ключом к созданию LLM с гигантскими контекстными окнами, открывая путь к моделям с долгосрочной памятью и более глубоким пониманием сложных текстов.
🔗 Для углубленного изучения:
Рекомендуем заинтересованным читателям искать последние публикации по ключевым словам "Tree Attention", "GPU optimization for LLM" на научных порталах, таких как arXiv или Google Scholar.
Tree Attention — это не просто оптимизация, а потенциальный прорыв в масштабировании AI. Представьте LLM, способную анализировать целые книги за один проход или вести длительный диалог без потери контекста!
💬 А что вы думаете? Как Tree Attention может изменить ваши AI-проекты? Поделитесь мнением в комментариях!
📌 Почитать
#AI #MachineLearning #TreeAttention #LLM #GPUOptimization
@data_analysis_ml
Исследователи представили революционный алгоритм Tree Attention, который обещает трансформировать обучение и интерфейс больших языковых моделей (LLM).
Ключевые преимущества:
🔥 Ускорение до 8 раз по сравнению с Ring Attention
🧠 Вдвое меньшее использование пиковой памяти
🌐 Значительное снижение межузловых коммуникаций
📊 Сравнение методов (на 1М токенов, 64 GPU):
Стандартное внимание: 100% (базовая линия)
Ring Attention: 60% времени базовой линии
Tree Attention: всего 15% времени базовой линии!
🔬 Теоретическая основа:
Функция энергии самовнимания связывает его с энергетическими моделями
Байесовская интерпретация как метод максимального правдоподобия
⚙️ Технические детали:
Сложность
O(N/p + log p)
для последовательности длины N на p процессорахДревовидная структура редукции на основе свойств logsumexp и max
Интеграция с Flash Attention 2 и оптимизированными операциями NCCL
🖥️ Практическое применение:
Оптимизация для GPU-кластеров с учетом топологии сети
Непревзойденная эффективность для контекстов >1M токенов
🔮 Влияние на будущее AI:
Tree Attention может стать ключом к созданию LLM с гигантскими контекстными окнами, открывая путь к моделям с долгосрочной памятью и более глубоким пониманием сложных текстов.
🔗 Для углубленного изучения:
Рекомендуем заинтересованным читателям искать последние публикации по ключевым словам "Tree Attention", "GPU optimization for LLM" на научных порталах, таких как arXiv или Google Scholar.
Tree Attention — это не просто оптимизация, а потенциальный прорыв в масштабировании AI. Представьте LLM, способную анализировать целые книги за один проход или вести длительный диалог без потери контекста!
💬 А что вы думаете? Как Tree Attention может изменить ваши AI-проекты? Поделитесь мнением в комментариях!
📌 Почитать
#AI #MachineLearning #TreeAttention #LLM #GPUOptimization
@data_analysis_ml
👍10❤5🔥4🥴1
pip install kaolin==0.16.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-{TORCH_VERSION}_cu{CUDA_VERSION}.html
Библиотека NVIDIA Kaolin предоставляет PyTorch API для работы с различными 3D-представлениями и включает коллекцию GPU-оптимизированных операций, таких как модульный рендеринг, быстрые преобразования между представлениями и других операций.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥8❤3🔥2👍1
Generative Photomontage - модель, которая позволяет вам создавать изображения путем объединения нескольких сгенерированных изображений.
Фреймворк является гибким и может использоваться для различных задач, таких как создание невидимых комбинаций изображений, коррекция изображений и удаление артефактов".
▪abs: https://arxiv.org/abs/2408.07116
▪страница проекта: https://lseancs.github.io/generativephotomontage/
▪код: https://github.com/lseancs/GenerativePhotomontage
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🦀 CRAB: бенчмарк для агентов работающих с мультимодальными языковыми моделями
🦀 CRAB предоставляет комплексную и простую в использовании платформу для создания мультимодальных агентов, управления различных ос и создания тестов для их оценки, состоящую из трех ключевых компонентов:
- 🔀 Агенты могут выполнять задачи на 📱 Android и 💻 Ubuntu.
- 🕸 Graph Graph evaluator - предоставляет агентам точную метрику оценки работы агентов.
- 🤖 Автоматическая гнерация задач для агентов.
Подключая все устройства к агентам, 🦀CRAB открывает больше возможностей для выполнения различных задач, аналогичных реальным задачам.
Используйте 🦀 CRAB для тестирования ваших мультимодальных агентов!
- 👨💻 Репозиторий: https://github.com/camel-ai/crab
- 📝 Статья: https://arxiv.org/abs/2407.01511
- 🌐 Проект https://crab.camel-ai.org
@data_analysis_ml
🦀 CRAB предоставляет комплексную и простую в использовании платформу для создания мультимодальных агентов, управления различных ос и создания тестов для их оценки, состоящую из трех ключевых компонентов:
- 🔀 Агенты могут выполнять задачи на 📱 Android и 💻 Ubuntu.
- 🕸 Graph Graph evaluator - предоставляет агентам точную метрику оценки работы агентов.
- 🤖 Автоматическая гнерация задач для агентов.
Подключая все устройства к агентам, 🦀CRAB открывает больше возможностей для выполнения различных задач, аналогичных реальным задачам.
Используйте 🦀 CRAB для тестирования ваших мультимодальных агентов!
- 👨💻 Репозиторий: https://github.com/camel-ai/crab
- 📝 Статья: https://arxiv.org/abs/2407.01511
- 🌐 Проект https://crab.camel-ai.org
@data_analysis_ml
👍9❤6🔥2