This media is not supported in your browser
VIEW IN TELEGRAM
🎮 Diffusion Models Are Real-Time Game Engines
Google представляет GameNGen, первый игровой движо в Stable Diffusion, который позволяет взаимодействовать со сложным окружением в реальном времени с высоким качеством.
GameNGen может интерактивно моделировать классическую игру DOOM со скоростью более 20 кадров в секунду на одном TPU.
Предсказание следующего кадра достигает PSNR 29,4,
На тестах дюди почти не отличают короткие ролики игры от роликов симуляции.
GameNGen обучается в два этапа: (1) RL-агент учится играть в игру, и тренировочные сессии записываются, и (2) диффузионная модель обучается выдавать следующий кадр, основываясь на последовательности прошлых кадров и действий.
▪ статья: https://arxiv.org/abs/2408.14837
▪ страница проекта: https://gamengen.github.io
Google представляет GameNGen, первый игровой движо в Stable Diffusion, который позволяет взаимодействовать со сложным окружением в реальном времени с высоким качеством.
GameNGen может интерактивно моделировать классическую игру DOOM со скоростью более 20 кадров в секунду на одном TPU.
Предсказание следующего кадра достигает PSNR 29,4,
На тестах дюди почти не отличают короткие ролики игры от роликов симуляции.
GameNGen обучается в два этапа: (1) RL-агент учится играть в игру, и тренировочные сессии записываются, и (2) диффузионная модель обучается выдавать следующий кадр, основываясь на последовательности прошлых кадров и действий.
▪ статья: https://arxiv.org/abs/2408.14837
▪ страница проекта: https://gamengen.github.io
❤13🔥7👍3🌚2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Diffusers 0.30 это 🔥
Модели видео: CogVideoX-5B и Latte. Также SparseCtrl и FreeNoise для расширения/ управления
Модели для генерации изображений: Flux, Aura Flow, Kolors, Lumina
Также стабильный звук
Наведение на нарушенное внимание
https://github.com/huggingface/diffusers/releases
@data_analysis_ml
Модели видео: CogVideoX-5B и Latte. Также SparseCtrl и FreeNoise для расширения/ управления
Модели для генерации изображений: Flux, Aura Flow, Kolors, Lumina
Также стабильный звук
Наведение на нарушенное внимание
https://github.com/huggingface/diffusers/releases
@data_analysis_ml
👍6❤4🔥1
Eagle - это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:
Архитектура Eagle-X5:
Обучение модели Eagle-X5 проходит в три этапа:
Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению - OCR и понимание документов.
Установка и запуск с GradioUI:
# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle
# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip # enable PEP 660 support
pip install requirements
# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6❤5⚡1
Громоздкие #SQL запросы трудно читать, понимать и поддерживать.
С помощью dbt вы можете использовать функцию
ref
, чтобы разбить длинный SQL-запросы на более мелкие компоненты, делая их более читаемыми и удобными для обслуживания.
-- models/total_order_amount.sql
SELECT
order_id,
customer_id,
SUM(order_amount) AS total_amount
FROM
raw_orders
GROUP BY order_id, customer_id
models/average_order_amount.sql:
-- models/average_order_amount.sql
SELECT
customer_id,
AVG(total_amount) AS avg_amount
FROM {{ ref('total_order_amount') }}
GROUP BY customer_id
▪ Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤7🔥5🍌1
Forwarded from Machinelearning
Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:
Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:
и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.
Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:
⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.
Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.
@ai_machinelearning_big_data
#AI #Qwen #ML #GPTQ #VLM #AWQ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3🔥2
python main.py --base configs/ldm/ego4dsounds.yaml -t --name audiocond --num-nodes 1 --gpus 0,1,2,3,4,5,6,7 --epoch 8 --scale_lr False --batch-size 90 --pretrained-model data/pretrained/av.pth --pool-patches max model.params.audio_cond_config.neighbor_audio_cond_prob=1 --audio-cond rand_neighbor
Action2Sound — это новый метод генерирования звуков на основе видео от первого лица;
также этот метод позволяет учесть обстановку и создавать соответствующие фоновые звуки.
В целом, Action2Sound — это первая работа, в которой сгенерированные звуки точно соответствуют наблюдаемому визуальному контенту.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍2🔥2
Если кто знаком с моделью T5, то FLAN-T5 — это её улучшенная версия.
При том же количестве параметров FLAN-T5 тонко настроена для 1000+ дополнительных задач NLP; при этом модель поддерживает большое количество языков.
🤗 Hugging Face
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍5🔥3
WonderWorld позволяет пользователю быстро генерировать 3D-сцены вокруг себя с помощью текстовых промптов и движения камеры.
В качестве отправной точки WonderWorld принимает на вход 1 изображение и генерирует связанные с ним разнообразные 3D-сцены для создания виртуального мира.
Генерация одной 3D-сцены занимает менее чем 10 секунд благодаря 2 моментам: во-первых, это оптимизация представления 3D-сцены, Fast Gaussian Surfels, а во-вторых, используется особый подход, позволяющий генерировать для каждой сцены только 1 вид, а не несколько, не создавая при этом больших дыр в восприятии этой сцены.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🔥2
⚡️ Этот инструмент RAG с открытым исходным кодом для работы с вашими документами в режиме чата в последние несколько дней занимает лидирующие позиции на Github
- RAGUI с открытым исходным кодом для контроля качества инструмента
- Поддерживает локальные Lms и API-провайдеров
- Гибридный конвейер RAG с полнотекстовым и векторным поиском
- Мультимодальность
- Поддерживает Сложные рассуждения с декомпозицией вопросов
- Настраиваемый пользовательский
интерфейс,
- Расширяемая архитектура
▪ Github
@data_analysis_ml
- RAGUI с открытым исходным кодом для контроля качества инструмента
- Поддерживает локальные Lms и API-провайдеров
- Гибридный конвейер RAG с полнотекстовым и векторным поиском
- Мультимодальность
- Поддерживает Сложные рассуждения с декомпозицией вопросов
- Настраиваемый пользовательский
интерфейс,
- Расширяемая архитектура
▪ Github
@data_analysis_ml
👍23❤6🔥5
🚀 Мощная библиотека для быстрого LLM-инференса
NanoFlow стабильно обеспечивает более высокую производительность по сравнению с vLLM, Deepspeed-FastGen и TensorRT-LLM. 🤯
🔹 Увеличение производительности в 1,91 раза по сравнению с TensorRT-LLM
🔹 Опережает vLLM, Deepspeed-FastGen
🔹 Достигает 68,5 % от оптимальной пропускной способности
При крупномасштабных развертываниях LLM сталкивается с узкими местами в пропускной способности. 🤔
🔹 Бэкенд на C++, фронтенд на Python
🔹 Интеграция с CUTLASS, FlashInfer, MSCCL++
🔹 Поддерживает LLaMA2-70B, Mixtral 8x7B, LLaMA3-8B
- Nano-batching: разбивает запросы на более мелкие партии для одновременного выполнения
- Разделяет ресурсы GPU для эффективной работы
- Менеджер KV-кэша: Оптимизирует использование памяти
- Механизм автоматизированного поиска: Находит оптимальные параметры для запуска модели
▪Github
@data_analysis_ml
NanoFlow стабильно обеспечивает более высокую производительность по сравнению с vLLM, Deepspeed-FastGen и TensorRT-LLM. 🤯
🔹 Увеличение производительности в 1,91 раза по сравнению с TensorRT-LLM
🔹 Опережает vLLM, Deepspeed-FastGen
🔹 Достигает 68,5 % от оптимальной пропускной способности
При крупномасштабных развертываниях LLM сталкивается с узкими местами в пропускной способности. 🤔
🔹 Бэкенд на C++, фронтенд на Python
🔹 Интеграция с CUTLASS, FlashInfer, MSCCL++
🔹 Поддерживает LLaMA2-70B, Mixtral 8x7B, LLaMA3-8B
- Nano-batching: разбивает запросы на более мелкие партии для одновременного выполнения
- Разделяет ресурсы GPU для эффективной работы
- Менеджер KV-кэша: Оптимизирует использование памяти
- Механизм автоматизированного поиска: Находит оптимальные параметры для запуска модели
▪Github
@data_analysis_ml
👍13❤6🔥2
⚡️ ReconX
Это полезная библиотека для создания детализированных 3D-сцен на основе ограниченного количества изображений, решая проблему, которая долгое время была сложной в компьютерном зрении.
В отличие от традиционных методов, которые часто сталкиваются с артефактами и искажениями в невидимых областях, ReconX рассматривает задачу как временную генерацию, используя видеодиффузионную модель.
Основное новшество — использование генеративных возможностей крупных предварительно обученных моделей видео с сохранением 3D-согласованности сцен.
📌 Github
📌 Project
@data_analysis_ml
Это полезная библиотека для создания детализированных 3D-сцен на основе ограниченного количества изображений, решая проблему, которая долгое время была сложной в компьютерном зрении.
В отличие от традиционных методов, которые часто сталкиваются с артефактами и искажениями в невидимых областях, ReconX рассматривает задачу как временную генерацию, используя видеодиффузионную модель.
Основное новшество — использование генеративных возможностей крупных предварительно обученных моделей видео с сохранением 3D-согласованности сцен.
📌 Github
📌 Project
@data_analysis_ml
👍7🔥4❤3
📢 Вышла версия TorchGeo 0.6.0!
В него добавлено 18 датасетов, 15 новых модулей данных и 27 новых предварительно обученных моделей, что является результатом 11 месяцев работы команды из 23 разработчиков🔥.
https://github.com/microsoft/torchgeo/releases/tag/v0.6.0
@data_analysis_ml
В него добавлено 18 датасетов, 15 новых модулей данных и 27 новых предварительно обученных моделей, что является результатом 11 месяцев работы команды из 23 разработчиков🔥.
https://github.com/microsoft/torchgeo/releases/tag/v0.6.0
@data_analysis_ml
👍20🔥7❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Представляем многоязычную систему преобразования речи в речь Hugging Face! 🎤
💬 Модульный кросс-платформенный конвейер для запуска GPT4o-подобных моделей на устройствах, с плавным переключением языков во время разговора с незаметной задержкой в 100 мс.
🌟 2700 звезд на GitHub 🌟
🔥 Тестируйте с флагом: --language
🤯 Или не устанавливайте флаг и позвольте системе самой определить язык
▪ Github
@data_analysis_ml
💬 Модульный кросс-платформенный конвейер для запуска GPT4o-подобных моделей на устройствах, с плавным переключением языков во время разговора с незаметной задержкой в 100 мс.
🌟 2700 звезд на GitHub 🌟
🔥 Тестируйте с флагом: --language
🤯 Или не устанавливайте флаг и позвольте системе самой определить язык
▪ Github
@data_analysis_ml
👍17❤6🔥6🤔1
▪Запись в блоге :https://microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/
▪GitHub: https://github.com/microsoft/graphrag?tab=readme-ov-file
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤5🔥3
⚡️ OLMoE: Открытые языковые модели смеси экспертов
«OLMOE-1B-7B имеет 7 миллиардов (B) параметров, но использует только 1B на входную лексему.
Она предварительно обучена ее на 5 триллионах лексем.
OLMOE-1B-7B-INSTRUCT, превосходят все доступные модели с аналогичными активными параметрами, даже превосходят такие крупные модели, как Llama2-13B-Chat и DeepSeekMoE-16B.»
• Статья: https://arxiv.org/abs/2409.02060
• Модель: https://hf.co/allenai/OLMoE-1B-7B-0924
@data_analysis_ml
«OLMOE-1B-7B имеет 7 миллиардов (B) параметров, но использует только 1B на входную лексему.
Она предварительно обучена ее на 5 триллионах лексем.
OLMOE-1B-7B-INSTRUCT, превосходят все доступные модели с аналогичными активными параметрами, даже превосходят такие крупные модели, как Llama2-13B-Chat и DeepSeekMoE-16B.»
• Статья: https://arxiv.org/abs/2409.02060
• Модель: https://hf.co/allenai/OLMoE-1B-7B-0924
@data_analysis_ml
👍7❤4🔥3
⚡️ HivisionIDPhoto
Крутое репо с открытым исходным кодом, занимающее сегодня первое место на GitHub трендах.
- Локально генерирует профессиональные фотографии на документы
- Работает на центральном процессоре для быстрого вычисления
- Предоставляет веб-интерфейс Gradio и API для простоты использования
- Использует среду выполнения ONNX и OpenCV
- Может быть развернута через Docker
- Доступен API для операций обработки фотографий
При запуске инструменты будет создана локальная веб-страница, на которой можно выполнять операции и работать с фотографиями.
📚 https://github.com/Zeyi-Lin/HivisionIDPhotos
@data_analysis_ml
Крутое репо с открытым исходным кодом, занимающее сегодня первое место на GitHub трендах.
- Локально генерирует профессиональные фотографии на документы
- Работает на центральном процессоре для быстрого вычисления
- Предоставляет веб-интерфейс Gradio и API для простоты использования
- Использует среду выполнения ONNX и OpenCV
- Может быть развернута через Docker
- Доступен API для операций обработки фотографий
При запуске инструменты будет создана локальная веб-страница, на которой можно выполнять операции и работать с фотографиями.
git clone https://github.com/Zeyi-Lin/HivisionIDPhotos.git
cd HivisionIDPhotos
📚 https://github.com/Zeyi-Lin/HivisionIDPhotos
@data_analysis_ml
❤7👍6🔥3