💾 LLM Datasets
В нем есть множество высококачественных наборов данных и инструментов для тонкой настройки, очистки, генерации и исследования данных.
Я молча поддерживал его в течение последних месяцев. Особая благодарность geronimi73, Bytes-Explorer и eclipse за их поддержку.
▪Githib
@data_analysis_ml
В нем есть множество высококачественных наборов данных и инструментов для тонкой настройки, очистки, генерации и исследования данных.
Я молча поддерживал его в течение последних месяцев. Особая благодарность geronimi73, Bytes-Explorer и eclipse за их поддержку.
▪Githib
@data_analysis_ml
👍18❤9🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
🦧 Sapiens: новая SOTA ViTs для задач CV, связанных с обнаружением людей 🦧
Sapiens - семейство моделей для задач CV: оценки 2D-позы, сегментации частей тела, оценки глубины.
Модели поддерживают вывод данных в 1K hi-res. и очень легко адаптируются под конкретные задачи путем простого файнтюнига.
Модель предварительно обучена на более чем 300 миллионах изображений человека в естественных условиях. 💙
▪ HF: huggingface.co/papers/2408.12569
▪ Paper https://arxiv.org/pdf/2408.12569
@data_analysis_ml
Sapiens - семейство моделей для задач CV: оценки 2D-позы, сегментации частей тела, оценки глубины.
Модели поддерживают вывод данных в 1K hi-res. и очень легко адаптируются под конкретные задачи путем простого файнтюнига.
Модель предварительно обучена на более чем 300 миллионах изображений человека в естественных условиях. 💙
▪ HF: huggingface.co/papers/2408.12569
▪ Paper https://arxiv.org/pdf/2408.12569
@data_analysis_ml
❤14👍9🔥5
Разработчик и автор корпоративного code со-pilot Toqan и FinBERT pfgecnbk запустил публичный Leaderbord бенчмарка ProLLM, в котором языковые модели открытого и закрытого типа тестируются на выполнения различных задач в области программирования:
Помимо узкоспециализированных тестов, бенчмарк выполняет несколько общих тестов: Q&A Assistant, Summarization и LLM as a Judge.
На сегодняшний день возможность самостоятельного тестирования моделей этим бенчмарком не реализована, но разработчики открыты для диалога в вопросе корпоративного применения своей системы оценки, с ними можно связаться через форму на сайте.
Toqan ProLLM Leaderboard
@data_analysis_ml
#AI #LLM #ML #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤6🔥2🥱1🍌1
Здесь представлено буквально всё: от церковных колоколов до ChatGPT.
Залипнуть на этом интерактивном ресурсе в отличном качестве можно здесь: https://calculatingempires.net/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👍11🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
✨Проект: https://ys-imtech.github.io/projects/LayerPano3D/
✨Статья: https://arxiv.org/abs/2408.13252
✨Код: https://github.com/YS-IMTech/LayerPano3D
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤6🔥1🤯1
⚡️ Lazy Predict
Дата Саентисты обычно тратят много времени на тестирование множества моделей.
Lazy Predict позволяет быстро создавать прототипы и сравнивать несколько базовых моделей без написания большого количества кода или сложной настройки моделей.
▪Github
@data_analysis_ml
Дата Саентисты обычно тратят много времени на тестирование множества моделей.
Lazy Predict позволяет быстро создавать прототипы и сравнивать несколько базовых моделей без написания большого количества кода или сложной настройки моделей.
pip install lazypredict
▪Github
@data_analysis_ml
👍29❤11🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 Diffusion Models Are Real-Time Game Engines
Google представляет GameNGen, первый игровой движо в Stable Diffusion, который позволяет взаимодействовать со сложным окружением в реальном времени с высоким качеством.
GameNGen может интерактивно моделировать классическую игру DOOM со скоростью более 20 кадров в секунду на одном TPU.
Предсказание следующего кадра достигает PSNR 29,4,
На тестах дюди почти не отличают короткие ролики игры от роликов симуляции.
GameNGen обучается в два этапа: (1) RL-агент учится играть в игру, и тренировочные сессии записываются, и (2) диффузионная модель обучается выдавать следующий кадр, основываясь на последовательности прошлых кадров и действий.
▪ статья: https://arxiv.org/abs/2408.14837
▪ страница проекта: https://gamengen.github.io
Google представляет GameNGen, первый игровой движо в Stable Diffusion, который позволяет взаимодействовать со сложным окружением в реальном времени с высоким качеством.
GameNGen может интерактивно моделировать классическую игру DOOM со скоростью более 20 кадров в секунду на одном TPU.
Предсказание следующего кадра достигает PSNR 29,4,
На тестах дюди почти не отличают короткие ролики игры от роликов симуляции.
GameNGen обучается в два этапа: (1) RL-агент учится играть в игру, и тренировочные сессии записываются, и (2) диффузионная модель обучается выдавать следующий кадр, основываясь на последовательности прошлых кадров и действий.
▪ статья: https://arxiv.org/abs/2408.14837
▪ страница проекта: https://gamengen.github.io
❤13🔥7👍3🌚2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Diffusers 0.30 это 🔥
Модели видео: CogVideoX-5B и Latte. Также SparseCtrl и FreeNoise для расширения/ управления
Модели для генерации изображений: Flux, Aura Flow, Kolors, Lumina
Также стабильный звук
Наведение на нарушенное внимание
https://github.com/huggingface/diffusers/releases
@data_analysis_ml
Модели видео: CogVideoX-5B и Latte. Также SparseCtrl и FreeNoise для расширения/ управления
Модели для генерации изображений: Flux, Aura Flow, Kolors, Lumina
Также стабильный звук
Наведение на нарушенное внимание
https://github.com/huggingface/diffusers/releases
@data_analysis_ml
👍6❤4🔥1
Eagle - это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:
Архитектура Eagle-X5:
Обучение модели Eagle-X5 проходит в три этапа:
Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению - OCR и понимание документов.
Установка и запуск с GradioUI:
# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle
# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip # enable PEP 660 support
pip install requirements
# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6❤5⚡1
Громоздкие #SQL запросы трудно читать, понимать и поддерживать.
С помощью dbt вы можете использовать функцию
ref
, чтобы разбить длинный SQL-запросы на более мелкие компоненты, делая их более читаемыми и удобными для обслуживания.
-- models/total_order_amount.sql
SELECT
order_id,
customer_id,
SUM(order_amount) AS total_amount
FROM
raw_orders
GROUP BY order_id, customer_id
models/average_order_amount.sql:
-- models/average_order_amount.sql
SELECT
customer_id,
AVG(total_amount) AS avg_amount
FROM {{ ref('total_order_amount') }}
GROUP BY customer_id
▪ Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤7🔥5🍌1
Forwarded from Machinelearning
Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:
Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:
и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.
Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:
⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.
Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.
@ai_machinelearning_big_data
#AI #Qwen #ML #GPTQ #VLM #AWQ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3🔥2
python main.py --base configs/ldm/ego4dsounds.yaml -t --name audiocond --num-nodes 1 --gpus 0,1,2,3,4,5,6,7 --epoch 8 --scale_lr False --batch-size 90 --pretrained-model data/pretrained/av.pth --pool-patches max model.params.audio_cond_config.neighbor_audio_cond_prob=1 --audio-cond rand_neighbor
Action2Sound — это новый метод генерирования звуков на основе видео от первого лица;
также этот метод позволяет учесть обстановку и создавать соответствующие фоновые звуки.
В целом, Action2Sound — это первая работа, в которой сгенерированные звуки точно соответствуют наблюдаемому визуальному контенту.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍2🔥2
Если кто знаком с моделью T5, то FLAN-T5 — это её улучшенная версия.
При том же количестве параметров FLAN-T5 тонко настроена для 1000+ дополнительных задач NLP; при этом модель поддерживает большое количество языков.
🤗 Hugging Face
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍5🔥3
WonderWorld позволяет пользователю быстро генерировать 3D-сцены вокруг себя с помощью текстовых промптов и движения камеры.
В качестве отправной точки WonderWorld принимает на вход 1 изображение и генерирует связанные с ним разнообразные 3D-сцены для создания виртуального мира.
Генерация одной 3D-сцены занимает менее чем 10 секунд благодаря 2 моментам: во-первых, это оптимизация представления 3D-сцены, Fast Gaussian Surfels, а во-вторых, используется особый подход, позволяющий генерировать для каждой сцены только 1 вид, а не несколько, не создавая при этом больших дыр в восприятии этой сцены.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🔥2