223K subscribers
3.87K photos
646 videos
17 files
4.48K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟EMO-Disentanger: Создание фортепианной музыки с помощью двухэтапного анализа и функционального представления c заданным эмоциональным тоном.

Метод EMO-Disentanger имеет двухэтапную архитектуру. На первом этапе основное внимание уделяется созданию партитуры, которая состоит из мелодии и последовательности аккордов, а на втором этапе создается фортепианное исполнение с желаемой выразительностью.

Двухэтапная структура позволяет разделить процесс генерации на валентное моделирование и моделирование тональных акцентов.
Модель партируты фокусируется на валентном моделировании, генерируя мелодии и последовательности аккордов на основе эмоциональной метки и тональности.
Затем модель исполнения генерирует на тональных акценты, создавая фортепианную игру с заданной выразительностью.

Чтобы отразить взаимодействие между музыкальными элементами и их влияние на эмоции, в EMO-Disentanger предлагается новое функциональное представление символической музыки.
В этом представлении используются римские цифры для обозначения аккордов относительно тональности. Оно также декомпозирует высоту звука на октаву и градус по отношению к тональности, улучшая понимание связей между эмоциями, аккордами и мелодиями.

Партитурная модель и модель исполнения обучаются отдельно с использованием объемных наборов музыкальных данных без аннотаций к эмоциям, чтобы модель могла лучше понять музыку.
Затем обе модели настраиваются на основе датасета, промаркированного эмоциями, для изучения композиции и стилей исполнения, характерных для различных эмоциональных контекстов.

▶️Для локального запуска потребуются:
🟢python 3.8 + CUDA 10.2;
🟢pytorch fast-transformers или transformers, в зависимости от установленной версии CUDA;
🟢midi2audio для конвертации сгенерированного MIDI в audio (опционально);
🟢предварительно загруженные events и веса.


📌Лицензирование : MIT license


🟡Страница проекта
🟡Модели
🟡Arxiv
🖥Github [ Stars: 12 | Issues: 0 | Forks: 1]


@ai_machinelearning_big_data

#AI #Music #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥861😢1
🌟 StackFLOW: Монокулярная реконструкция пары "человек-объект" с использованием многоуровневого нормализующего потока со смещениями.

Техническая реализация метода реконструкции состоит из двух фаз: моделирование пространственных отношений и реконструкция человека-объекта в моделируемом пространстве.

Кодирование пространственных отношений пары человек-объект выполняется методом "Human-Object Offset". Для каждой пары вычисляются смещения между всеми якорными точками человека и объекта.
Эти смещения позволяют захватить высоко детализированную корреляцию между частями человека и объекта, обеспечивая качественное кодирование 3D пространственных отношений между ними.

Затем выполняется монокулярная реконструкция человека и объекта методом "Stacked Normalizing Flow (StackFLOW)".
Для вывода апостериорного распределения пространственных отношений между человеком и объектом из изображения, вносятся векторные корректировки в позу человека и положение объекта, максимизируя правдоподобие выборок и минимизируя потери репроекции 2D-3D соответствия.

В процессе разработки метода, StackFLOW сравнивали с существующими методиками реконструкции PHOSA, CHORE и BSTRO на наборах данных BEHAVE и InterCap.
По результатам StackFLOW показал конкурентоспособные результаты.


В репозитории проекта размещены три варианта запуска проекта локально (демонстрация с окклюзиями, демонстрация оптимизации с несколькими объектами и демо с оптимизацией полной последовательности) подробные инструкции по самостоятельной тренировке и оценке на датасетах BEHAVE и InterCap.

📌 Внимательно прочитайте инструкции к каждому типу запуска, трейн-коду и оценочному запуску!


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥Github [ Stars: 8 | Issues: 2 | Forks: 1]


@ai_machinelearning_big_data

#AI #3D #Reconstruction #VideoTo3D #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍157🥰31
⚡️ 6 файлов - это все что нужно для архитектуры Llama 3.1

Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.

nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.

Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора

Планы:

🟢удалить лишнее, сделать красиво;
🟢сделать finetuning более полнофункциональным, более похожим на nanoGPT (смешанная точность, DDP, свистелки, лампочки и т.д.)
🟢добавить поддержку Chat model inference и finetuning, а не только Base model
🟢подумать про поддержку для Llama 3 models > 8B
🟢разобраться с варнингом по deprecated set_default_tensor_type

git clone https://github.com/meta-llama/llama-models.git

Github

@ai_machinelearning_big_data

#llama #Кarpathy #nanoGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
37👍29🔥8🥰1😁1
⚡️ InternVideo2: две VLM для аннотирования и QA видео.

OpenGVLab опубликовала в открытом доступе 2 новые мультимодальные модели:

🟢InternVideo2-Chat-8B
🟢InternVideo2-Chat-8B-HD

InternVideo2 - это семейство моделей на базе Mistral-7B для работы с video-to-text и диалогах, ориентированных на контекст видео.

Семейство использует архитектуру Vision Transformer (ViT) и получило дополнительные слои для улучшения обучения и использует attention pooling для понимания временных последовательностей и действий в видео. Каждая модель проходит три этапа обучения, чтобы улучшить свое понимание видео и способность выполнять сложные задачи.

На первом этапе обучения модель учится восстанавливать видео-токены, которые были удалены. Затем она учится согласовывать видео-представления с семантикой из других модальностей, таких как аудио, речь и текст. Наконец, модель обучается на видео-центричных входных данных и подключается к LLM (Mistral-7B) для предсказания следующего токена.
Такая конфигурация дает способность выполнять задачи, такие как ответы на вопросы о видео и описывать сложные видео-сценарии.

Различие моделей 8B и 8B-HD в том, что 8B-HD, как видно из названия, обучалась на наборах данных высокого разрешения. Суммарная плотность 8B - это 7B от LLM + 1B от самой InternVideo-1B.

Подробную инструкцию по инференсу можно найти в карточки модели на HF. UI версии пока нету.


📌Лицензирование :  MIT license


🟡Модель Chat-8B
🟡Модель Chat8B-HD
🟡Arxiv
🟡Demo Video
🖥Github [ Stars: 1.2K | Issues: 65 | Forks: 76]


@ai_machinelearning_big_data

#AI #VLM #ML #VideoQA #Video2Text
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥86
🌟 MM-Vet v2: Бенчмарк LMM на встроенные возможности.

MM-Vet оценивает шесть основных возможностей LMM: распознавание, знание, пространственная ориентация, генерация языка, распознавание текста и математика. В версии v2 бенчмарка добавлена новая функция "понимание последовательности изображений и текста", которая может оценить способность моделей обрабатывать последовательности визуальных интерпретаций.

Вторая версия была подготовлена на большем наборе исходных данных (517 пар вопросов-ответов из различных областей), которые были сгенерированы GPT-4V и переработаны вручную исследовательской группой.


📌Лицензирование : Apache-2.0 license


🟡Arxiv
🟡Dataset MM-Vet v2
🟡Demo на HF
🖥Github [ Stars: 218 | Issues: 0 | Forks: 10]


@ai_machinelearning_big_data

#AI #Benchmark #LMM #MMVetV2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥107👍61
🌟 BigLlama-3.1-1T-Instruct: Большая модель для тех, кому 405B не хватает.


Экспериментальная модель, размером 2ТB на основе Meta-Llama-3.1-405B-Instruct, рожденная методом passthrough в mergekit.

Для использования автор рекомендует шаблон чата Llama 3 и 4 ноды 8xH100s в FP8.
Квантование и оценка в бенчмарках - решение еще не принято.

▶️ Скачать BigLlama-3.1-1T-Instruct можно на HF


@ai_machinelearning_big_data

#LLM #ML #Ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23😁105👍5👀3🗿3🦄21🙊1
Новостной дайджест

✔️AWS разработала AI-ассистента Amazon Q.

Amazon Q умеет:  генерировать точный код, проводить тестирование и отладку кода, планировать многократные шаги при разработке ПО, давать ответы на вопросы по бизнес-данным, подключаясь к хранилищам предприятия, а также лучшее в отрасли сканирование уязвимостей и оптимизацию среды AWS.
С его возможностями, сотрудники AWS теперь могут создавать приложения на корпоративных данных компании, описывая необходимый функционал естественным языком.
devopsdigest.com

✔️Сети Колмогорова-Арнольда могут навести физиков на новые гипотезы.

Ученые из MIT разработали новый способ создания нейронных сетей, который оказался более эффективным и точным, чем традиционные методы. Эти новые сети, называемые KAN, могут представлять данные о физике в более понятном и интерпретируемом виде, что может помочь ученым открыть новые законы природы.
В ходе тестирования KAN показала себя более точной и эффективной, чем традиционные нейронные сети. Например, в одной задаче KAN достигла точности 81,6% с использованием всего 200 параметров, в то время как традиционная сеть достигла точности 78% с использованием 300 000 параметров. Кроме того, исследователи смогли визуально смоделировать KAN и упростить ее до простой физической функции, которая точно повторяет ту, которая создала набор данных.
spectrum.ieee.org

✔️ИИ-модель Profluent приблизилась к точному и управляемому проектированию белков.

Компания Profluent разработала ИИ-модель - РroseLM, которая использует структурный и функциональный контекст для повышения точности и управления в проектировании дизайна белков, что используется для редактирования генов и связывания терапевтических антител.
ProseLM рассчитывает взаимодействия с не-белковыми молекулами и использует адаптерные слои для обучения, предоставляя возможность для намеренного и управляемого проектирования биотехнологических прототипов.
genengnews.com

✔️NEO Semiconductor объявляет о разработке чипа 3D X-AI: замена HBM и решение проблемы узких мест в шине данных.

Технология 3D X-AI обеспечивает 100-кратное ускорение производительности, снижение энергопотребления на 99% и восьмикратное увеличение плотности памяти благодаря использованию 300 слоев 3D DRAM с нейронными схемами. Чип может обрабатывать до 120 ТБ/с данных, значительно снижая объем передаваемых данных между HBM и GPU.
neosemic.com

✔️MIT опубликовал "Руководство по разработке стратегии AI для предприятий".

Руководство исследует текущее состояние принятия ИИ на предприятиях и предлагает стратегию для разработки плана внедрения, помогая бизнесу преодолеть диссонанс между амбициями и выполнением.
Ключевые темы: амбиции в области ИИ значительны, но лишь немногие перешли за пределы пилотных проектов; расходы на подготовку к использованию ИИ значительно увеличатся, а доступность и качество данных являются одними из ключевых аспектов для успешного внедрения ИИ.
Полный доклад доступен по ссылке.
technologyreview.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍1562❤‍🔥2
⚡️ Mini CPM-V: Семейство MLM для работы с изображениями и видео, в том числе на портативных устройствах.

MiniCPM-V новое семейство MLLM. Набор состоит из 3 моделей и их квантованных версий в int4 и GGUF: 

MiniCPM-V 2.6: самая производительная модель в серии MiniCPM-V, построена на основе SigLip-400M и Qwen2-7B и имеет 8 миллиардов параметров. 
Эта модель улучшена новыми возможностями для понимания нескольких изображений и видео и поддерживает работу в режиме реального времени на сторонних устройствах, таких как iPad. 

🟠MiniCPM-V 2.6 (16.2 Gb)
🟠MiniCPM-V 2.6 Int4 (5.95GB)
🟠MiniCPM-V 2.6 GGUFs в 4-bit (4.68GB) и 16-bit (15.2GB)

MiniCPM-Llama3-V-2_5:  построена на основе SigLip-400M и Llama3-8B-Instruct и имеет 8 миллиардов параметров. 
Модель ориентирована на задачи OCR, производительность, надежность и поддерживает 30 языков. Она способна работать на устройствах с ограниченными ресурсами, например, на смартфоне.

🟠MiniCPM-Llama3-V 2.5 (~17GB)
🟠MiniCPM-Llama3-V 2.5 Int4 (6.16GB)
🟠MiniCPM-Llama3-V 2.5 GGUF от 2-bit до 16-bit (от 3.18Gb до 16.1 соответственно)

MiniCPM-V 2: самая легкая модель в серии MiniCPM-V с 2 миллиардами параметров. Она обрабатывает изображения с любым соотношением сторон и разрешением до 1,8 Mpx, например, 1344x1344.

🟠MiniCPM-V 2

▶️Локальный запуск c GradioUI:

# Clone this repository and navigate to the source folder:
git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-V

# Create conda environment:
conda create -n MiniCPM-V python=3.10 -y
conda activate MiniCPM-V

#Install dependencies.
pip install -r requirements.txt

## For NVIDIA GPUs, run::
python web_demo_2.6.py --device cuda


📌Лицензирование:

🟢код - Apache-2.0;
🟠модели - свободно для любых академических исследований. Коммерция - соблюдение этого соглашения.



🟡Tech Report MiniCPM-Llama3-V 2.5
🟡Коллекция моделей на HF
🟡Demo MiniCPM-V 2.6
🟡Demo MiniCPM-Llama3-V 2.5
🟡Demo MiniCPM-V 2
🖥Github [ Stars: 8.3K | Issues: 27 | Forks: 583]


@ai_machinelearning_big_data

#AI #MLLM #ML #MiniCPM #MobileVLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍295🔥3
🖥 Полезные заметки по устранению неполадок в AMD MI300X и других подобных устройствах

https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/amd/debug.md

А здесь большое руководству по устранению различных неполадок для NVIDIA https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/nvidia/debug.md

@ai_machinelearning_big_data

#amd #NVIDIA #Troubleshooting
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍105