Machinelearning

⚡️ Llama-3.1 Minitron 4B Width Base: Компактная LLM на основе Llama 3.1 от NVIDIA.

Llama-3.1-Minitron-4B-Width-Base - это базовая текстовая модель, которая может быть адаптирована для различных задач генерации естественного языка.
Она получена путем обрезки (pruning) Llama-3.1-8B за счет сокращения размера эмбеддинга, количества attention heads и промежуточной размерности MLP.
После было выполнено продолженное обучение с дистилляцией, используя набор данных размером 94 миллиарда токенов.

Корпус обучения (набор данных) модели Llama-3.1-Minitron-4B-Width-Base включает английские и многоязычные тексты, код и другие письменные материалы.
Источники данных охватывают различные области: право, математика, наука, финансы. Для улучшения производительности режима "чата", в процессе обучения были добавлены данные в формате вопрос-ответ.
Дата актуальности корпуса обучения - июнь 2023 года.

При создании были использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Архитектурные характеристики:

🟢embedding size - 3072;
🟢attention heads - 32;
🟢MLP intermediate dimension - 9216;
🟢number of layers - 32;
🟢input context - 8000.

⚠️ На момент публикации, поддержка Llama-3.1-Minitron-4B-Width-Base в Hugging Face Transformers находится на рассмотрении.
Для использования модели выполните рекомендованные разработчиками инструкции или запустите модель в NeMo v.24.05

Есть неофициальные квантованные GGUF - версии модели в семи разрядностях, от 2-bit (1. 84Gb) до 16-bit (9.03 Gb).

📌Лицензирование : NVIDIA Open Model License.

🟡

Модель

🟡

Набор GGUF

🟡

Arxiv

@ai_machinelearning_big_data

#AI #NVIDIA #LLM #ML #Minitron

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍32🔥9❤3

9.4K views07:07

Machinelearning

🌟 Clapper: Альфа-версия комбайна для визуализации генеративных сценариев.

Clapper - это инструмент визуализации историй, разрабатываемый как пет-проект сотрудником Huggingface Julian Bilcke

Созданный год назад, Clapper не предназначен для замены традиционных видеоредакторов или AI-редакторов, использующих 3D-сцены в качестве исходного материала.
Философия Clapper заключается в том, чтобы каждый мог создавать видео с помощью GenAI-инструментов посредством интерактивного, итеративного и интуитивного процесса, без необходимости использования разных интерфейсов, навыков режиссуры или AI-инженерии.

В Clapper вы не редактируете последовательность видео- и аудиофайлов напрямую, а итерируете (с помощью вашего помощника ИИ) свою историю, используя высокоуровневые абстракции, такие как персонажи, места, погода, временной период, стиль и т. д.

Конечной целью проекта заявлен полностью режиссерский режим, с которым вы можете просто перевести видео в полноэкранный режим, удобно расположиться в режиссерском кресле (или на диване) и, произнося голосом команды своему AI-ассистенту для создания вашего фильма, насладитесь созданным лично Вами шедевром.

⚠️ Это альфа-версия инструмента, который разрабатывают 3 человека. Не стоит ожидать от этого открытого проекта революционных результатов.

Clapper поддерживает интеграцию по API с локальными системами (ComfyUI) и он-лайн сервисами:
HuggingFace, Replicate, ComfuICU, FalAI, ModelsLab, OpenAI, Groq, Google, Anthropic, Cohere, MistralAI, StabilityAI, ElevenLabs, KitsAI.

Проект написан на TypeScript. Необходимые условия перед установкой:

🟠

Git LFS;

🟠

Bun;

🟠

NVM;
🟢Версия Node - 20.15.1.

▶️Установка и запуск:

# Install the dependencies:
# --include=optional to make 
# sure deps are installed
bun i

# build the app:
npm run build

# Running the web app:
bun run dev
# first time you go to localhost:3000
# Wait around 1 minute, the app will compile

▶️Второй вариант запуска, с Electron (еще в процессе разработки):

cd packages/app
bun run electron:start

# You can also build Clapper:
cd packages/app
bun run electron:make

📌Лицензирование : GPL v3 licenсe.

🟡

Сообщество в Discord

🟡

Demo

🖥

Github [ Stars: 1.5K | Issues: 15 | Forks: 129]

@ai_machinelearning_big_data

#AI #Storytelling #Clapper #Visialtool

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍18❤8

10.5K views15:10

Machinelearning

⚡️Awesome FLUX Resources: Все ресурсы по Flux в одном месте.

Экосистема Fluх развивается очень быстро, каждый день появляются новые способы, решения, возможности и инструменты для работы с моделями Fluх онлайн и оффлайн.

Теперь у сообщества FLUX появился обновляемый и упорядоченный Awesome FLUX!

https://awesomeflux.com/

🖥

Github [ Stars: 16 | Issues: 0 | Forks: 1]

@ai_machinelearning_big_data

#AI #FLUX #ML #Awesome

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤6🔥4❤‍🔥2

11.1K views06:23

Machinelearning

🌟 mPLUG-Owl3: MMLM, которая может проанализировать 2 часа видео за 4 секунды.

Alibaba Group выпустила mPLUG-Owl3, общую мультимодальную модель на базе Qwen2, ориентированную на понимание нескольких изображений и длинных видео. По словам разработчиков, модель может проанализировать 2-часовой фильм всего за 4 секунды.
mPLUG-Owl3 сокращает время ожидания первого токена в 6 раз и увеличивает возможность обработки изображений, обрабатываемых одним GPU A100 до 400 штук в секунду.

Архитектура mPLUG-Owl3 состоит из визуального кодировщика, линейного проекционного слоя и декодера языковой модели.
Ключевая особенность mPLUG-Owl3 - блоки Hyper Attention Transformer (HATB), которые включают перекрестное внимание между визуальными и текстовыми признаками, благодаря чему модель адаптивно выбирает и извлекает релевантную визуальную информацию на основе текстовой семантики.

Технические характеристики модели:

🟢Number of parameters - 8B;
🟢Context size - 4096 (SFT, Video, Multi-image);
🟢Number of Layers - 40;
🟢Visual Encoder - Siglip-400m;
🟢High-Resolution Image Processing - UReader.

▶️Установка и запуск GradioUI:

# Clone repository
https://github.com/X-PLUG/mPLUG-Owl.git

# Navigate to OWL3 folder
cd mPLUG-Owl3

# Install the dependencies
pip install -r requirements.txt

# Execute the demo
python gradio_demo.py

📌Лицензирование кода : MIT license.

📌Лицензирование моделей: Apache 2.0 License.

🟡

Model

🟡

Arxiv

🟡

Demo

🖥

Github [ Stars: 2.1K | Issues: 89 | Forks: 169]

@ai_machinelearning_big_data

#AI #OWL3 #MMLM #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31❤11🔥6🎉1

9.39K views09:02

Machinelearning

🌟

Mixture-of-Agents: метод для улучшения качества LLM

MoA использует несколько LLM для генерации ответов. На выходе получается ответ, который превосходит по качеству все предшествующие.

В рамках способа была создана многослойная структура с несколькими моделями на каждом слое. На вход подавали один вопрос, и каждый слой давал на него ответ. Затем полученные данные передавались на следующий слой, и всё повторялось.

🟡

Страница проекта

🟡

Разбор метода

@ai_machinelearning_big_data

#AI #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27❤6🔥4❤‍🔥3

8.51K views12:34

Machinelearning

⚡️ xGen-MM (BLIP-3): Мультимодальный набор моделей от Saleforce.

Salesforce AI Research представила XGen-MM (BLIP-3) - коллекцию из 4 моделей на основе phi3-mini-instruct с улучшенным обучением и повышенной, согласно бенчмаркам претрейна, производительностью.

XGen-MM (BLIP-3) может использоваться в различных областях - от обработки естественного языка до компьютерного зрения. Он способен понимать сложные, мультимодальные входные данные, что делает его мощным инструментом для различных приложений, от виртуальных помощников до создания контента.

Набор моделей:

🟢

xGen-MM-base: базовая модель, обученная на 100 миллиардах пар "изображение-текст" ;

🟢

xGen-MM-instruct-singleimg: инструктивная модель, обученная на 1 млн. изображений датасета Cauldron, предназначенная для работы с одиночными изображениями;

🟢

xGen-MM-instruct-interleave: инструктивная модель, обученная на Cauldron для работы с несколькими (чередующимися) изображениями;

🟠

xGen-MM-instruct-dpo: безопасная инструктивная версия, которая обучалась оптимизации предпочтений на датасете VLFeedback.

📌Лицензирование кода : BSD-3-Clause license.

📌Лицензирование моделей: Apache 2.0 license.

🟡

Набор моделей

🟡

Arxiv

🟡

Google Collab (инференс)

🖥

Github [ Stars: 9.4K | Issues: 422 | Forks: 932]

@ai_machinelearning_big_data

#AI #xGEN #LMM #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM