222K subscribers
3.84K photos
641 videos
17 files
4.47K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ FLUX: SOTA Text-to-image модели от BlackForest.

Black Forest Labs, компания, основанная командой разработки, покинувшей SatbilityAI (Stable Diffusion) опубликовала пресс-релиз с презентаций своего семейства GenAI моделей FLUX версии 1.

Представленное семейство FLUX.1 определяет новый уровень детализации изображения, точного следования промпту, разнообразия стилей и сложности сцен для синтеза текста в изображение.
Каждая вариация семейства FLUX.1 поддерживают популярные соотношения сторон и разрешения от 0,1 (128х) до 2,0(2048х) мегапикселя.
FLUX.1 выпускается в трех вариантах: FLUX.1 pro, FLUX.1 dev и FLUX.1 schnell:

🟠FLUX.1 pro. Старшая и лучшая модель в семействе, доступная только по подписке через API и на онлайн-сервисах Replicate и FalAI. Подписка доступна частным лицам и корпоративным пользователям. Стоимость подписки - 0.05USD за изображение 1024х1024 при 50 шагах генерации;

🟢FLUX.1 dev. Открытая модель для некоммерческого использования. Оптимизирована методом дистилляции из версии FLUX.1 pro, что сделало ее менее требовательной к потреблению VRAM, повысило скорость инференса при незначительной деградации качества и точности. Веса модели доступны на Huggingface. Для коммерческой эксплуатации нужно запрашивать лицензию у разработчика.

🟢FLUX.1 schnell. Младшая и самая быстрая модель, предназначенная для локальной разработки и личного использования. Версия schnell распространяется под лицензией Apache2.0 и опубликована в открытом доступе на Huugingface.
Код инференса можно найти на Github проекта или использовать поддержку модели в ComfyUI.

Все модели FLUX.1 основаны на гибридной архитектуре мультимодальных и параллельных блоков трансформеров диффузии и масштабированы до 12B параметров.
Улучшения предыдущих диффузионных моделей проведено за счет использования согласования потоков - концептуально простого метода обучения, который включает диффузию как частный случай.
Повышение производительности модели и эффективность использования аппаратного обеспечения получено за счет использования rotary positional embeddings и параллельных слоев внимания.
Более подробный технический отчет разработчики обещают опубликовать в ближайшем будущем.

Локальный запуск с автозагрузкой моделей dev и schell с выводом cli или с UI Streamlit:

# Clone repo and install dependences
cd $HOME && git clone https://github.com/black-forest-labs/flux
cd $HOME/flux
python3.10 -m venv .venv
source .venv/bin/activate
pip install -e '.[all]'

# Download dev or schnell automatically via HuggingFace you will need to be logged in HF
# For manual downloaded models you can specify the paths via environment-variables:
export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>
export FLUX_DEV=<path_to_flux_dev_sft_file>
export AE=<path_to_ae_sft_file>

# For cli interactive sampling run
python -m flux --name <name> --loop

# Or to generate a single sample run
python -m flux --name <name> \
--height <height> --width <width> \
--prompt "<prompt>"

# streamlit demo that does both text-to-image and image-to-image
streamlit run demo_st.py




🟡Страница проекта
🟡Модель dev на HF
🟡Модель schnell на HF
🟡Demo на FalAI (FLUX Pro)
🟡Demo на FalAI (FLUX dev)
🟡Demo на HF (FLUX.1 schnell)
🖥Github [ Stars: 1.3K | Issues: 11 | Forks: 52]


@ai_machinelearning_big_data

#AI #FLUX #Diffusers #Text2Image #Image2Image #GenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥95🤔2🙏1
🔥 Новостной дайджест

✔️В Google Cloud появился специальный кластер GPU Nvidia для стартапов Y Combinator.

Google Cloud предоставил для стартапов Y Combinator доступ к субсидированным вычислительным ресурсам для разработки AI-моделей. В рамках этого партнерства стартапы, участвующие в программе YC Summer 2024, получат $350,000 в виде облачных кредитов на два года.
Кроме этого, Google предложит стартапам $12,000 в виде кредитов на улучшенную поддержку и бесплатный год использования Google Workspace Business Plus. Это сотрудничество также включает возможность общения с внутренними AI-экспертами Google через ежемесячные консультации.
techcrunch.com


✔️aiOla выпустила сверхбыструю модель распознавания речи.

Израильский стартап aiOla представил открытую модель распознавания речи "Whisper-Medusa", которая работает на 50% быстрее, чем модель OpenAI Whisper. Whisper-Medusa использует архитектуру Multi-Head Attention, что позволяет ей одновременно предсказывать до десяти токенов за один проход.
Веса и код опубликованы на Github и Huggingface.
Сведений о поддерживаемых языках и планов развития мультиязычности не публиковалось.
aiola.com


✔️Mixture of Nested Experts (MoNE): фреймворк компьютерного зрения для адаптивной обработки визуальных маркеров путем динамического распределения.

Исследование, опубликованное Google DeepMind, предлагает метод, при котором MoNE динамически распределяет вычислительные ресурсы, направляя токены к различным вложенным экспертам в зависимости от их важности, что позволяет обрабатывать избыточные токены с помощью менее сложных моделей, а более важные — с помощью более мощных.

Архитектура MoNE использует многоуровневую структуру экспертов с различной вычислительной мощностью и применяет алгоритм Expert Preferred Routing (EPR) для динамической маршрутизации токенов.
На наборе данных ImageNet-21K модель продемонстрировала точность 87.5%, а в задачах классификации видео MoNE показала снижение вычислительных затрат в два-три раза при сохранении точности традиционных методов.
synthical.com


✔️Vidu: крупномасштабный сервис генерации видео стал доступен за пределами Китая при поддержке Baidu.

Vidu позволяет преобразовывать текст в видео и изображения в видео, предлагая длительности 4 и 8 секунд при максимальном разрешении 1080P. Модель демонстрирует высокую динамичность, реалистичность и последовательность, а также новые функции, такие как генерация анимационного стиля и эффекты для изображений.
Для обучения модели Vidu используется платформа AIHC от Baidu. AIHC управляет ресурсами на разных уровнях, достигая эффективности обучения более 98.8% на кластере из десяти тысяч карт.
pandaily.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍214🔥3🎉3
🌟 Lynx v1.1: Модели c 8B и 70B параметрами для обнаружения галлюцинаций RAG.

LYNX - первая модель обнаружения галлюцинаций с открытым исходным кодом. Она представляет собой результат тонкой настройки Llama-3-70B-Instruct на комплексном датасете из разных областей, включая финансы и медицину, с акцентом на сложные сценарии реальных запросов и инференса.
Данные обучения включают примеры из RAGTruth, DROP, CovidQA и PubMedQA, с 300 образцами на источник, предварительно прошедшими perturbed-обработку для создания "галлюцинирующих" ответов.
Процесс обучения использовал цепочку мышления с GPT-4о для улучшения возможностей рассуждения.

Были обучены два варианта моделей: Lynx 70B и Lynx 8B.
Для использования в Ollama, llama.cpp и LM Studio были созданы квантированные 4-bit GGUF версии моделей Lynx 8B и 70B соответственно.

Чтобы облегчить оценку работы модели, разработчики предлагают HaluBench, бенчмарк галлюцинаций, содержащий 15 000 маркерных образцов, полученных из датасетов: DROP, FinanceBench, COVID-QA, PubMedQA, HaluEval и RAGTruth.

Для моделирования галлюцинации, HaluBench использует технику perturbed, при которой генерируются семантически измененные ответы, сохраняя минимальные отличия от первоначального ответа. Этот метод выполняет генерацию сложных примеров, которые могут быть неправильно истолкованы как верные, несмотря на несоответствия контексту.

⚠️ Lynx фокусируется исключительно на оценке внутренней галлюцинации, которая оценивает согласованность сгенерированного текста с предоставленным контекстом. Оценка внешних факторов галлюцинаций выходит за рамки функционала модели.

Lynx может быть запущен несколькими способами: с помощью Ollama, llama.cpp, LM Studio, в виде локального инференса или как интеграция с NVIDIA NeMo-Guardrails:
🟢инструкцию по запуску для llama.cpp можно найти на странице GGUF версии модели на HF;
🟢инструкция по запуску для Ollama - на странице проекта;
🟢инструкция по интеграции с NVIDIA NeMo-Guardrails в репозитории NeMo-Guardrails.

▶️Локальный запуск (инференс и тренировка):

# Install local environment:
python -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install poetry==1.8.1
poetry update
poetry install

# Install pre-commit in your teminal and run:
pre-commit install

#Copy .env.example to .env and replace values for environmental variables.

#Установки Inference и Finetuning на mcli и vLLM описаны в файлах:
# mcli/mcli_finetuning.md
# mcli/mcli_inference.md
# mcli/vllm_inference.md


📌Лицензирование : СС-BY-NC-4.0


🟡Страница проекта
🟡Модели на HF
🟡Arxiv
🟡Датасет HaluBench на HF
🟡Сообщество в Discord
🟡Demo на HF
🖥Github [ Stars: 18 | Issues: 0 | Forks: 1]


@ai_machinelearning_big_data

#AI #Lynx #RAG #HallucinationDetection #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍237🔥31
⭐️ Новостной дайджест

✔️Tora: Alibaba запустила проект генерации видео с контролем траектории.

Alibaba запустила проект генерации видео под названием Tora, которая поддерживает комбинацию траектории, текста и изображений, дает высокую точность и управляемость при генерации видео.
Tora представляет два новых модуля обработки движений: модуль выделения траектории и модуль управления движением. Также, она поддерживает управление начальным и конечным кадром, что гарантирует консистентность процесса генерации видео.
В планах опубликование: демо на Huggingface, код инференса и обучения. Сроки не называются.
Страница проекта, технический отчет исследования и репозиторий на Github.


✔️Tachyon: Одноплатный компьютер на Snapdragon с AI-ускорителем.

Particle представила Tachyon, новую одноплатную компьютерную систему (SBC), основанную на процессоре Qualcomm Snapdragon, c поддержкой 5G и собственным AI-ускорителем. Устройство имеет форму, схожую с Raspberry Pi, и оснащено восьмиядерным процессором Kryo с тактовой частотой до 2.7 ГГц, 4 ГБ оперативной памяти и 64 ГБ встроенной памяти UFS.
Tachyon предлагает поддержку текстового и графического интерфейсов, а также интеграцию с Raspberry Pi через 40-контактный GPIO, два USB-C 3.1 порта.
Одноплатник будет поставляться с Ubuntu 24.04. Розничная цена на Tachyon будет составлять $249 ( $149 за "суперранний" уровень финансирования на Kikstarter сейчас).
Ожидается, что первые поставки начнутся в январе 2025 года.
tomshardware.com


✔️Vimeo анонсировала AI-перевод видео для бизнес-клиентов.

Новая функция позволяет пользователям автоматически переводить аудиодорожки и субтитры на более чем 30 языков, что значительно ускоряет процесс адаптации видео для международной аудитории. Так же заявлена функция редактирования переведенных субтитров, чтобы пользователи могли улучшать качество перевода по мере необходимости.
С запуском новых функций Vimeo планирует привлечь больше бизнес-клиентов, предоставляя им эффективные инструменты для создания и распространения контента на глобальном уровне.
vimeo.com

✔️Индия и ОАЭ лидируют в мире по внедрению ИИ и Gen AI.

"Global AI Adoption Index" от IBM показывает, что Индия и ОАЭ являются лидерами в глобальном внедрении искусственного интеллекта и генеративного ИИ.
42% опрошенных компаний уже интегрировали AI в свои бизнес-модели, при этом почти все предприятия увеличивают свои инвестиции в AI-решения. Основные отрасли - автомобилестроение, производство и финансовые услуги.
В ОАЭ 52% IT-специалистов сообщили о стратегии внедрения AI в своих организациях, в то время как в Индии этот показатель составляет 42%. Наиболее распространенные области применения AI включают автоматизацию IT-процессов, обнаружение угроз и управление.
consultancy-me.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍224🔥4
🌟EMO-Disentanger: Создание фортепианной музыки с помощью двухэтапного анализа и функционального представления c заданным эмоциональным тоном.

Метод EMO-Disentanger имеет двухэтапную архитектуру. На первом этапе основное внимание уделяется созданию партитуры, которая состоит из мелодии и последовательности аккордов, а на втором этапе создается фортепианное исполнение с желаемой выразительностью.

Двухэтапная структура позволяет разделить процесс генерации на валентное моделирование и моделирование тональных акцентов.
Модель партируты фокусируется на валентном моделировании, генерируя мелодии и последовательности аккордов на основе эмоциональной метки и тональности.
Затем модель исполнения генерирует на тональных акценты, создавая фортепианную игру с заданной выразительностью.

Чтобы отразить взаимодействие между музыкальными элементами и их влияние на эмоции, в EMO-Disentanger предлагается новое функциональное представление символической музыки.
В этом представлении используются римские цифры для обозначения аккордов относительно тональности. Оно также декомпозирует высоту звука на октаву и градус по отношению к тональности, улучшая понимание связей между эмоциями, аккордами и мелодиями.

Партитурная модель и модель исполнения обучаются отдельно с использованием объемных наборов музыкальных данных без аннотаций к эмоциям, чтобы модель могла лучше понять музыку.
Затем обе модели настраиваются на основе датасета, промаркированного эмоциями, для изучения композиции и стилей исполнения, характерных для различных эмоциональных контекстов.

▶️Для локального запуска потребуются:
🟢python 3.8 + CUDA 10.2;
🟢pytorch fast-transformers или transformers, в зависимости от установленной версии CUDA;
🟢midi2audio для конвертации сгенерированного MIDI в audio (опционально);
🟢предварительно загруженные events и веса.


📌Лицензирование : MIT license


🟡Страница проекта
🟡Модели
🟡Arxiv
🖥Github [ Stars: 12 | Issues: 0 | Forks: 1]


@ai_machinelearning_big_data

#AI #Music #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥861😢1
🌟 StackFLOW: Монокулярная реконструкция пары "человек-объект" с использованием многоуровневого нормализующего потока со смещениями.

Техническая реализация метода реконструкции состоит из двух фаз: моделирование пространственных отношений и реконструкция человека-объекта в моделируемом пространстве.

Кодирование пространственных отношений пары человек-объект выполняется методом "Human-Object Offset". Для каждой пары вычисляются смещения между всеми якорными точками человека и объекта.
Эти смещения позволяют захватить высоко детализированную корреляцию между частями человека и объекта, обеспечивая качественное кодирование 3D пространственных отношений между ними.

Затем выполняется монокулярная реконструкция человека и объекта методом "Stacked Normalizing Flow (StackFLOW)".
Для вывода апостериорного распределения пространственных отношений между человеком и объектом из изображения, вносятся векторные корректировки в позу человека и положение объекта, максимизируя правдоподобие выборок и минимизируя потери репроекции 2D-3D соответствия.

В процессе разработки метода, StackFLOW сравнивали с существующими методиками реконструкции PHOSA, CHORE и BSTRO на наборах данных BEHAVE и InterCap.
По результатам StackFLOW показал конкурентоспособные результаты.


В репозитории проекта размещены три варианта запуска проекта локально (демонстрация с окклюзиями, демонстрация оптимизации с несколькими объектами и демо с оптимизацией полной последовательности) подробные инструкции по самостоятельной тренировке и оценке на датасетах BEHAVE и InterCap.

📌 Внимательно прочитайте инструкции к каждому типу запуска, трейн-коду и оценочному запуску!


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥Github [ Stars: 8 | Issues: 2 | Forks: 1]


@ai_machinelearning_big_data

#AI #3D #Reconstruction #VideoTo3D #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍157🥰31
⚡️ 6 файлов - это все что нужно для архитектуры Llama 3.1

Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.

nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.

Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора

Планы:

🟢удалить лишнее, сделать красиво;
🟢сделать finetuning более полнофункциональным, более похожим на nanoGPT (смешанная точность, DDP, свистелки, лампочки и т.д.)
🟢добавить поддержку Chat model inference и finetuning, а не только Base model
🟢подумать про поддержку для Llama 3 models > 8B
🟢разобраться с варнингом по deprecated set_default_tensor_type

git clone https://github.com/meta-llama/llama-models.git

Github

@ai_machinelearning_big_data

#llama #Кarpathy #nanoGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
37👍29🔥8🥰1😁1
⚡️ InternVideo2: две VLM для аннотирования и QA видео.

OpenGVLab опубликовала в открытом доступе 2 новые мультимодальные модели:

🟢InternVideo2-Chat-8B
🟢InternVideo2-Chat-8B-HD

InternVideo2 - это семейство моделей на базе Mistral-7B для работы с video-to-text и диалогах, ориентированных на контекст видео.

Семейство использует архитектуру Vision Transformer (ViT) и получило дополнительные слои для улучшения обучения и использует attention pooling для понимания временных последовательностей и действий в видео. Каждая модель проходит три этапа обучения, чтобы улучшить свое понимание видео и способность выполнять сложные задачи.

На первом этапе обучения модель учится восстанавливать видео-токены, которые были удалены. Затем она учится согласовывать видео-представления с семантикой из других модальностей, таких как аудио, речь и текст. Наконец, модель обучается на видео-центричных входных данных и подключается к LLM (Mistral-7B) для предсказания следующего токена.
Такая конфигурация дает способность выполнять задачи, такие как ответы на вопросы о видео и описывать сложные видео-сценарии.

Различие моделей 8B и 8B-HD в том, что 8B-HD, как видно из названия, обучалась на наборах данных высокого разрешения. Суммарная плотность 8B - это 7B от LLM + 1B от самой InternVideo-1B.

Подробную инструкцию по инференсу можно найти в карточки модели на HF. UI версии пока нету.


📌Лицензирование :  MIT license


🟡Модель Chat-8B
🟡Модель Chat8B-HD
🟡Arxiv
🟡Demo Video
🖥Github [ Stars: 1.2K | Issues: 65 | Forks: 76]


@ai_machinelearning_big_data

#AI #VLM #ML #VideoQA #Video2Text
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥86