CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.
Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".
Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:
CogVideoX Factory предлагает сценарии обучения:
train_text_to_video_lora.sh
;train_image_to_video_lora.sh
;train_text_to_video_sft.sh
.⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт
prepare_dataset.py
играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.
@ai_machinelearning_big_data
#AI #ML #LoRA #T2V #IMG2V #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍9❤5
Rhymes AI опубликовала Aria — первую в мире открытую MMLM, основанную на Mixture-of-Experts. Aria способна обрабатывать текст, изображения, видео и код одновременно, не требуя отдельных настроек для каждого типа данных.
Модель отличается высокой производительностью при обработке мультимодальных и языковых данных, включая изображения различных размеров и соотношений сторон.
Aria использует 3,9 млрд. активных параметров из 25 млрд. общих и обладает длинным контекстным окном в 64 тыс. токенов, что позволяет ей эффективно обрабатывать большие объемы данных, например, создавать аннотации к видео из 256 кадров за 10 секунд.
MoE-архитектура Aria состоит из 66 экспертов. Каждый эксперт структурно идентичен FFN в трансформере. Входной токен направляется только к подмножеству экспертов в каждом слое, это позволяет эффективно распределить вычислительные потребности модели.
ARIA отличается от предыдущих мультимодальных моделей MoE тем, что она обучается с нуля с использованием универсальных экспертов, а не специализированных для каждой модальности.
Обучение ARIA проходило на 6.4 трлн. языковых и 400 млрд. токенах в 4 этапа:
ARIA протестирована бенчмарках MMMU, MathVista, DocVQA, ChartQA, TextVQA, MMBench-1.1, EgoSchema, LongVideoBench, VideoMME, MMLU, MATH, ARC Challenge и HumanEval (задачи понимания кода).
Результаты тестирования показывают, что ARIA превосходит открытые модели Pixtral-12B и Llama3.2-11B и демонстрирует конкурентоспособные результаты по сравнению с проприетарными моделями GPT-4o и Gemini-1.5.
⚠️ Так как Aria имеет 25.3 млрд. общих параметров, они могут быть загружены в один A100 (80GB) с точностью bfloat16.
@ai_machinelearning_big_data
#AI #ML #MMLM #MoE #Aria #RhymesAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35❤15🔥10
Microsoft представила ряд инноваций в облачной платформе Microsoft Cloud for Healthcare, которые направлены на улучшение взаимодействия между пациентами и врачами, повышение эффективности работы медицинских бригад и расширение возможностей анализа данных.
Новые модели ИИ для здравоохранения в Azure AI Studio, решения для обработки медицинских данных в Microsoft Fabric, сервис медицинских агентов в Copilot Studio и решение для автоматизации рабочих процессов медсестер на основе ИИ.
Microsoft Cloud for Healthcare предлагает передовые модели медицинской визуализации, разработанные в сотрудничестве с Providence и PaigeAi.
news.microsoft.com
Производство MI325X начнется до конца 2024 года, а его выпуск ускорит график разработки новых процессоров AMD до одного в год.
MI325X получит до 288 GB HBM3E памяти, будет построен на новой CDNA4 архитектуре по 3-нм процессу.
MI325X бросит вызов грядущим чипам Blackwell от Nvidia, поставки которых в значительных объемах начнутся в начале 2025. AMD планирует улучшать свое программное обеспечение ROCm, чтобы разработчики ИИ могли легко переносить свои модели ИИ на процессоры AMD.
cnbc.com
TikTok увольняет сотрудников по всему миру, в том числе большое количество сотрудников в Малайзии, поскольку компания переключает внимание на более широкое использование ИИ в модерации контента. Два источника сообщили Reuters, что в Малайзии было сокращено более 700 рабочих мест. TikTok позже уточнил, что увольнения коснулись менее 500 сотрудников в стране.
TikTok подтвердил увольнения и заявил, что в рамках более широкого плана по совершенствованию операций по модерации, по всему миру, как ожидается, будет затронуто несколько сотен сотрудников.
reuters.com
Редакторы "Википедии" объединились в группу "WikiProject AI Cleanup" для борьбы с контентом, созданным ИИ, который содержит ошибки, галлюцинации и плохое оформление.
Цель группы — не запретить использование ИИ, а убедиться в качестве информации и исправить или удалить неприемлемый контент. Редакторы отмечают, что некоторые случаи использования ИИ очевидны, например, когда в статьях остаются типичные фразы чат-ботов. Однако, некоторые ошибки, особенно в сложных темах, трудно обнаружить.
Редакторы "Википедии" уже понизили рейтинг некоторых новостных сайтов, использующих ИИ для создания контента.
404media.co
Imagen 3 считается самой качественной моделью Google для генерации изображений, способной лучше понимать инструкции и создавать изображения с меньшим количеством визуальных артефактов. Однако есть одно ограничение: для создания изображений людей требуется подписка Gemini Advanced, которая стоит 19,99 долларов в месяц и входит в план Google One AI Premium, включающий 2 ТБ хранилища и доступ к Gemini в Google Docs.
В отличие от других генераторов, Imagen 3 создает одно изображение на каждый запрос, но позволяет уточнять изображение, запрашивая изменения. Скачать можно любое количество изображений в разрешении 2048 x 2048 в формате JPEG.. Google особо гордится возможностями Imagen 3 в области рендеринга текста, однако, по результатам тестирования, в этой области все еще есть над чем работать.
techradar.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤8🔥4
Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.
Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.
Фреймворк построен на двух основных абстракциях: агентах (
Agent
) и передачах управления (handoffs
):Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).
Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект
Result
.⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.
⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.
# Install from PIP
pip install git+https://github.com/openai/swarm.git
# Usage
from swarm import Swarm, Agent
client = Swarm()
def transfer_to_agent_b():
return agent_b
agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)
agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)
response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)
print(response.messages[-1]["content"])
@ai_machinelearning_big_data
#AI #ML #Agents #OpenAI #Swarm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥13❤8👏2
Prime Intellect объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.
Процесс построен на опубликованном ранее OpenDiLoCo — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.
Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.
Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.
INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных, который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.
В обучении используется планировщик скорости обучения WSD , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.
Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:
ElasticDeviceMesh
: распределенная абстракция для отказоустойчивой связи;Int8 All-Reduce
: квантование псевдоградиентов;PyTorch FSDP2
/ DTensor ZeRO-3
: шардинг весов модели.Дорожная карта Prime:
Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете Prime Intellect или подключив в нем сторонние облачные сервисы GPU.
Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму. Посмотреть статус обучения INTELLECT-1 можно по ссылке.
# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.cargo/env
# Set up the env
uv venv
source .venv/bin/activate
uv sync --extra all
uv pip install flash-attn --no-build-isolation
git submodule update --init --recursive
# Running DiLoCo:
# !! Single GPU setups are currently not supported !!
# Using 2 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml
# Using 4 GPUs
ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml
@ai_machinelearning_big_data
#AI #ML #LLM #Decentralized #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47❤10🔥6🤗3✍1
Цель модели - сгенерировать 3D-предсказание объема конкретной анатомической структуры на основе входного изображения и визуальной маркировки.
RespLLM использует знания LLM и кросс-модальное внимание для объединения звука и текста чтобы оценить состояние дыхательной системы по аудио.
GlucoBench - комплексныq ресурс для исследований в области прогнозирования уровня глюкозы на основе данных непрерывного мониторинга глюкозы (CGM).
DiffAbXL - это масштабируемая модель диффузии, разработанная для прогнозирования и ранжирования аффинности связывания антител.
DALL-M - платформа, которая использует LLM для создания новых клинически значимых признаков, дополняя наборы данных рентгеновских снимков с учетом контекста.
ClinicalLab - набор инструментов и методологий, предназначенных для оценки и разработки медицинских агентов на основе LLM, которые могут эффективно имитировать процесс клинической диагностики.
Метод, основанный на диффузионных моделях, который позволяет генерировать реалистичные хирургические изображения с полными аннотациями.
MMedAgent предназначен для обработки медицинских изображений разных модальностей и решения задач: grounding, сегментация, классификация, генерация медицинских отчетов (MRG), генерация с извлечением информации (RAG) и визуальные вопросы и ответы (VQA).
Cистема предназначена для решения проблемы идентификации редких заболеваний, используя преимущества как NLP-инструментов, так и LLM.
Конвейер, который улучшает работу LLM в медицинской области, добавляя к ним информацию из медицинских учебников.
Исследование, посвященное поиску эффективных методов реконструкции КТ-изображений с ограниченным числом проекций.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥26👍13❤12🆒2
MaskLLM - метод обучения полуструктурированной разреженности для LLM, с которым можно сократить количество используемых параметров без ущерба для качества.
Суть - в моделировании паттернов N:M (где N - количество ненулевых значений в группе из M параметров) в виде обучаемого распределения.
Для дифференцируемой выборки маски используется дискретизация Gumbel Softmax, которая дает возможность проводить сквозное обучение на больших датасетах и получать более точные маски по сравнению с традиционными методами, основанными на эвристических критериях важности параметров.
Главное преимущество MaskLLM - метод может переносить паттерны разреженности между разными задачами и доменами. Это достигается путем обучения общего распределения масок, которое затем можно использовать для настройки на конкретные задачи без необходимости обучения с нуля.
Эффективность MaskLLM оценивали сравнением с другими методами на моделях LLaMA-2, Nemotron-4 и GPT-3.
Результаты показали, что MaskLLM достигает более низкой перплексии на наборе данных Wikitext при использовании 2:4 разреженности. Например, для LLaMA-2 7B MaskLLM достиг перплексии 6.72, в то время как SparseGPT показал результат 10.42.
После этого можно приступать к обрезке целевой модели, и, по завершению, сделать экспорт обученных разреженных моделей в формат Huggingface для дальнейшего использования.
⚠️ Скрипты и инструкции репозитория ориентированы на запуск MaskLLM-LLaMA-2/3 на одном узле с 8 GPU с тензорным параллелизмом и потребует ~40 ГБ на GPU для сквозного обучения.
@ai_machinelearning_big_data
#AI #ML #LLM #MaskLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍8🔥3
Модель построена на архитектуре Qwen2.5-14B-Instruct и использует 14 млрд. параметров. В процессе создания использовалась дистилляция с перекрестной архитектурой, объединяющая знания моделей Qwen2.5-72B-Instruct и Llama-3.1-405B-Instruct.
Для этого применялась дистилляция логитов из Llama 3.1 405B с использованием автономного подхода, адаптация к перекрестной архитектуре с использованием mergekit-tokensurgeon для создания версии Qwen2.5-14B, использующей словарь Llama 3.1 405B, а также дистилляция в архитектуру Qwen с использованием сохраненных логитов 405B в качестве цели.
На заключительном этапе, словарь модели Qwen, дистиллированной из Llama, был возвращен к словарю Qwen, а затем был проведен заключительный этап слияния и тонкой настройки.
В процессе обучения использовался набор данных EvolKit.
Arcee-SuperNova-Medius обладает навыками для решения бизнес-задач: поддержка клиентов, техническая поддержка и генерация текстового контента.
Тестирование в показало, что SuperNova-Medius превосходит Qwen2.5-14B и SuperNova-Lite по показателям, связанным с выполнением инструкций (IFEval) и сложным рассуждением (BBH).
@ai_machinelearning_big_data
#AI #ML #LLM #ArceeAI #SuperNova
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰15👍12❤5🔥5🌚1