Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.
Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.
Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).
⚠️ В процессе установки скачиваются дополнительные модели:
⚖️ Лицензирование: Apache-2.0
@ai_machinelearning_big_data
#Image2Animate #LipSync #ML #Diffusers #EchoMimic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Конец эры: через несколько часов ChatGPT-3.5 будет отключён на сайте OpenAI
Вскоре ChatGPT-3.5 прекратит свою работу на сайте OpenAI. На его место придёт новый бесплатный ИИ — GPT-4o-mini, о чём досрочно сообщили в Bloomberg.
Новый ИИ обещает быть значительно умнее своего предшественника, поддерживая работу не только с текстом, но и с видео и аудио.
@neural
Вскоре ChatGPT-3.5 прекратит свою работу на сайте OpenAI. На его место придёт новый бесплатный ИИ — GPT-4o-mini, о чём досрочно сообщили в Bloomberg.
Новый ИИ обещает быть значительно умнее своего предшественника, поддерживая работу не только с текстом, но и с видео и аудио.
@neural
Forwarded from Machinelearning
🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
📢 Новая аспирантура по ИИ : теория + практика
В новой аспирантуре по ИИ молодые ученые будут работать с новейшими алгоритмами и моделями машинного обучения, изучать и применять самые современные методологии — глубокое обучение, нейронные сети и усовершенствованные методы обработки данных. Запускают ее Яндекс, Вышка и ИТМО, чтобы объединить исследования с практикой. Это позволит получить ценный опыт в решении конкретных задач с использованием машинного обучения.
Также студентов ждет ежегодный грант в размере 800 тысяч рублей. Эти средства можно использовать для приобретения необходимого оборудования и программного обеспечения.
Подобные инициативы — шанс для будущих ученых быстрее сделать карьеру и углубить знания, применить их на практике в реальных продуктах.
В новой аспирантуре по ИИ молодые ученые будут работать с новейшими алгоритмами и моделями машинного обучения, изучать и применять самые современные методологии — глубокое обучение, нейронные сети и усовершенствованные методы обработки данных. Запускают ее Яндекс, Вышка и ИТМО, чтобы объединить исследования с практикой. Это позволит получить ценный опыт в решении конкретных задач с использованием машинного обучения.
Также студентов ждет ежегодный грант в размере 800 тысяч рублей. Эти средства можно использовать для приобретения необходимого оборудования и программного обеспечения.
Подобные инициативы — шанс для будущих ученых быстрее сделать карьеру и углубить знания, применить их на практике в реальных продуктах.
Forwarded from Machinelearning
Llama 3.1 - набор предварительно обученных и настроенных по инструкции генеративных моделей размером 8B, 70B и 405B (текст в тексте/текст на выходе). Модели Llama 3.1 с инструкциями (8B, 70B, 405B) оптимизированы для использования в многоязычных диалогах и превосходят многие из доступных моделей с открытым исходным кодом и закрытых моделей для чатов в распространенных отраслевых тестах.
Llama 3.1 - это авторегрессивная языковая модель, использующая оптимизированную архитектуру трансформаторов. В настроенных версиях используются контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF) для согласования с предпочтениями человека в отношении полезности и безопасности.
Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8
Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M
Эти веса можно запустить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU.
@ai_machinelearning_big_data
#AI #Llama3.1 #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Q-GaLore: алгоритм обучения и файнтюна LLM с экономией памяти.
Q-GaLore - набор методик, который значительно оптимизирует использование памяти при сохранении высокой производительности за счет техник, полученных в результате наблюдения за поведением стабилизации слоев и устойчивости матриц проекции к квантованию:
🟢 адаптивного обновления подпространств (увеличение интервала между операциями SVD и, как следствие, сокращение их числа на 60%);
🟢 квантовании весов и матриц в проекции (хранение весов модели в INT8, использовании 4-битных матриц проекции и применение стохастического округления для аппроксимации траектории обучения с высокой точностью)
🟢 применении метода fused backward operation в совокупности с 8-битным оптимизатором Adam.
Совокупность этих техник позволяет проводить полнопараметрическое обучение при меньших затратах памяти, например, обучение модели LLaMA-7B с нуля на одном NVIDIA RTX 4060 Ti с использованием всего 16 ГБ памяти.
▶️ Локальный запуск:
Пример конфига для претрейга LLaMa на с4 датасете
Пример конфига для претрейна LLaMA-7B на 16 GB VRAM
▪Лицензирование: Apache-2.0
▪Arxiv
▪Video from Open AGI Summit
▪Github [ Stars: 3.4K | Issues: 122 | Forks: 274]
@ai_machinelearning_big_data
#AI #FineTuning #LLM #QGalore #ML
Q-GaLore - набор методик, который значительно оптимизирует использование памяти при сохранении высокой производительности за счет техник, полученных в результате наблюдения за поведением стабилизации слоев и устойчивости матриц проекции к квантованию:
Совокупность этих техник позволяет проводить полнопараметрическое обучение при меньших затратах памяти, например, обучение модели LLaMA-7B с нуля на одном NVIDIA RTX 4060 Ti с использованием всего 16 ГБ памяти.
# # Install via conda
conda env create - f environment.yml
# or Install Q-GaLore optimizer and experiment dependencies
# install from pip
pip install q-galore-torch
# or install from source:
git clone https://github.com/VITA-Group/Q-GaLore.git
cd Q-GaLore
pip install -e
pip install -r exp_requirements.txt
Пример конфига для претрейга LLaMa на с4 датасете
Пример конфига для претрейна LLaMA-7B на 16 GB VRAM
▪Лицензирование: Apache-2.0
▪Arxiv
▪Video from Open AGI Summit
▪Github [ Stars: 3.4K | Issues: 122 | Forks: 274]
@ai_machinelearning_big_data
#AI #FineTuning #LLM #QGalore #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.
Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.
⚠️ Внимание:
Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.
# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e
# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d
# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))
@ai_machinelearning_big_data
#AI #ML #SLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/amd/debug.md
А здесь большое руководству по устранению различных неполадок для NVIDIA https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/nvidia/debug.md
@ai_machinelearning_big_data
#amd #NVIDIA #Troubleshooting
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.
Обновление до CogVideoX :
CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео.
Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.
Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.
CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.
При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна.
Технические параметры CogVideoX-5B не публиковались.
CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество.
CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами.
Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео.
Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями.
Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации.
Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели.
Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках.
Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py.
По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д.
Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео.
# Clone repository & install requirements:
git clone https://github.com/THUDM/CogVideo.git
pip install -r requirements.txt
cd inference
# For Linux and Windows run GradioUI
python gradio_web_demo.py
# For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090)
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py
@ai_machinelearning_big_data
#AI #VLM #ML #Text2Video #CogVideoX
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 AI VK HUB - тг канал от ML команд VK.
Здесь рассказывают про реальные практические кейсы команды VK, разбирают теорию, тестируют новые ML-модели (и LLM) и обсуждают актуальные статьи, которые точно не стоит пропускать.
Постов много, и они разные, но для себя выделил:
- подборка сервисов для инференса ML-моделей
- претрейн контентного видео-энкодера
- крутые дайджесты мл-инструментов и новостей
Подписывайтесь, потом сами себе спасибо скажете: @aihubvk
Здесь рассказывают про реальные практические кейсы команды VK, разбирают теорию, тестируют новые ML-модели (и LLM) и обсуждают актуальные статьи, которые точно не стоит пропускать.
Постов много, и они разные, но для себя выделил:
- подборка сервисов для инференса ML-моделей
- претрейн контентного видео-энкодера
- крутые дайджесты мл-инструментов и новостей
Подписывайтесь, потом сами себе спасибо скажете: @aihubvk