Neural Networks | Нейронные сети
11.6K subscribers
737 photos
161 videos
170 files
9.4K links
Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263
Download Telegram
Forwarded from Machinelearning
🖥 Полезные заметки по устранению неполадок в AMD MI300X и других подобных устройствах

https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/amd/debug.md

А здесь большое руководству по устранению различных неполадок для NVIDIA https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/nvidia/debug.md

@ai_machinelearning_big_data

#amd #NVIDIA #Troubleshooting
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ CogVideoX: Код и модель Text-to-video генерации.

CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.
Обновление до CogVideoX :

🟠переход на библиотеку diffusers версии 0.30.0, что позволяет выполнять инференс на одном GPU NVIDIA 24Gb;
🟠использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь.

CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео.
Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.
Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.

CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.
При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна.
Технические параметры CogVideoX-5B не публиковались.

CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество.

CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами.
Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео.

Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями.
Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации.
Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели.

Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках.

▶️Локальный запуск доступен в нескольких вариантах:

🟢с использованием SAT (SwissArmyTransformers) весов и адаптированного кода. Подробная инструкция доступна тут;
🟢с использованием Diffusers в режимах : СLi-инференса, GradioUI и Streamlit web app.

Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py.
По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д.
Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео.


▶️Установка и запуск:

# Clone repository & install requirements:
git clone https://github.com/THUDM/CogVideo.git
pip install -r requirements.txt
cd inference

# For Linux and Windows run GradioUI
python gradio_web_demo.py

# For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090)
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py

📌Лицензирование :

🟢Код: Apache 2.0 License.

🟠Модель : CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).


🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🟡Модель для Diffusers
🟡VAE для SAT
🟡Модель для SAT
🖥Github [ Stars: 5.5K | Issues: 19 | Forks: 495]


@ai_machinelearning_big_data

#AI #VLM #ML #Text2Video #CogVideoX
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 AI VK HUB - тг канал от ML команд VK.

Здесь рассказывают про реальные практические кейсы команды VK, разбирают теорию, тестируют новые ML-модели (и LLM) и обсуждают актуальные статьи, которые точно не стоит пропускать.

Постов много, и они разные, но для себя выделил:
- подборка сервисов для инференса ML-моделей
- претрейн контентного видео-энкодера
- крутые дайджесты мл-инструментов и новостей

Подписывайтесь, потом сами себе спасибо скажете: @aihubvk
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 UnpromptedControl

Unprompted Control — это утилита, которая автоматически удаляет объекты с изображений и восстанавливает поврежденные области, используя методы глубокого обучения и смешивания. В этом процессе ключевую роль играют модели Control Net и Stable Diffusion Inpaint Pipeline, которые направляют восстановление и обеспечивают естественное слияние результатов с остальным изображением.

Однако метод имеет свои ограничения, особенно при работе с изображениями лиц и тел людей. В таких случаях может потребоваться маскирование не только самого объекта, но и его теней для достижения наилучшего результата.

Несмотря на эти сложности, репозиторий предлагает ценный инструмент для бесшовного восстановления и удаления объектов.

- Githiub
- Colab

@neural
This media is not supported in your browser
VIEW IN TELEGRAM
💬 Мощный нейропереводчик

Нейросеть Babelfish получила обновление, которое значительно улучшило распознавание речи — теперь она может в реальном времени переводить любое аудио на нужный вам язык.

🖥 Github

@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Душный NLP
Mixture-of-Agents — простой способ улучшения ответов LLM

Сегодня рассмотрим статью, которая описывает метод улучшения результатов LLM на разных бенчмарках без дообучения. Он называется Mixture-of-Agents (MoA).

Суть метода заключается в использовании нескольких LLM для генерации ответов. Авторы статьи создали многослойную структуру с несколькими агентами — собственно, моделями — на каждом слое. На вход подавали один вопрос. Каждый из агентов давал ответ. Затем полученные данные агрегировались и вместе с промптом передавались на следующий слой, где процесс запускался заново.

В итоге получался ответ, который превосходит по качеству все предыдущие. Интересно то, что модели показывают лучшие результаты, когда имеют доступ к выходным данным других LLM — даже если ответы последних не слишком качественные. Этот феномен авторы назвали «коллаборативностью LLM» (Сollaborativeness of LLMs).

Эксперименты показали, что использование разных LLM на разных слоях улучшает результаты. Агрегаторы тоже играют важную роль — если пропоузеры могут быть относительно простыми и легкими, то агрегаторы требуют значительных вычислительных ресурсов.

Бенчмарки подтвердили, что MoA — эффективный метод. Скажем, на AlpacaEval 2.0 и MT-Bench применение такой архитектуры дало прирост производительности до 8% по сравнению с GPT-4 Omni.

Впрочем, MoA есть куда расти. Например, в области уменьшения времени до первого токена. Из-за итеративной агрегации конечному пользователю приходится долго ждать ответа на вопрос. Авторы статьи намерены бороться с этим недостатком.

Рассказывайте в комментариях, что думаете о MoA?

Разбор подготовил Никита Шевченко

Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Midjourney стал бесплатным! Разработчики только что выпустили полноценную веб-версию и снова открыли free trial для всех!

Теперь на сайте можно не только создавать изображения, но и просматривать ленту с работами других пользователей, а также изучать лучшие промпты. Каждая ваша генерация автоматически сохраняется в библиотеке. Бонус: в веб-версии за одну генерацию вы получаете сразу 4 готовых изображения.

Создавайте уникальные картинки прямо на сайте!
This media is not supported in your browser
VIEW IN TELEGRAM
👉 Трудности при обучении Алисы казахскому языку

ML-разработчики Яндекса рассказали, как устроен синтез речи у виртуального помощника и насколько сложно было обучить Алису новому языку. В частности, написали про работу с заимствованиями, агглютинацию и нормализацию.

@neural
Нейросетевая технология OmniCast помогает прогнозировать погоду с точностью до городского квартала

О создании новой, внедренной в Яндекс Погоду, технологии рассказали на Хабре. Разработчики поделились, как вообще Яндекс Погода создает прогноз и что изменилось с запуском OmniCast.

@neural
Forwarded from Yandex for Developers
👀 ICML 2024 глазами ML-лидов Яндекса

The International Conference on Machine Learning — одна из крупнейших международных конференций по машинному обучению.

➡️ В этом году её посетила делегация из 46 яндексоидов. Недавно впечатлениями делился наш коллега Владислав Офицеров, а теперь о своих наблюдениях рассказывают CTO Поиска Алексей Гусаков и ML Brand Director Пётр Ермаков — листайте карточки!

⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь:
💬 @Yandex4Developers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM