Machine learning Interview

🚀 LLM с контекстом 64k+ пример того, как можно эффективно обучать модель даже на потребительских GPU - благодаря связке Ulysses + Ring Attention!

В ModelScope SWIFT объединили два метода параллелизма по последовательности:

✅ Ulysses - делит внимание по головам, почти не тратит трафик (но упирается в число heads)
✅ Ring Attention - масштабируется выше числа голов через кольцевые P2P-коммуникации, с «зиг-заг» балансировкой для causal-моделей

💡 Комбо-подход: сначала работает Ulysses, и только когда он перестаёт тянуть (например, GQA или кластер >8 GPU), подключается Ring.

🔥 Результат на Qwen2.5-3B при 65k токенов:
75.4 GiB → 17.9 GiB VRAM на 8× A100
Работает с SFT, DPO, GRPO, мультимодальностью и padding-free входами.

✨ Крутая инженерия:
Сплит последовательности встроен прямо в forward-hook модели —
никаких костылей в данных, полная совместимость с FlashAttention.

🔧 Включается одной флаг-командой:
--sequence_parallel_size 8

🟠

Подробнее : https://modelscope.cn/learn/1799

🟠

GitHub: https://github.com/modelscope/ms-swift

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤6

1.95K views14:02

Machine learning Interview

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Два 23-летних разработчика из Индии выпустили вторую по качеству open-weight AI-голосовую модель в мире.

Maya1 уже входит в топ-20 глобального рейтинга и обгоняет лучшие решения Google.
3B параметров, запускается на одной GPU, выдаёт более 20 эмоций и работает с задержкой <100 мс.

Главный вывод прост — сегодня можно просто взять и сделать.

huggingface.co/maya-research/maya1

❤8🔥7👏3👍2💊1

958 views07:13

About

Blog

Apps

Platform