Machine learning Interview
34.3K subscribers
1.36K photos
104 videos
13 files
916 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🚀 LLM с контекстом 64k+ пример того, как можно эффективно обучать модель даже на потребительских GPU - благодаря связке Ulysses + Ring Attention!

В ModelScope SWIFT объединили два метода параллелизма по последовательности:

Ulysses - делит внимание по головам, почти не тратит трафик (но упирается в число heads)
Ring Attention - масштабируется выше числа голов через кольцевые P2P-коммуникации, с «зиг-заг» балансировкой для causal-моделей

💡 Комбо-подход: сначала работает Ulysses, и только когда он перестаёт тянуть (например, GQA или кластер >8 GPU), подключается Ring.

🔥 Результат на Qwen2.5-3B при 65k токенов:
75.4 GiB → 17.9 GiB VRAM на 8× A100
Работает с SFT, DPO, GRPO, мультимодальностью и padding-free входами.

Крутая инженерия:
Сплит последовательности встроен прямо в forward-hook модели —
никаких костылей в данных, полная совместимость с FlashAttention.

🔧 Включается одной флаг-командой:
--sequence_parallel_size 8

🟠Подробнее : https://modelscope.cn/learn/1799
🟠 GitHub: https://github.com/modelscope/ms-swift
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106
This media is not supported in your browser
VIEW IN TELEGRAM
Два 23-летних разработчика из Индии выпустили вторую по качеству open-weight AI-голосовую модель в мире.

Maya1 уже входит в топ-20 глобального рейтинга и обгоняет лучшие решения Google.
3B параметров, запускается на одной GPU, выдаёт более 20 эмоций и работает с задержкой <100 мс.

Главный вывод прост — сегодня можно просто взять и сделать.

huggingface.co/maya-research/maya1
8🔥7👏3👍2💊1