Infini-attention: эффективное масштабирование трансформеров на бесконечные контексты
Исследователи предложили эффективный метод масштабирования GPT моделей на бесконечно длинные входные данные с ограниченными ресурсами 🚀
Ключевой компонент - новая техника внимания Infini-attention, объединяющая сжатую память, замаскированное локальное внимание и линейное внимание в одном блоке трансформера 🧩
Метод продемонстрировал эффективность на задачах с контекстами длиной до 1 миллиона последовательностей и обобщением книг до 500 тысяч последовательностей, используя модели на 1-8 миллиардов параметров 📚
Infini-attention вводит минимальные ограничения по памяти и позволяет быструю потоковую обработку для языковых моделей ⚡️
https://arxiv.org/abs/2404.07143
Теперь нужно железо, которое это вытащит
#Transformers #LanguageModels #Infiniattention
-------
@tsingular
Исследователи предложили эффективный метод масштабирования GPT моделей на бесконечно длинные входные данные с ограниченными ресурсами 🚀
Ключевой компонент - новая техника внимания Infini-attention, объединяющая сжатую память, замаскированное локальное внимание и линейное внимание в одном блоке трансформера 🧩
Метод продемонстрировал эффективность на задачах с контекстами длиной до 1 миллиона последовательностей и обобщением книг до 500 тысяч последовательностей, используя модели на 1-8 миллиардов параметров 📚
Infini-attention вводит минимальные ограничения по памяти и позволяет быструю потоковую обработку для языковых моделей ⚡️
https://arxiv.org/abs/2404.07143
Теперь нужно железо, которое это вытащит
#Transformers #LanguageModels #Infiniattention
-------
@tsingular
🔥1
Регулярно спрашивают,- что почитать, где поучиться этим вашим ИИ.
Ну нет ничего проще и бесплатнее, чем курс HuggingFace на русском языке.
Курс научит основам обработки естественного языка (NLP) с использованием таких библиотек, как:
- 🤗 Transformers
- 🤗 Datasets
- 🤗 Accelerate
- 🤗 Tokenizers
А также работе с репозиторием Hugging Face Hub.
Материалы курса включают теорию, практические упражнения и блокноты Jupyter с кодом.
#HuggingFace #NLPcourse #transformers
------
@tsingular
Ну нет ничего проще и бесплатнее, чем курс HuggingFace на русском языке.
Курс научит основам обработки естественного языка (NLP) с использованием таких библиотек, как:
- 🤗 Transformers
- 🤗 Datasets
- 🤗 Accelerate
- 🤗 Tokenizers
А также работе с репозиторием Hugging Face Hub.
Материалы курса включают теорию, практические упражнения и блокноты Jupyter с кодом.
#HuggingFace #NLPcourse #transformers
------
@tsingular
✍3🤗1
Media is too big
VIEW IN TELEGRAM
Deepseek теперь в браузере!
Забавную игрушку сделали на базе WebGPU и разместили в HuggingFace.
Идея проекта,- он скачивает Deepseek Janus-Pro-1B и запускает в браузере на вашей машине.
Т.е. исполняется локально.
Можно по PDF пообщаться или картинку нарисовать или просто поговорить с 1B понять что это такое.
Пробуем тут
Исходники (сделано на базе transformers.js)
#JanusPro #WebGPU #transformers
———
@tsingular
Забавную игрушку сделали на базе WebGPU и разместили в HuggingFace.
Идея проекта,- он скачивает Deepseek Janus-Pro-1B и запускает в браузере на вашей машине.
Т.е. исполняется локально.
Можно по PDF пообщаться или картинку нарисовать или просто поговорить с 1B понять что это такое.
Пробуем тут
Исходники (сделано на базе transformers.js)
#JanusPro #WebGPU #transformers
———
@tsingular
🔥3👍2
🚀 Трансформеры + vLLM: вместе вкуснее
vLLM выкатили обновление, которое теперь поддерживает Transformers от Hugging Face.
Суть в том, что теперь можно взять любую новую модель из Transformers и сразу запустить на ней оптимизированный инференс через vLLM не ожидая пока её кто-то сконвертирует в совместимый формат.
Достаточно просто указать:
И вуаля – получаем все плюшки vLLM с его PagedAttention и динамическим батчингом.
Бизнес-кейсы:
1. Снижение серверных затрат: vLLM эффективнее использует GPU-память.
2. OpenAI-совместимый API:
запускаем
вызываем по url
или в коде
3. Быстрое внедрение новых моделей: как только модель появляется в Transformers, её можно сразу оптимизированно применять в проде.
Пример с моделью Helium от Kyutai особенно показателен: несмотря на то, что эта модель ещё не поддерживается нативно в vLLM, её уже можно запустить через трансформерный бэкенд и получить значительный прирост в скорости.
#Transformers #vLLM #инференс #HuggingFace
———
@tsingular
vLLM выкатили обновление, которое теперь поддерживает Transformers от Hugging Face.
Суть в том, что теперь можно взять любую новую модель из Transformers и сразу запустить на ней оптимизированный инференс через vLLM не ожидая пока её кто-то сконвертирует в совместимый формат.
Достаточно просто указать:
from transformers import pipeline
pipe = pipeline("text-generation", model="meta-llama/Llama-3.2-1B")
result = pipe("The future of AI is")
print(result[0]["generated_text"])
И вуаля – получаем все плюшки vLLM с его PagedAttention и динамическим батчингом.
Бизнес-кейсы:
1. Снижение серверных затрат: vLLM эффективнее использует GPU-память.
2. OpenAI-совместимый API:
запускаем
vllm serve meta-llama/Llama-3.2-1B
вызываем по url
curl https://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{"model": "meta-llama/Llama-3.2-1B", "prompt": "San Francisco is a", "max_tokens": 7, "temperature": 0}'
или в коде
from openai import OpenAI
client = OpenAI(api_key="EMPTY", base_url="https://localhost:8000/v1")
completion = client.completions.create(
model="meta-llama/Llama-3.2-1B",
prompt="San Francisco is a",
max_tokens=7,
temperature=0
)
print("Completion result:", completion.choices[0].text)
3. Быстрое внедрение новых моделей: как только модель появляется в Transformers, её можно сразу оптимизированно применять в проде.
Пример с моделью Helium от Kyutai особенно показателен: несмотря на то, что эта модель ещё не поддерживается нативно в vLLM, её уже можно запустить через трансформерный бэкенд и получить значительный прирост в скорости.
#Transformers #vLLM #инференс #HuggingFace
———
@tsingular
👍5🔥2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Hugging Face встроил HTTP-сервер в библиотеку Transformers
Команда Hugging Face добавила встроенный HTTP-сервер с OpenAI-совместимым API прямо в библиотеку Transformers.
Теперь можно запустить локальный сервер командой
В демо показали работу с приложением Jan от Menlo Research - модели можно менять на лету, есть предварительная поддержка tool calls.
Это серьезно упростит тестирование новых моделей в агентах и фреймворках без необходимости настройки отдельной инфраструктуры.
#HuggingFace #Transformers #OpenAI
------
@tsingular
Команда Hugging Face добавила встроенный HTTP-сервер с OpenAI-совместимым API прямо в библиотеку Transformers.
Теперь можно запустить локальный сервер командой
transformers serve
и подключать любые приложения без дополнительных настроек.В демо показали работу с приложением Jan от Menlo Research - модели можно менять на лету, есть предварительная поддержка tool calls.
Это серьезно упростит тестирование новых моделей в агентах и фреймворках без необходимости настройки отдельной инфраструктуры.
#HuggingFace #Transformers #OpenAI
------
@tsingular
🔥6❤1⚡1✍1
🧠 Mixture-of-Recursions: Адаптивная "глубина мысли" для каждого токена
Исследователи из KAIST и Google создали архитектуру, которая динамически выделяет вычислительные ресурсы на уровне отдельных токенов — MoR (Mixture-of-Recursions).
Суть прорыва:
Вместо прогона всех токенов через фиксированное количество слоёв, модель сама решает, сколько "рекурсивных проходов" нужно каждому токену. Простые слова проходят быстро, сложные — получают дополнительные циклы обработки.
Техническая начинка:
- Адаптивный роутинг — лёгкий маршрутизатор назначает каждому токену количество рекурсий (1-4 прохода)
- Разделение параметров — один блок слоёв переиспользуется многократно (экономия памяти на 50%)
- Умное KV-кеширование — кеш ключей-значений только для активных токенов на каждой глубине
- Continuous depth-wise batching — пропускная способность выше на 2x за счёт параллельной обработки
Практический результат:
- Модель 360M параметров превосходит базовую при втрое меньшем количестве уникальных параметров
- Скорость обработки до 2.06x выше классических Трансформеров
- Обучение эффективнее: больше токенов в том же FLOP-бюджете
Применение:
Идеально для edge-deployment и случаев, где нужен баланс между качеством и скоростью. Семантически важные токены получают больше вычислений автоматически.
Архитектура показала масштабируемость до 1.7B параметров.
Следующий шаг — интеграция с reasoning-задачами для chain-of-thought оптимизации.
Вот для чего нужны миллионы видеокарт - обработка рекурсий.
Полный отчет в комментарии.
#MoR #efficiency #transformers #KAIST
———
@tsingular
Исследователи из KAIST и Google создали архитектуру, которая динамически выделяет вычислительные ресурсы на уровне отдельных токенов — MoR (Mixture-of-Recursions).
Суть прорыва:
Вместо прогона всех токенов через фиксированное количество слоёв, модель сама решает, сколько "рекурсивных проходов" нужно каждому токену. Простые слова проходят быстро, сложные — получают дополнительные циклы обработки.
Техническая начинка:
- Адаптивный роутинг — лёгкий маршрутизатор назначает каждому токену количество рекурсий (1-4 прохода)
- Разделение параметров — один блок слоёв переиспользуется многократно (экономия памяти на 50%)
- Умное KV-кеширование — кеш ключей-значений только для активных токенов на каждой глубине
- Continuous depth-wise batching — пропускная способность выше на 2x за счёт параллельной обработки
Практический результат:
- Модель 360M параметров превосходит базовую при втрое меньшем количестве уникальных параметров
- Скорость обработки до 2.06x выше классических Трансформеров
- Обучение эффективнее: больше токенов в том же FLOP-бюджете
Применение:
Идеально для edge-deployment и случаев, где нужен баланс между качеством и скоростью. Семантически важные токены получают больше вычислений автоматически.
Архитектура показала масштабируемость до 1.7B параметров.
Следующий шаг — интеграция с reasoning-задачами для chain-of-thought оптимизации.
Вот для чего нужны миллионы видеокарт - обработка рекурсий.
Полный отчет в комментарии.
#MoR #efficiency #transformers #KAIST
———
@tsingular
✍3⚡1