Технозаметки Малышева

Infini-attention: эффективное масштабирование трансформеров на бесконечные контексты

Исследователи предложили эффективный метод масштабирования GPT моделей на бесконечно длинные входные данные с ограниченными ресурсами 🚀
Ключевой компонент - новая техника внимания Infini-attention, объединяющая сжатую память, замаскированное локальное внимание и линейное внимание в одном блоке трансформера 🧩
Метод продемонстрировал эффективность на задачах с контекстами длиной до 1 миллиона последовательностей и обобщением книг до 500 тысяч последовательностей, используя модели на 1-8 миллиардов параметров 📚
Infini-attention вводит минимальные ограничения по памяти и позволяет быструю потоковую обработку для языковых моделей ⚡️

https://arxiv.org/abs/2404.07143

Теперь нужно железо, которое это вытащит

#Transformers #LanguageModels #Infiniattention
-------
@tsingular

🔥1

108 viewsedited 03:23

Регулярно спрашивают,- что почитать, где поучиться этим вашим ИИ.
Ну нет ничего проще и бесплатнее, чем курс HuggingFace на русском языке.

Курс научит основам обработки естественного языка (NLP) с использованием таких библиотек, как:
- 🤗 Transformers
- 🤗 Datasets
- 🤗 Accelerate
- 🤗 Tokenizers
А также работе с репозиторием Hugging Face Hub.
Материалы курса включают теорию, практические упражнения и блокноты Jupyter с кодом.

#HuggingFace #NLPcourse #transformers
------
@tsingular

✍3🤗1

569 viewsedited 09:52

Технозаметки Малышева

1:18

Media is too big

VIEW IN TELEGRAM

Deepseek теперь в браузере!

Забавную игрушку сделали на базе WebGPU и разместили в HuggingFace.

Идея проекта,- он скачивает Deepseek Janus-Pro-1B и запускает в браузере на вашей машине.
Т.е. исполняется локально.

Можно по PDF пообщаться или картинку нарисовать или просто поговорить с 1B понять что это такое.

Пробуем тут

Исходники (сделано на базе transformers.js)

#JanusPro #WebGPU #transformers
———
@tsingular

🔥3👍2

944 viewsedited 16:36

Технозаметки Малышева

🚀 Трансформеры + vLLM: вместе вкуснее

vLLM выкатили обновление, которое теперь поддерживает Transformers от Hugging Face.

Суть в том, что теперь можно взять любую новую модель из Transformers и сразу запустить на ней оптимизированный инференс через vLLM не ожидая пока её кто-то сконвертирует в совместимый формат.

Достаточно просто указать:

from transformers import pipeline

pipe = pipeline("text-generation", model="meta-llama/Llama-3.2-1B")
result = pipe("The future of AI is")

print(result[0]["generated_text"])

И вуаля – получаем все плюшки vLLM с его PagedAttention и динамическим батчингом.

Бизнес-кейсы:

1. Снижение серверных затрат: vLLM эффективнее использует GPU-память.

2. OpenAI-совместимый API:

запускаем

vllm serve meta-llama/Llama-3.2-1B

вызываем по url

curl https://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "meta-llama/Llama-3.2-1B", "prompt": "San Francisco is a", "max_tokens": 7, "temperature": 0}'

или в коде

from openai import OpenAI

client = OpenAI(api_key="EMPTY", base_url="https://localhost:8000/v1")
completion = client.completions.create(
    model="meta-llama/Llama-3.2-1B",
    prompt="San Francisco is a",
    max_tokens=7,
    temperature=0
)
print("Completion result:", completion.choices[0].text)

3. Быстрое внедрение новых моделей: как только модель появляется в Transformers, её можно сразу оптимизированно применять в проде.

Пример с моделью Helium от Kyutai особенно показателен: несмотря на то, что эта модель ещё не поддерживается нативно в vLLM, её уже можно запустить через трансформерный бэкенд и получить значительный прирост в скорости.

#Transformers #vLLM #инференс #HuggingFace
———
@tsingular

👍5🔥2❤1

1.01K views04:55

Технозаметки Малышева

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

Hugging Face встроил HTTP-сервер в библиотеку Transformers

Команда Hugging Face добавила встроенный HTTP-сервер с OpenAI-совместимым API прямо в библиотеку Transformers.

Теперь можно запустить локальный сервер командой transformers serve и подключать любые приложения без дополнительных настроек.

В демо показали работу с приложением Jan от Menlo Research - модели можно менять на лету, есть предварительная поддержка tool calls.

Это серьезно упростит тестирование новых моделей в агентах и фреймворках без необходимости настройки отдельной инфраструктуры.

#HuggingFace #Transformers #OpenAI
------
@tsingular

🔥6❤1⚡1✍1

2.11K viewsedited 04:04

Технозаметки Малышева

🧠 Mixture-of-Recursions: Адаптивная "глубина мысли" для каждого токена

Исследователи из KAIST и Google создали архитектуру, которая динамически выделяет вычислительные ресурсы на уровне отдельных токенов — MoR (Mixture-of-Recursions).

Суть прорыва:
Вместо прогона всех токенов через фиксированное количество слоёв, модель сама решает, сколько "рекурсивных проходов" нужно каждому токену. Простые слова проходят быстро, сложные — получают дополнительные циклы обработки.

Техническая начинка:
- Адаптивный роутинг — лёгкий маршрутизатор назначает каждому токену количество рекурсий (1-4 прохода)
- Разделение параметров — один блок слоёв переиспользуется многократно (экономия памяти на 50%)
- Умное KV-кеширование — кеш ключей-значений только для активных токенов на каждой глубине
- Continuous depth-wise batching — пропускная способность выше на 2x за счёт параллельной обработки

Практический результат:
- Модель 360M параметров превосходит базовую при втрое меньшем количестве уникальных параметров
- Скорость обработки до 2.06x выше классических Трансформеров
- Обучение эффективнее: больше токенов в том же FLOP-бюджете

Применение:
Идеально для edge-deployment и случаев, где нужен баланс между качеством и скоростью. Семантически важные токены получают больше вычислений автоматически.
Архитектура показала масштабируемость до 1.7B параметров.
Следующий шаг — интеграция с reasoning-задачами для chain-of-thought оптимизации.

Вот для чего нужны миллионы видеокарт - обработка рекурсий.
Полный отчет в комментарии.

#MoR #efficiency #transformers #KAIST
———
@tsingular

✍3⚡1

1.1K views05:53

About

Blog

Apps

Platform