Технозаметки Малышева
5.61K subscribers
2.8K photos
937 videos
38 files
3.08K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Infini-attention: эффективное масштабирование трансформеров на бесконечные контексты

Исследователи предложили эффективный метод масштабирования GPT моделей на бесконечно длинные входные данные с ограниченными ресурсами 🚀
Ключевой компонент - новая техника внимания Infini-attention, объединяющая сжатую память, замаскированное локальное внимание и линейное внимание в одном блоке трансформера 🧩
Метод продемонстрировал эффективность на задачах с контекстами длиной до 1 миллиона последовательностей и обобщением книг до 500 тысяч последовательностей, используя модели на 1-8 миллиардов параметров 📚
Infini-attention вводит минимальные ограничения по памяти и позволяет быструю потоковую обработку для языковых моделей ⚡️

https://arxiv.org/abs/2404.07143

Теперь нужно железо, которое это вытащит

#Transformers #LanguageModels #Infiniattention
-------
@tsingular
🔥1
Регулярно спрашивают,- что почитать, где поучиться этим вашим ИИ.
Ну нет ничего проще и бесплатнее, чем курс HuggingFace на русском языке.

Курс научит основам обработки естественного языка (NLP) с использованием таких библиотек, как:
- 🤗 Transformers
- 🤗 Datasets
- 🤗 Accelerate
- 🤗 Tokenizers
А также работе с репозиторием Hugging Face Hub.
Материалы курса включают теорию, практические упражнения и блокноты Jupyter с кодом.

#HuggingFace #NLPcourse #transformers
------
@tsingular
3🤗1
Media is too big
VIEW IN TELEGRAM
Deepseek теперь в браузере!

Забавную игрушку сделали на базе WebGPU и разместили в HuggingFace.

Идея проекта,- он скачивает Deepseek Janus-Pro-1B и запускает в браузере на вашей машине.
Т.е. исполняется локально.

Можно по PDF пообщаться или картинку нарисовать или просто поговорить с 1B понять что это такое.

Пробуем тут

Исходники (сделано на базе transformers.js)

#JanusPro #WebGPU #transformers
———
@tsingular
🔥3👍2
🚀 Трансформеры + vLLM: вместе вкуснее

vLLM выкатили обновление, которое теперь поддерживает Transformers от Hugging Face.

Суть в том, что теперь можно взять любую новую модель из Transformers и сразу запустить на ней оптимизированный инференс через vLLM не ожидая пока её кто-то сконвертирует в совместимый формат.

Достаточно просто указать:
from transformers import pipeline

pipe = pipeline("text-generation", model="meta-llama/Llama-3.2-1B")
result = pipe("The future of AI is")

print(result[0]["generated_text"])


И вуаля – получаем все плюшки vLLM с его PagedAttention и динамическим батчингом.

Бизнес-кейсы:

1. Снижение серверных затрат: vLLM эффективнее использует GPU-память.

2. OpenAI-совместимый API:

запускаем
vllm serve meta-llama/Llama-3.2-1B


вызываем по url
curl https://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{"model": "meta-llama/Llama-3.2-1B", "prompt": "San Francisco is a", "max_tokens": 7, "temperature": 0}'


или в коде
from openai import OpenAI

client = OpenAI(api_key="EMPTY", base_url="https://localhost:8000/v1")
completion = client.completions.create(
model="meta-llama/Llama-3.2-1B",
prompt="San Francisco is a",
max_tokens=7,
temperature=0
)
print("Completion result:", completion.choices[0].text)


3. Быстрое внедрение новых моделей: как только модель появляется в Transformers, её можно сразу оптимизированно применять в проде.

Пример с моделью Helium от Kyutai особенно показателен: несмотря на то, что эта модель ещё не поддерживается нативно в vLLM, её уже можно запустить через трансформерный бэкенд и получить значительный прирост в скорости.

#Transformers #vLLM #инференс #HuggingFace
———
@tsingular
👍5🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
Hugging Face встроил HTTP-сервер в библиотеку Transformers

Команда Hugging Face добавила встроенный HTTP-сервер с OpenAI-совместимым API прямо в библиотеку Transformers.

Теперь можно запустить локальный сервер командой transformers serve и подключать любые приложения без дополнительных настроек.

В демо показали работу с приложением Jan от Menlo Research - модели можно менять на лету, есть предварительная поддержка tool calls.

Это серьезно упростит тестирование новых моделей в агентах и фреймворках без необходимости настройки отдельной инфраструктуры.

#HuggingFace #Transformers #OpenAI
------
@tsingular
🔥6111
🧠 Mixture-of-Recursions: Адаптивная "глубина мысли" для каждого токена

Исследователи из KAIST и Google создали архитектуру, которая динамически выделяет вычислительные ресурсы на уровне отдельных токенов — MoR (Mixture-of-Recursions).

Суть прорыва:
Вместо прогона всех токенов через фиксированное количество слоёв, модель сама решает, сколько "рекурсивных проходов" нужно каждому токену. Простые слова проходят быстро, сложные — получают дополнительные циклы обработки.

Техническая начинка:
- Адаптивный роутинг — лёгкий маршрутизатор назначает каждому токену количество рекурсий (1-4 прохода)
- Разделение параметров — один блок слоёв переиспользуется многократно (экономия памяти на 50%)
- Умное KV-кеширование — кеш ключей-значений только для активных токенов на каждой глубине
- Continuous depth-wise batching — пропускная способность выше на 2x за счёт параллельной обработки

Практический результат:
- Модель 360M параметров превосходит базовую при втрое меньшем количестве уникальных параметров
- Скорость обработки до 2.06x выше классических Трансформеров
- Обучение эффективнее: больше токенов в том же FLOP-бюджете

Применение:
Идеально для edge-deployment и случаев, где нужен баланс между качеством и скоростью. Семантически важные токены получают больше вычислений автоматически.
Архитектура показала масштабируемость до 1.7B параметров.
Следующий шаг — интеграция с reasoning-задачами для chain-of-thought оптимизации.

Вот для чего нужны миллионы видеокарт - обработка рекурсий.
Полный отчет в комментарии.

#MoR #efficiency #transformers #KAIST
———
@tsingular
31