Технозаметки Малышева

🚀 InfiniteHiP: 3 миллиона токенов на одном GPU!

Интересный подход для обработки сверхдлинных текстов, который решает классическую проблему LLM - ограничение контекстного окна.

- Систему научили обрабатывать контекст в 3 млн токенов на одном GPU (это примерно 2000 страниц текста!)
- Скорость работы в 18.95 раз выше традиционных методов
- Не требует дополнительного обучения модели!!!

🔍 Как это работает:
Система использует "модульное иерархическое сокращение" - представьте, что вы читаете книгу: сначала смотрите на заголовки глав, потом на важные абзацы, затем на ключевые предложения. Похожим образом работает и InfiniteHiP.

💡Менее важная информация хранится в обычной RAM, а не в памяти GPU. При необходимости данные подгружаются обратно. По сути RAG.

Практическое применение:
- Анализ больших документов (контракты, техническая документация)
- Обработка научных статей с сохранением полного контекста
- Работа с большими кодовыми базами

💼 Для бизнеса:
Техники эффективного управления памятью и внимания, разработанные в этом проекте, могут быть полезны для оптимизации других AI-приложений, где критична производительность.

📝 Paper: https://huggingface.co/papers/2502.08910
💻 Исходники: https://github.com/DeepAuto-AI/hip-attention/
▶️ Demo на DeepSeek 14B: https://chat.deepauto.ai/

Вот что мне это напомнило.
В детских книгах раньше как писали:
ГЛАВА ВОСЬМАЯ, в которой Кристофер Робин организует "искпедицию" к Северному Полюсу

В заголовке была краткая аннотация. Очень близко по сути.

#pruning #InfiniteHiP #huggingface
———
@tsingular

🔥5✍3⚡1

969 views11:45

About

Blog

Apps

Platform