#DeepSeek и #Kimi представили технологии, которые могут изменить возможности языковых моделей
Сразу 2 китайские компании
DeepSeek и Kimi почти одновременно анонсировали технологии, которые могут кардинально изменить возможности языковых моделей.
DeepSeek представили NSA, а Kimi выпустила MoBA - два подхода к решению одной из главных проблем современных ИИ систем - неэффективной работы с длинными текстами.
Современные ИИ модели тратят до 80% времени обработки длинных текстов на механизм внимания. Это приводит к огромным затратам на вычисления. Ограничивает возможности работы с большими документами, кодовыми базами и длинными диалогами.
DeepSeek NSA предлагает трехуровневый подход:
- Сжатие токенов для общего контекста
- Умное выделение важных частей текста
- Локальный анализ через "скользящее окно".
Kimi MoBA использует:
- Разделение контекста на блоки
- Умную систему выбора релевантных блоков
- Плавное переключение между полным и разреженным вниманием.
Результаты:
- NSA: ускорение до 11.6 раз при декодировании. NSA оптимизирован под современные GPU архитектуры.
- MoBA: ускорение в 6.5 раз в производственной среде. MoBA предоставляет открытый исходный код.
- Оба решения сохраняют или улучшают качество работы моделей. Обе технологии можно интегрировать в существующие системы.
Для бизнеса преимущества:
- Снижение стоимости использования ИИ
- Возможность работы с большими документами
- Более эффективная автоматизация процессов.
Эксперты отмечают несколько ключевых моментов:
1. Технологии переходят от простой оптимизации к фундаментальным изменениям в работе ИИ.
2. Найден баланс между возможностями и стоимостью вычислений.
3. Открываются новые возможности для практического применения.
_______
Источник | #blockchainRF
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Сразу 2 китайские компании
DeepSeek и Kimi почти одновременно анонсировали технологии, которые могут кардинально изменить возможности языковых моделей.
DeepSeek представили NSA, а Kimi выпустила MoBA - два подхода к решению одной из главных проблем современных ИИ систем - неэффективной работы с длинными текстами.
Современные ИИ модели тратят до 80% времени обработки длинных текстов на механизм внимания. Это приводит к огромным затратам на вычисления. Ограничивает возможности работы с большими документами, кодовыми базами и длинными диалогами.
DeepSeek NSA предлагает трехуровневый подход:
- Сжатие токенов для общего контекста
- Умное выделение важных частей текста
- Локальный анализ через "скользящее окно".
Kimi MoBA использует:
- Разделение контекста на блоки
- Умную систему выбора релевантных блоков
- Плавное переключение между полным и разреженным вниманием.
Результаты:
- NSA: ускорение до 11.6 раз при декодировании. NSA оптимизирован под современные GPU архитектуры.
- MoBA: ускорение в 6.5 раз в производственной среде. MoBA предоставляет открытый исходный код.
- Оба решения сохраняют или улучшают качество работы моделей. Обе технологии можно интегрировать в существующие системы.
Для бизнеса преимущества:
- Снижение стоимости использования ИИ
- Возможность работы с большими документами
- Более эффективная автоматизация процессов.
Эксперты отмечают несколько ключевых моментов:
1. Технологии переходят от простой оптимизации к фундаментальным изменениям в работе ИИ.
2. Найден баланс между возможностями и стоимостью вычислений.
3. Открываются новые возможности для практического применения.
_______
Источник | #blockchainRF
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Telegram
All about AI, Web 3.0, BCI
#DeepSeek introduced NSA: A Hardware-Aligned and Natively Trainable Sparse Attention mechanism for ultra-fast long-context training & inference
Core components of NSA:
1. Dynamic hierarchical sparse strategy
2. Coarse-grained token compression
3. Fine-grained…
Core components of NSA:
1. Dynamic hierarchical sparse strategy
2. Coarse-grained token compression
3. Fine-grained…