FSCP – Telegram

FSCP

#DeepSeek и #Kimi представили технологии, которые могут изменить возможности языковых моделей

Сразу 2 китайские компании
DeepSeek и Kimi почти одновременно анонсировали технологии, которые могут кардинально изменить возможности языковых моделей.

DeepSeek представили NSA , а Kimi выпустила MoBA - два подхода к решению одной из главных проблем современных ИИ систем - неэффективной работы с длинными текстами.

Современные ИИ модели тратят до 80% времени обработки длинных текстов на механизм внимания. Это приводит к огромным затратам на вычисления. Ограничивает возможности работы с большими документами, кодовыми базами и длинными диалогами.

DeepSeek NSA предлагает трехуровневый подход:
- Сжатие токенов для общего контекста
- Умное выделение важных частей текста
- Локальный анализ через "скользящее окно".

Kimi MoBA использует:
- Разделение контекста на блоки
- Умную систему выбора релевантных блоков
- Плавное переключение между полным и разреженным вниманием.

Результаты:
- NSA: ускорение до 11.6 раз при декодировании. NSA оптимизирован под современные GPU архитектуры.
- MoBA: ускорение в 6.5 раз в производственной среде. MoBA предоставляет открытый исходный код.
- Оба решения сохраняют или улучшают качество работы моделей. Обе технологии можно интегрировать в существующие системы.

Для бизнеса преимущества:

- Снижение стоимости использования ИИ

- Возможность работы с большими документами

- Более эффективная автоматизация процессов.

Эксперты отмечают несколько ключевых моментов:

1. Технологии переходят от простой оптимизации к фундаментальным изменениям в работе ИИ.
2. Найден баланс между возможностями и стоимостью вычислений.
3. Открываются новые возможности для практического применения.

_______
Источник | #blockchainRF
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney

All about AI, Web 3.0, BCI

#DeepSeek introduced NSA: A Hardware-Aligned and Natively Trainable Sparse Attention mechanism for ultra-fast long-context training & inference

Core components of NSA:

1. Dynamic hierarchical sparse strategy
2. Coarse-grained token compression
3. Fine-grained…

1.1K viewsedited 16:44

About

Blog

Apps

Platform