DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.
Как это работает
Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.
Архитектура
Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.
Под капотом — SAM + CLIP:
- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.
Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.
- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%
После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.
DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.
Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.
На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.
Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR
👉 @bigdata_1
Как это работает
Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.
Архитектура
Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.
Под капотом — SAM + CLIP:
- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.
Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.
- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%
После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.
DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.
Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.
На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.
Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR
👉 @bigdata_1
👍3
Media is too big
VIEW IN TELEGRAM
Glyph: масштабирование контекстных окон через визуально-текстовую компрессию
Это фреймворк, предназначенный для увеличения длины контекста с помощью визуально-текстовой компрессии. Вместо расширения контекстных окон, основанных на токенах, Glyph преобразует длинные текстовые последовательности в изображения и обрабатывает их с помощью vision–language моделей (VLMs). Такой подход превращает задачу моделирования длинного контекста в мультимодальную проблему, значительно снижая вычислительные и память-затраты при сохранении семантической информации.
https://github.com/thu-coai/Glyph
👉 @bigdata_1
Это фреймворк, предназначенный для увеличения длины контекста с помощью визуально-текстовой компрессии. Вместо расширения контекстных окон, основанных на токенах, Glyph преобразует длинные текстовые последовательности в изображения и обрабатывает их с помощью vision–language моделей (VLMs). Такой подход превращает задачу моделирования длинного контекста в мультимодальную проблему, значительно снижая вычислительные и память-затраты при сохранении семантической информации.
https://github.com/thu-coai/Glyph
👉 @bigdata_1
👍1
Last Call: ИИ, бэкенд и фронтенд в одном хакатоне
Wink AI Challenge — соревнование для разработчиков, которые знакомы с нейросетями и мультимодальными данными. Разбираешься в NLP и интеграции моделей? Приходи и покажи, на что способен твой ИИ. Призовой фонд — 1 125 000 рублей.
Последние дни регистрации — открыта до 4 ноября включительно: https://cnrlink.com/winkaichallengebigdata
ML-инженеры, backend- и frontend-разработчики, DevOps, MLOps и мультимедиа-инженеры — ваш выход. Алгоритм такой:
1️⃣ Получи реальный текстовый набор данных.
2️⃣ Проанализируй структуру и извлеки ключевые сущности.
3️⃣ Собери ИИ-сервис, который помогает принимать решения в киноиндустрии.
Задачи хакатона:
🔸 Построй модель зависимости между сценами и структурируй сценарий.
🔸 Преврати текст в эскизы с помощью text-to-image для создания превизуализации сценария.
🔸 Создай решение, которое классифицирует контент и находит сцены, влияющие на возрастной рейтинг.
Финал пройдёт в Москве — двум участникам из команды Wink оплатит билеты и проживание. Успей зарегистрироваться на первый в России хакатон по применению ИИ в кинопроизводстве: https://cnrlink.com/winkaichallengebigdata
Wink AI Challenge — соревнование для разработчиков, которые знакомы с нейросетями и мультимодальными данными. Разбираешься в NLP и интеграции моделей? Приходи и покажи, на что способен твой ИИ. Призовой фонд — 1 125 000 рублей.
Последние дни регистрации — открыта до 4 ноября включительно: https://cnrlink.com/winkaichallengebigdata
ML-инженеры, backend- и frontend-разработчики, DevOps, MLOps и мультимедиа-инженеры — ваш выход. Алгоритм такой:
1️⃣ Получи реальный текстовый набор данных.
2️⃣ Проанализируй структуру и извлеки ключевые сущности.
3️⃣ Собери ИИ-сервис, который помогает принимать решения в киноиндустрии.
Задачи хакатона:
🔸 Построй модель зависимости между сценами и структурируй сценарий.
🔸 Преврати текст в эскизы с помощью text-to-image для создания превизуализации сценария.
🔸 Создай решение, которое классифицирует контент и находит сцены, влияющие на возрастной рейтинг.
Финал пройдёт в Москве — двум участникам из команды Wink оплатит билеты и проживание. Успей зарегистрироваться на первый в России хакатон по применению ИИ в кинопроизводстве: https://cnrlink.com/winkaichallengebigdata
👍1
Трехслойная нейронная сеть. Она состоит из трех основных слоев: входного, скрытого и выходного. Каждый слой включает несколько нейронов, которые соединены между собой с помощью весов (обозначены как W).
Основные элементы сети:
- Входной слой: Принимает входные данные P и передает их на первый скрытый слой.
- Скрытый слой: Выполняет обработку данных с использованием весов W1 и смещений b1. Результат обработки передается на второй скрытый слой.
- Выходной слой: Генерирует итоговый результат, используя веса W3 и смещения b3.
Формулы:
1. Для первого слоя: a1 = f1(W1p + b1).
2. Для второго слоя: a2 = f2(W2a1 + b2).
3. Для третьего слоя: a3 = f3(W3a2 + b3).
Обозначения:
- P — входные данные.
- W1, W2, W3 — матрицы весов для каждого слоя.
- b1, b2, b3 — смещения для каждого слоя.
- f1, f2, f3 — функции активации.
👉 @bigdata_1
Основные элементы сети:
- Входной слой: Принимает входные данные P и передает их на первый скрытый слой.
- Скрытый слой: Выполняет обработку данных с использованием весов W1 и смещений b1. Результат обработки передается на второй скрытый слой.
- Выходной слой: Генерирует итоговый результат, используя веса W3 и смещения b3.
Формулы:
1. Для первого слоя: a1 = f1(W1p + b1).
2. Для второго слоя: a2 = f2(W2a1 + b2).
3. Для третьего слоя: a3 = f3(W3a2 + b3).
Обозначения:
- P — входные данные.
- W1, W2, W3 — матрицы весов для каждого слоя.
- b1, b2, b3 — смещения для каждого слоя.
- f1, f2, f3 — функции активации.
👉 @bigdata_1
👍3💩2