Machinelearning – Telegram

Machinelearning

@ai_machinelearning_big_data

383K subscribers

4.46K photos

860 videos

17 files

4.89K links

Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri

Download Telegram

About

Blog

Apps

Platform

Machinelearning

383K subscribers

Machinelearning

🌟 OCRonos-Vintage: специализированная модель для коррекции OCR.

OCRonos-Vintage — это небольшая модель со 124 миллионами параметров и небольшим контекстным окном в 1024 токена, которая была предварительно обучена с нуля на 18 миллиардах токенов датасета материалов архивов культурного наследия для задачи коррекции OCR. Несмотря на свой небольшой размер, она обеспечивает качество коррекции, сопоставимое с большими моделями, такими как GPT-4, при этом эффективна для работы на CPU.

Модель обучалась в течение 2 эпох с использованием фреймворка обучения llm.c на наборе данных из Library of Congress, Internet Archive и Hathi Trust. Обучение проводилось на 4 графических процессорах H100 и заняло два с половиной часа. OCRonos-Vintage использует токенизатор GPT-2.

OCRonos-Vintage можно загрузить и использовать для инференса так же, как модель GPT-2. Она принимает OCR-текст в качестве входных данных и генерирует исправленный текст. Входные данные и данные инференса разделяются специальными тегами: "### Text ###" и "### Correction ###".
Модель также можно использовать для генерации стилизованного исторического текста, если дать подсказку, начинающуюся с ### Text ###. Это позволяет имитировать исторические стили письма и содержание.

▶️

Квантованная 5-bit GGUF версия модели размером всего 127 МБ для локального запуска на llama.cpp

📌Лицензирование : Apache 2.0 License

🟡

🟡

Google Collab (инференс)

🟡

Demo

@ai_machinelearning_big_data

#AI #SLM #ML #OCR

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤5🔥2🥰1🎄1

8.56K views15:52

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

⭐️

Новый релиз от Deepseek: DeepSeek-VL2-small (16B MoE) для vision-language задач.

Демо новой модели стало доступно на huggingface 🚀

Отличная модель для OCR задач, извлечения текста, распознания картинок и использования в чате.

🤗 HF: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

@ai_machinelearning_big_data

#deepseek #OCR #demo #prerelease

Please open Telegram to view this post

VIEW IN TELEGRAM

👍68🔥19❤7😁3

20.2K viewsedited 15:50

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 olmOCR: инструмент для обработки PDF-документов.

olmOCR — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах.

olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач.

Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема.

Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы.

В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.

▶️

Релиз olmOCR:

🟢Модель olmOCR-7B-0225-preview - дообученная Qwen2-VL-7B-Instruct на датасете olmOCR-mix-0225;

🟢Датасет olmOCR-mix-0225 - более 250 тыс. страниц цифровых книг и документов из публичного доступа, распознанные с помощью gpt-4o-2024-08-06 и специальной стратегия промптов, которая сохраняет все цифровое содержимое каждой страницы.

🟢

Набор кода для инференса и обучения.

▶️Рекомендованная среда для инференса:

🟠NVIDIA GPU (RTX 4090 и выше)
🟠30 GB свободного пространства на SSD \ HDD
🟠установленный пакет poppler-utils

🟠

sglang с flashinfer для GPU-инференса

▶️Локальная установка и запуск:

# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

# Set up a conda env 
conda create -n olmocr python=3.11
conda activate olmocr

git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf

# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🟡

Сообщество в Discord

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #OCR #Olmocr

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍47🔥17❤13😁1👻1

18.2K views18:01

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Mistral OCR – это новый высокоточный и мультимодальный API, предназначенный для всестороннего анализа документов.

Он работает с изображениями и PDF, возвращая результат в виде упорядоченного, структурированного вывода, где текст и визуальные элементы перемежаются в соответствии с исходной структурой документа.

Согласно внутренним тестам, Mistral OCR достигает 94.89% точности, опережая Google Document AI (83.42%) и Azure OCR (89.52%).

Система способна обрабатывать 2000 страниц в минуту (в том числе на русском языке) на одном вычислительном узле, предлагая функцию "doc-as-prompt" для использования документов в качестве инструкций. Полученные данные могут быть структурированы в формат JSON. Mistral OCR доступен в Le Chat и через API на la Plateforme.
mistral.ai

Вот колаб, в котором всё, что вам нужно для запуска:

— Вставить API в строку api_key (его можно получить бесплатно); — Загрузить файл в левую папку и заменить pdf_file = Path на имя вашего документа.

На выходы вы получите текст, изображения и таблицы — а таблицы всегда были для меня особенно сложными.

https://mistral.ai/fr/news/mistral-ocr

@ai_machinelearning_big_data

#mistral #ocr

1👍81❤26🔥12🤩5💯1

30.7K views01:52

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений

Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.

Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.

Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты

Архитектура:
• Визуальный энкодер — Swin Transformer
• Текстовый декодер — MBart
• Управление через промпты

📌 Возможности:
• Постраничная обработка документа
• Точечный парсинг отдельных элементов (например, таблиц)
• Высокая точность и скорость работы модели
• Открытая MIT-лицензия

Установка:

git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin

• Github
• HF
• Demo

@ai_machinelearning_big_data

#ocr #ByteDance

❤82👍42🔥21🥰4💋3🥱2💘2👏1

23.7K views12:01

Machinelearning

📄 PaddleOCR-VL (0.9B) — компактная Vision-Language модель нового поколения

Команда Baidu AI представила PaddleOCR-VL (0.9B) — сверхлёгкую VLM-модель, которая достигает SOTA-точности в задачах распознавания:

- текстов,
- таблиц,
- формул,
- графиков

💡 Под капотом:
- NaViT - динамический vision-энкодер
- ERNIE - облегчённая языковая модель от Baidu

⚡️ Поддержка 109 языков.

🟠

GitHub: https://github.com/PaddlePaddle/PaddleOCR)

🟠

HuggingFace: https://huggingface.co/PaddlePaddle/PaddleOCR-VL

🟠

Docs https://paddleocr.ai/latest/en/index.html

@ai_machinelearning_big_data

#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR

Please open Telegram to view this post

VIEW IN TELEGRAM

❤55🔥30👍17😁2💘1

28.7K views14:10

Machinelearning

📄 DeepSeek-OCR - модель для распознавания текста 🔍

DeepSeek выпустили мощную OCR-модель, способную преобразовывать изображения документов прямо в Markdown или текст.

Что умеет:
- Распознаёт текст на изображениях и в PDF
- Работает с документами, таблицами и сложными макетами
- Поддерживает разные режимы: Tiny, Small, Base, Large
- Оптимизирована под GPU (PyTorch + CUDA 11.8)
- MIT-лицензия — можно свободно использовать и модифицировать

DeepSeek-OCR достигает высокой точности и эффективности за счёт компрессии визуальных токенов. На Omnidocbench - лучшая точность при минимуме визуальных токенов, превосходит другие OCR-модели по эффективности и скорости.

🟠

HF: https://huggingface.co/deepseek-ai/DeepSeek-OCR

🟠

Github: https://github.com/deepseek-ai/DeepSeek-OCR

🟠

Paper: https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

@ai_machinelearning_big_data

#ocr #DeepSeek

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍248❤60🔥51👏18🤩9🥰6💯4😁2❤‍🔥1🤗1

31.5K views11:10

Machinelearning

🦉 LightOnOCR-1B: новая быстрая OCR-модель от LightOn

Модель дистиллирована из Qwen2-VL-72B-Instruct и обучена на корпусе из 17.6 млн страниц / 45.5 млрд токенов.

🔥 Главное:**
-1 B параметров
- позволяет обрабатывать 5.7 страниц/с на одном H100 (это примерно ≈ 493 000 страниц за день)
- Распознаёт таблицы, формы, уравнения и сложные макеты
- 6.5× быстрее dots.ocr, 1.7× быстрее DeepSeekOCR
- Расходы < $0.01 за 1000 страниц A4

📊 Качество (Olmo-Bench):
- Превосходит DeepSeekOCR
- Сопоставима с dots.ocr (при этом модель в 3 раза меньше по весу)
- +16 пт к Qwen3-VL-2B-Instruct

Эта моделька - отличный баланс качества, скорости и стоимости.

🟢

Модель 1B: https://huggingface.co/lightonai/LightOnOCR-1B-1025

🟢

Модель 0.9B (32k): https://huggingface.co/lightonai/LightOnOCR-0.9B-32k-1025)

🟢

Блог LightOn: https://huggingface.co/blog/lightonai/lightonocr

🟢

Демка: https://huggingface.co/spaces/lightonai/LightOnOCR-1B-Demo

@ai_machinelearning_big_data

#ocr #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤63👍28🔥19❤‍🔥1🤗1

37.9K views11:48

Machinelearning

⚡️

HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B

Tencent выложила в open-source новую модель HunyuanOCR.

Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan.

Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске.

⚡ Топ по бенчмаркам
• 860 на OCRBench среди всех моделей до 3B
• 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов

🌐 Что умеет HunyuanOCR
Модель закрывает практически все типы OCR задач
• текст на улицах, витринах, табличках
• рукописный текст и художественные шрифты
• сложные документы: таблицы, формулы, встроенный HTML и LaTeX
• субтитры в видео
• перевод текста на фото end-to-end сразу на 14 языков

Это не каскадный пайплайн, а единое решение
Один запрос и одно инференс-прогон дают готовый результат.

Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки.

📌 Project Page
web: https://hunyuan.tencent.com/vision/zh?tabIndex=0
mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
🔗 GitHub
https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 Hugging Face
https://huggingface.co/tencent/HunyuanOCR
📄 Technical Report
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf

@ai_machinelearning_big_data

#HunyuanOCR #TencentAI #OCR #VisionAI #DeepLearning #Multimodal #AIModels #OpenSourceAI #ComputerVision #DocumentAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤72👍27🥰7🤝2

34.5K views12:11