Технозаметки Малышева

🚀 Docling 2.0: Новый cтандарт предобработки документов для RAG

32,830 звёзд на GitHub за год — Docling от IBM Research завоевывает все большую популярность и становится основным инструментом для подготовки документов к AI обработке.

Что изменилось в версии 2.0:
30x ускорение по сравнению с традиционным OCR:

- 3.1 сек/страница на CPU x86
- 0.49 сек/страница на Nvidia L4 GPU
- 0.35 сек/страница с новой SmolDocling (256M параметров, <500MB VRAM)

Ключевой подход: компьютерное зрение вместо OCR там, где возможно — PDF обрабатываются напрямую через специализированные AI-модели.

Технические преимущества
TableFormer достигает 93.6% точности против 67.9% у Tabula и 73.0% у Camelot — обрабатывает сложные таблицы с частичными границами и иерархическими заголовками.

SmolDocling + формат DocTags — сквозное преобразование документов в один проход.

Новый markup-формат под VLMки.

ASR-поддержка для WAV/MP3 — теперь можно обрабатывать записи встреч и лекций.

Корпоративные внедрения
- Red Hat Enterprise Linux AI использует Docling как ядро InstructLab для кастомизации моделей.
- IBM: уже обработали 2.1M PDF из Common Crawl, планы до 1.8B PDF для обучения Granite.
- Linux Foundation AI & Data — официальное управление с мая 2025, статус enterprise-ready.

Интеграции "из коробки"
- LangChain: DoclingLoader с режимами DOC_CHUNKS и MARKDOWN
- LlamaIndex: DoclingReader + DoclingNodeParser
- Haystack/CrewAI: прямая поддержка агентных workflow
- Унифицированный формат: экспорт в Markdown, HTML, DocTags, JSON

Практическое применение
Когда использовать: сложные документы, где структурная точность критична (финансовые отчёты, юридические контракты, научные статьи).
Когда НЕ использовать: простое извлечение текста — PyMuPDF будет в 50x быстрее.

MIT-лицензия - свободно используем для коммерции.

В планах разработки:
- Извлечение метаданных (авторы, ссылки, язык)
- Понимание диаграмм (уже частично в SmolDocling)
- Химические структуры (молекулы в патентах/исследованиях)

Полезная штука. Добавляем в пул микросервисов.

GitHub

#Docling #Documents #RAG #IBM
———
@tsingular

👍10⚡3✍2

2.08K viewsedited 05:56

Для всех вайбкодеров делюсь скриптом, который автоматически установит и поднимет у вас локальный докер с docling, через который вы можете вызывать обработку документов, получать номер очереди потом периодически проверять в нем результат.

Скрипт - просто скачать и запустить в ubuntu. (докер должен быть уже установлен)

а дальше проверить можно так:

curl -s -X POST https://localhost:8080/jobs \
-H "Content-Type: application/json" \
-d '{"source": "https://arxiv.org/pdf/2206.01062"}'

он выдаст номер очереди

дальше по этому номеру очереди забираем результат когда он будет готов:

curl -s https://localhost:8080/jobs/НОМЕР-ОЧЕРЕДИ/result

Спасибо принимаются сюда :)

#docling #docker #dev
------
@tsingular

3🔥11⚡4👍3✍1😁1

1.52K viewsedited 08:35

About

Blog

Apps

Platform