Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Сделал парсер для PDF файлов с Ollama глазками на базе gemma3:27b-it-qat

Вдруг кому полезно будет.
GitHub

На вход подаёте любой PDF - не важно что там сканы или текст.
Вытаскивается и текст и каждая страница сохраняется как изображение и отдаётся в ollama gemma3 на анализ.
Результат объединяется и для каждой страницы у вас будет 2 текстовых описания, которые дальше уже можно как удобно обрабатывать.

Модели можно подставлять любые - вызывается через url.

Размер файла тоже не ограничен.
Автоперевод на любой язык (указывается в настройках)
Страницы можно перерабатывать поштучно, указывая их в командной строке.
В случае остановки - продолжает с последней распознанной страницы.
Для каждой страницы сохраняются промежуточные результаты и потом объединяются в общий итоговый файл.
Дальше можно передавать в RAG цепочку.

#dev #PDF #ollama #gemma #OCR
———
@tsingular
🔥15115👍31🤯1