zerox
Если хочется гонять через AI PDF, Word и прочие документы, вытаскивать оттуда текст, таблицы, графики, то с обычным OCR часто боль: то распознает криво, то верстка разъезжается в хлам.
Случайно наткнулся на Zerox OCR, это опенсорс-тулза, которая делает хитрее: сначала конвертит документ в картинки, а потом отдает их vision-модели, чтобы она по сути “прочитала” страницы и выдала результат в Markdown. За счет этого точность выше и формат лучше сохраняется.
Флоу максимально простой: загрузил документ → получил последовательность изображений → каждую страницу прогнал через визуальную модель → собрал общий Markdown. Поддерживает PDF, DOCX, Excel, PPT и еще десятки форматов.
Есть поддержка разных провайдеров моделей: OpenAI, Azure, AWS Bedrock, Google Gemini и т.д. Плюс можно кастомить промпты и правила извлечения данных.
Внутри также есть структурированное извлечение: можно задать свой JSON Schema и вытаскивать из документа ровно те поля, которые тебе нужны, без ручной разметки и копипасты.
Если ты регулярно разбираешь документы или хочешь нормально скармливать их содержимое AI для дальнейшего анализа, штука точно стоит того, чтобы попробовать.
📁 Language: #TypeScript 67.6%
⭐️ Stars: 12.1k
➡️ Cсылка на GitHub
📱 @git_developer
Если хочется гонять через AI PDF, Word и прочие документы, вытаскивать оттуда текст, таблицы, графики, то с обычным OCR часто боль: то распознает криво, то верстка разъезжается в хлам.
Случайно наткнулся на Zerox OCR, это опенсорс-тулза, которая делает хитрее: сначала конвертит документ в картинки, а потом отдает их vision-модели, чтобы она по сути “прочитала” страницы и выдала результат в Markdown. За счет этого точность выше и формат лучше сохраняется.
Флоу максимально простой: загрузил документ → получил последовательность изображений → каждую страницу прогнал через визуальную модель → собрал общий Markdown. Поддерживает PDF, DOCX, Excel, PPT и еще десятки форматов.
Есть поддержка разных провайдеров моделей: OpenAI, Azure, AWS Bedrock, Google Gemini и т.д. Плюс можно кастомить промпты и правила извлечения данных.
Внутри также есть структурированное извлечение: можно задать свой JSON Schema и вытаскивать из документа ровно те поля, которые тебе нужны, без ручной разметки и копипасты.
Если ты регулярно разбираешь документы или хочешь нормально скармливать их содержимое AI для дальнейшего анализа, штука точно стоит того, чтобы попробовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Textream
Записываешь видео, выступаешь, ведёшь подкаст. Читаешь по тексту и звучишь деревянно, без текста легко забыть фразу и начать мяться. В итоге “говорить естественно” реально сложнее, чем кажется.
На GitHub нашёл Textream, это опенсорсный телесуфлёр для ведущих, спикеров и подкастеров. Он подсказывает текст прямо во время речи и умеет автоматически отслеживать, на каком месте ты сейчас.
Основан на нативном распознавании речи macOS и даёт три режима подсказок:
▪️ подсветка слов в реальном времени (по мере того, как ты говоришь)
▪️ автопрокрутка с постоянной скоростью
▪️ голосовая прокрутка: говоришь, текст едет; сделал паузу, прокрутка остановилась
Всё работает офлайн, без интернета.
Показывать можно как удобно:
▪️ верхнее плавающее окно, похожее на “динамический остров” на MacBook
▪️ отдельное перетаскиваемое окошко
▪️ фуллскрин на iPad как второй экран
Подсказки видишь только ты, зрителям это не светится.
Ещё фишки:
▪️ вытягивает speaker notes из PowerPoint
▪️ можно сохранять сценарии в .textream и переиспользовать
▪️ настройки шрифтов, цветов подсветки и скорости прокрутки
Если часто говоришь в камеру или на аудиторию и хочешь звучать живо, а не “читаю по бумажке”, стоит попробовать.
📁 Language: #Swift 99.0%
⭐️ Stars: 928
➡️ Cсылка на GitHub
📱 @git_developer
Записываешь видео, выступаешь, ведёшь подкаст. Читаешь по тексту и звучишь деревянно, без текста легко забыть фразу и начать мяться. В итоге “говорить естественно” реально сложнее, чем кажется.
На GitHub нашёл Textream, это опенсорсный телесуфлёр для ведущих, спикеров и подкастеров. Он подсказывает текст прямо во время речи и умеет автоматически отслеживать, на каком месте ты сейчас.
Основан на нативном распознавании речи macOS и даёт три режима подсказок:
Всё работает офлайн, без интернета.
Показывать можно как удобно:
Подсказки видишь только ты, зрителям это не светится.
Ещё фишки:
Если часто говоришь в камеру или на аудиторию и хочешь звучать живо, а не “читаю по бумажке”, стоит попробовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5