GitHub Разработчика

zerox

Если хочется гонять через AI PDF, Word и прочие документы, вытаскивать оттуда текст, таблицы, графики, то с обычным OCR часто боль: то распознает криво, то верстка разъезжается в хлам.

Случайно наткнулся на Zerox OCR, это опенсорс-тулза, которая делает хитрее: сначала конвертит документ в картинки, а потом отдает их vision-модели, чтобы она по сути “прочитала” страницы и выдала результат в Markdown. За счет этого точность выше и формат лучше сохраняется.

Флоу максимально простой: загрузил документ → получил последовательность изображений → каждую страницу прогнал через визуальную модель → собрал общий Markdown. Поддерживает PDF, DOCX, Excel, PPT и еще десятки форматов.

Есть поддержка разных провайдеров моделей: OpenAI, Azure, AWS Bedrock, Google Gemini и т.д. Плюс можно кастомить промпты и правила извлечения данных.

Внутри также есть структурированное извлечение: можно задать свой JSON Schema и вытаскивать из документа ровно те поля, которые тебе нужны, без ручной разметки и копипасты.

Если ты регулярно разбираешь документы или хочешь нормально скармливать их содержимое AI для дальнейшего анализа, штука точно стоит того, чтобы попробовать.

📁 Language: #TypeScript 67.6%

⭐️ Stars: 12.1k

➡️

Cсылка на GitHub

📱

@git_developer

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

1.25K views06:07

GitHub Разработчика

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

Textream

Записываешь видео, выступаешь, ведёшь подкаст. Читаешь по тексту и звучишь деревянно, без текста легко забыть фразу и начать мяться. В итоге “говорить естественно” реально сложнее, чем кажется.

На GitHub нашёл Textream, это опенсорсный телесуфлёр для ведущих, спикеров и подкастеров. Он подсказывает текст прямо во время речи и умеет автоматически отслеживать, на каком месте ты сейчас.

Основан на нативном распознавании речи macOS и даёт три режима подсказок:

▪️подсветка слов в реальном времени (по мере того, как ты говоришь)
▪️автопрокрутка с постоянной скоростью
▪️голосовая прокрутка: говоришь, текст едет; сделал паузу, прокрутка остановилась

Всё работает офлайн, без интернета.

Показывать можно как удобно:

▪️верхнее плавающее окно, похожее на “динамический остров” на MacBook
▪️отдельное перетаскиваемое окошко
▪️фуллскрин на iPad как второй экран

Подсказки видишь только ты, зрителям это не светится.

Ещё фишки:

▪️вытягивает speaker notes из PowerPoint
▪️можно сохранять сценарии в .textream и переиспользовать
▪️настройки шрифтов, цветов подсветки и скорости прокрутки

Если часто говоришь в камеру или на аудиторию и хочешь звучать живо, а не “читаю по бумажке”, стоит попробовать.

📁 Language: #Swift 99.0%

⭐️ Stars: 928

➡️

Cсылка на GitHub

📱

@git_developer

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

896 views16:07

About

Blog

Apps

Platform