Text Grab
Иногда видишь текст на картинке, в видео или прямо в интерфейсе какого-нибудь приложения, а скопировать нельзя: не выделяется. Остается только вбивать руками, и если там длинный кусок, это прям боль.
Недавно на GitHub попался Text Grab, опенсорсный OCR-инструмент, который вытаскивает любой видимый на экране текст и дает сразу скопировать.
Он завязан на встроенный Windows OCR-движок: распознает локально, без интернета, не держит постоянно фоновый процесс, запускаешь по необходимости. Работает шустро.
Есть четыре режима:
▪️ полноэкранный захват: можно выделить область или кликнуть по слову и сразу распознать;
▪️ режим плавающего окна: закрепляешь где угодно и оно постоянно распознает;
▪️ окно редактирования текста: внутри есть разные инструменты обработки текста;
▪️ быстрые запросы: сохраняешь часто используемые куски и вызываешь их одним действием.
Еще есть поддержка CLI: можно делать OCR по файлу картинки или прогонять пакетно всю папку с изображениями.
Кому надо, можно поставить из Microsoft Store или скачать с GitHub. Также поддерживается установка через менеджеры пакетов scoop и choco.
📁 Language: #Csharp 99.5%
⭐️ Stars: 4.5k
➡️ Cсылка на GitHub
📱 @git_developer
Иногда видишь текст на картинке, в видео или прямо в интерфейсе какого-нибудь приложения, а скопировать нельзя: не выделяется. Остается только вбивать руками, и если там длинный кусок, это прям боль.
Недавно на GitHub попался Text Grab, опенсорсный OCR-инструмент, который вытаскивает любой видимый на экране текст и дает сразу скопировать.
Он завязан на встроенный Windows OCR-движок: распознает локально, без интернета, не держит постоянно фоновый процесс, запускаешь по необходимости. Работает шустро.
Есть четыре режима:
Еще есть поддержка CLI: можно делать OCR по файлу картинки или прогонять пакетно всю папку с изображениями.
Кому надо, можно поставить из Microsoft Store или скачать с GitHub. Также поддерживается установка через менеджеры пакетов scoop и choco.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤5💊1
Clawdbot
Сейчас ИИ умеет и код писать, и картинки рисовать, и в роли собеседника выступать, но есть одна проблема: чтобы всем этим пользоваться, почти всегда нужно идти в отдельную веб-страницу или отдельный клиент.
Как только хочется, чтобы он помог с рабочей задачей или обсудить с ним требования и решение, приходится открывать нужное окно ИИ и постоянно прыгать между разными интерфейсами. Это реально неудобно.
И вот на GitHub как раз попался очень хайповый open-source проект Clawdbot, который закрывает эту боль. Буквально за несколько дней он набрал 20000+ звёзд.
В отличие от простых AI-чатиков, Clawdbot это приватный AI-ассистент, который может полностью работать локально и у которого есть условные “руки и ноги”.
Внутри у него есть инструменты вроде управления браузером, Canvas-холста, планировщика задач и т.д. Он может как человек автоматом ходить по сайтам, заполнять формы, читать и писать файлы и даже выполнять shell-команды.
Его можно подключить к популярным большим моделям вроде Gemini и Claude, а также завести в разные мессенджеры и соц-чаты.
В итоге можно прямо в привычных чат-приложениях отдавать ему команды, чтобы он сам автоматизировал и выполнял задачи, без постоянного переключения между приложениями.
У проекта есть пошаговая установка: одной командой можно быстро развернуть. Запускается и локально на Mac, и на Linux-сервере для удалённого доступа.
📁 Language: #TypeScript 82.5%
⭐️ Stars: 60k
➡️ Cсылка на GitHub
📱 @git_developer
Сейчас ИИ умеет и код писать, и картинки рисовать, и в роли собеседника выступать, но есть одна проблема: чтобы всем этим пользоваться, почти всегда нужно идти в отдельную веб-страницу или отдельный клиент.
Как только хочется, чтобы он помог с рабочей задачей или обсудить с ним требования и решение, приходится открывать нужное окно ИИ и постоянно прыгать между разными интерфейсами. Это реально неудобно.
И вот на GitHub как раз попался очень хайповый open-source проект Clawdbot, который закрывает эту боль. Буквально за несколько дней он набрал 20000+ звёзд.
В отличие от простых AI-чатиков, Clawdbot это приватный AI-ассистент, который может полностью работать локально и у которого есть условные “руки и ноги”.
Внутри у него есть инструменты вроде управления браузером, Canvas-холста, планировщика задач и т.д. Он может как человек автоматом ходить по сайтам, заполнять формы, читать и писать файлы и даже выполнять shell-команды.
Его можно подключить к популярным большим моделям вроде Gemini и Claude, а также завести в разные мессенджеры и соц-чаты.
В итоге можно прямо в привычных чат-приложениях отдавать ему команды, чтобы он сам автоматизировал и выполнял задачи, без постоянного переключения между приложениями.
У проекта есть пошаговая установка: одной командой можно быстро развернуть. Запускается и локально на Mac, и на Linux-сервере для удалённого доступа.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥5👍4💊1
DocStrange
Когда делаешь RAG или “скармливаешь” ИИ свои материалы, самая больная тема это таблицы внутри PDF и картинок. Текст из них вытаскивается криво: формат плывет, особенно на сложных макетах, и в таком виде это почти невозможно нормально использовать.
На GitHub как раз нашелся опенсорсный проект DocStrange, который целится ровно в эту проблему: превращать документы в данные без боли.
Он умеет довольно точно конвертировать разные форматы в то, что любят большие модели: Markdown или структурированный JSON.
Поддерживаются PDF, изображения, офисные документы и даже ссылки на веб-страницы. В основе OCR плюс анализ верстки, то есть он не просто распознает текст, а пытается понять структуру документа.
Фишка в том, что он может восстанавливать сложные таблицы, а еще по заданным полям или Schema сразу вытаскивать структурированный JSON.
Есть готовый локальный веб-интерфейс: закинул файл drag-and-drop и получил результат. Плюс поддерживается локальное ускорение на GPU, все крутится у тебя на машине, данные никуда не уезжают, с приватностью спокойнее.
Лучше всего зайдет тем, кто собирает RAG-базу знаний или кому нужно пачками разбирать сканы, счета, инвойсы и другой неструктурированный хлам.
📁 Language: #Python 85.4%
⭐️ Stars: 1.3k
➡️ Cсылка на GitHub
📱 @git_developer
Когда делаешь RAG или “скармливаешь” ИИ свои материалы, самая больная тема это таблицы внутри PDF и картинок. Текст из них вытаскивается криво: формат плывет, особенно на сложных макетах, и в таком виде это почти невозможно нормально использовать.
На GitHub как раз нашелся опенсорсный проект DocStrange, который целится ровно в эту проблему: превращать документы в данные без боли.
Он умеет довольно точно конвертировать разные форматы в то, что любят большие модели: Markdown или структурированный JSON.
Поддерживаются PDF, изображения, офисные документы и даже ссылки на веб-страницы. В основе OCR плюс анализ верстки, то есть он не просто распознает текст, а пытается понять структуру документа.
Фишка в том, что он может восстанавливать сложные таблицы, а еще по заданным полям или Schema сразу вытаскивать структурированный JSON.
Есть готовый локальный веб-интерфейс: закинул файл drag-and-drop и получил результат. Плюс поддерживается локальное ускорение на GPU, все крутится у тебя на машине, данные никуда не уезжают, с приватностью спокойнее.
Лучше всего зайдет тем, кто собирает RAG-базу знаний или кому нужно пачками разбирать сканы, счета, инвойсы и другой неструктурированный хлам.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Вот 14 авторских обучающих IT каналов по самым востребованным областям программирования:
Выбирай своё направление:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
PDF3MD
Когда работаешь с PDF и хочешь перегнать его в Markdown для нормального редактирования или выгрузить в Word, часто упираешься в то, что инструменты либо слишком примитивные, либо замороченные.
Случайно наткнулся на PDF3MD, опенсорсный тул, который специально конвертит PDF в Markdown и Word. Интерфейс простой, все делается интуитивно.
Сделан на React (фронт) и Flask (бэк). Просто перетаскиваешь PDF в окно, видишь прогресс конвертации в реальном времени, а после завершения можешь сразу скопировать Markdown или скачать Word-документ.
Поддерживает пакетную загрузку нескольких PDF одновременно: показывает для каждого файла исходное имя, размер, количество страниц и таймстамп конвертации.
Есть быстрый деплой через Docker: одной командой запускаешь локально, либо можно повесить за reverse proxy и развернуть на сервере.
📁 Language: #JavaScript 42.6%
⭐️ Stars: 241
➡️ Cсылка на GitHub
📱 @git_developer
Когда работаешь с PDF и хочешь перегнать его в Markdown для нормального редактирования или выгрузить в Word, часто упираешься в то, что инструменты либо слишком примитивные, либо замороченные.
Случайно наткнулся на PDF3MD, опенсорсный тул, который специально конвертит PDF в Markdown и Word. Интерфейс простой, все делается интуитивно.
Сделан на React (фронт) и Flask (бэк). Просто перетаскиваешь PDF в окно, видишь прогресс конвертации в реальном времени, а после завершения можешь сразу скопировать Markdown или скачать Word-документ.
Поддерживает пакетную загрузку нескольких PDF одновременно: показывает для каждого файла исходное имя, размер, количество страниц и таймстамп конвертации.
Есть быстрый деплой через Docker: одной командой запускаешь локально, либо можно повесить за reverse proxy и развернуть на сервере.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4