GitHub Разработчика
17.2K subscribers
609 photos
350 videos
2 files
945 links
Здесь ты найдешь полезные репозитории с GitHub

Связь: @devmangx

РКН: https://clck.ru/3FocDP
Download Telegram
Text Grab

Иногда видишь текст на картинке, в видео или прямо в интерфейсе какого-нибудь приложения, а скопировать нельзя: не выделяется. Остается только вбивать руками, и если там длинный кусок, это прям боль.

Недавно на GitHub попался Text Grab, опенсорсный OCR-инструмент, который вытаскивает любой видимый на экране текст и дает сразу скопировать.

Он завязан на встроенный Windows OCR-движок: распознает локально, без интернета, не держит постоянно фоновый процесс, запускаешь по необходимости. Работает шустро.

Есть четыре режима:

▪️полноэкранный захват: можно выделить область или кликнуть по слову и сразу распознать;
▪️режим плавающего окна: закрепляешь где угодно и оно постоянно распознает;
▪️окно редактирования текста: внутри есть разные инструменты обработки текста;
▪️быстрые запросы: сохраняешь часто используемые куски и вызываешь их одним действием.

Еще есть поддержка CLI: можно делать OCR по файлу картинки или прогонять пакетно всю папку с изображениями.

Кому надо, можно поставить из Microsoft Store или скачать с GitHub. Также поддерживается установка через менеджеры пакетов scoop и choco.

📁 Language: #Csharp 99.5%

⭐️ Stars: 4.5k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85💊1
Clawdbot

Сейчас ИИ умеет и код писать, и картинки рисовать, и в роли собеседника выступать, но есть одна проблема: чтобы всем этим пользоваться, почти всегда нужно идти в отдельную веб-страницу или отдельный клиент.

Как только хочется, чтобы он помог с рабочей задачей или обсудить с ним требования и решение, приходится открывать нужное окно ИИ и постоянно прыгать между разными интерфейсами. Это реально неудобно.

И вот на GitHub как раз попался очень хайповый open-source проект Clawdbot, который закрывает эту боль. Буквально за несколько дней он набрал 20000+ звёзд.

В отличие от простых AI-чатиков, Clawdbot это приватный AI-ассистент, который может полностью работать локально и у которого есть условные “руки и ноги”.

Внутри у него есть инструменты вроде управления браузером, Canvas-холста, планировщика задач и т.д. Он может как человек автоматом ходить по сайтам, заполнять формы, читать и писать файлы и даже выполнять shell-команды.

Его можно подключить к популярным большим моделям вроде Gemini и Claude, а также завести в разные мессенджеры и соц-чаты.

В итоге можно прямо в привычных чат-приложениях отдавать ему команды, чтобы он сам автоматизировал и выполнял задачи, без постоянного переключения между приложениями.

У проекта есть пошаговая установка: одной командой можно быстро развернуть. Запускается и локально на Mac, и на Linux-сервере для удалённого доступа.

📁 Language: #TypeScript 82.5%

⭐️ Stars: 60k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥5👍4💊1
DocStrange

Когда делаешь RAG или “скармливаешь” ИИ свои материалы, самая больная тема это таблицы внутри PDF и картинок. Текст из них вытаскивается криво: формат плывет, особенно на сложных макетах, и в таком виде это почти невозможно нормально использовать.

На GitHub как раз нашелся опенсорсный проект DocStrange, который целится ровно в эту проблему: превращать документы в данные без боли.

Он умеет довольно точно конвертировать разные форматы в то, что любят большие модели: Markdown или структурированный JSON.

Поддерживаются PDF, изображения, офисные документы и даже ссылки на веб-страницы. В основе OCR плюс анализ верстки, то есть он не просто распознает текст, а пытается понять структуру документа.

Фишка в том, что он может восстанавливать сложные таблицы, а еще по заданным полям или Schema сразу вытаскивать структурированный JSON.

Есть готовый локальный веб-интерфейс: закинул файл drag-and-drop и получил результат. Плюс поддерживается локальное ускорение на GPU, все крутится у тебя на машине, данные никуда не уезжают, с приватностью спокойнее.

Лучше всего зайдет тем, кто собирает RAG-базу знаний или кому нужно пачками разбирать сканы, счета, инвойсы и другой неструктурированный хлам.

📁 Language: #Python 85.4%

⭐️ Stars: 1.3k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
PDF3MD

Когда работаешь с PDF и хочешь перегнать его в Markdown для нормального редактирования или выгрузить в Word, часто упираешься в то, что инструменты либо слишком примитивные, либо замороченные.

Случайно наткнулся на PDF3MD, опенсорсный тул, который специально конвертит PDF в Markdown и Word. Интерфейс простой, все делается интуитивно.

Сделан на React (фронт) и Flask (бэк). Просто перетаскиваешь PDF в окно, видишь прогресс конвертации в реальном времени, а после завершения можешь сразу скопировать Markdown или скачать Word-документ.

Поддерживает пакетную загрузку нескольких PDF одновременно: показывает для каждого файла исходное имя, размер, количество страниц и таймстамп конвертации.

Есть быстрый деплой через Docker: одной командой запускаешь локально, либо можно повесить за reverse proxy и развернуть на сервере.

📁 Language: #JavaScript 42.6%

⭐️ Stars: 241

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Curses

Стримишь или записываешь видео и хочешь реальные субтитры в реальном времени, чтобы зрителям было проще, но у большинства тулов стили однотипные и почти не настраиваются.

Недавно нашел на GitHub опенсорсный инструмент Curses. Он заточен под субтитры speech-to-text для OBS, VRChat, Twitch и Discord, и при этом дает очень много кастомизации.

Поддерживает разные движки распознавания: Microsoft Azure, Speechly, Deepgram и встроенный браузерный WebSpeechAPI. Плюс умеет в обратную сторону, текст-в-речь, чтобы выводить озвучку.

Оформление субтитров можно докрутить по-взрослому: цвета, шрифты, тени, фоновые текстуры, анимация печати, звуки, частицы, и даже CSS. Можно тянуть тысячи бесплатных шрифтов прямо из Google Fonts.

Еще умеет брать источник из Twitch-чата: отображает эмодзи 7TV/FFZ/BTTV, а результаты распознавания можно отправлять обратно в Twitch-чат или в канал Discord.

Есть система сцен: сохраняешь несколько пресетов дизайна и при переключении сцен в OBS стили субтитров переключаются автоматически. Через плагин obs-websocket можно настроить OBS “в один клик”.

📁 Language: #TypeScript 85.9%

⭐️ Stars: 652

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
6💊1
plexe

Чтобы натренировать ML-модель, обычно надо шарить в алгоритмах, писать код и бесконечно тюнить гиперпараметры. Для большинства это входной барьер, который сразу отбивает желание.

На GitHub есть Plexe, опенсорсный проект, который сильно снижает порог: ты описываешь задачу обычным языком, а он автоматически собирает машинное обучение под это.

Достаточно по-человечески объяснить, что именно хочешь предсказать, какие данные на входе и что должно быть на выходе. Дальше система через связку нескольких агентов сама проходит весь пайплайн: анализ данных, план решения, генерация кода, тесты и оценка качества.

Поддерживает разных провайдеров LLM: OpenAI, Anthropic, Ollama и другие. Плюс умеет автоматически выводить структуру данных или даже генерировать синтетический датасет.

Еще внутри есть распределенное обучение на Ray: можно параллельно прогонять несколько вариантов моделей и сильно ускоряться.

Если тебе нужно быстро проверить ML-идею или дать возможность строить модели не технарям, штука выглядит реально полезной.

📁 Language: #Python 92.0%

⭐️ Stars: 2.3k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥31
ai-data-science-team

Когда делаешь проекты по Data Science, львиная доля времени обычно уходит на чистку данных и однотипный код для графиков, а на реальный тюнинг моделей сил остается совсем мало.

Случайно наткнулся на GitHub на проект ai-data-science-team, который по сути собирает тебе универсальную виртуальную команду дата-сайентистов.

Он дает визуальный workflow-инструмент: через интерфейс и в связке с AI можно прогнать весь пайплайн от загрузки данных, очистки и EDA до моделинга.

Внутри несколько специализированных агентов, которые делят работу и берут на себя рутину: автоматом разбираются с пропусками, генерят код для feature engineering, а также могут напрямую дергать H2O и MLflow для обучения и оценки моделей.

Можно подключить OpenAI или локальные модели через Ollama, так что с приватностью данных проще, и все это сделано на Streamlit, в Python ставится и запускается довольно быстро.

Проект сейчас активно пилится и обновляется, так что подойдет тем, кто хочет отдать муторную предобработку AI и больше фокусироваться на бизнес-логике.

📁 Language: #Python 100.0%

⭐️ Stars: 4.6k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
PaddleOCR-VL-1.5.

Только что Baidu мощно опенсорснули новое поколение модели для парсинга документов: PaddleOCR-VL-1.5.

Всего 0.9B параметров, и она заняла первое место в глобальном рейтинге OmniDocBench V1.5. По совокупной производительности обходит Gemini-3-Pro, DeepSeek-OCR-2 и GPT-5.2.

В повседневной работе и жизни фото контрактов или счетов, снятые на телефон, часто получаются с перекосом, изгибом или деформацией.

Если распознавать такое классическими OCR-инструментами, нередко бывает пропуск контента или вообще полный провал распознавания.

С PaddleOCR-VL-1.5 эти проблемы решаются.

Это первая в мире OCR-модель, которая поддерживает “позиционирование по нестандартным рамкам”. Она точно распознаёт трапециевидные, сложенные, изогнутые и другие нерегулярные формы документов.

Даже если документ смяли или он сильно исказился из-за угла съёмки, модель может восстановить структуру таблиц и текста “ячейка за ячейкой” с точностью, близкой к сканеру.

Плюс добавили распознавание печатей и автосклейку таблиц, которые идут на нескольких страницах. Ещё отдельно прокачали редкие иероглифы, древние тексты и 109 языков, чтобы заметно повысить стабильность в сложных рабочих сценариях.

За последние полгода OCR-гонка реально стала очень жёсткой: крупные компании активно выкатывают новые модели и пытаются занять нишу документ-парсинга.

А релиз Baidu PaddleOCR-VL-1.5 попал ровно в боль разработчиков: распознавание “нестандартных документов”, которые обычно хуже всего даются.

То есть OCR перестаёт быть штукой только для идеальных сканов и начинает нормально работать в сложных бизнес-сценариях.

Сейчас веса модели полностью открыты. Разработчики могут скачать или протестировать онлайн на Hugging Face.

Онлайн демо, Скачать модель

📁 Language: #Python 76.3%

⭐️ Stars: 61.9k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
Web-ScreenRec

Запрос на запись экрана это частая история, но большинство рекордеров надо ставить, а если пересел на другое устройство, снова всё ставить и настраивать, что бесит.

Случайно нашёл на GitHub опенсорсный Web ScreenRec: запись прямо в браузере, без установки софта.

Сделано на веб-технологиях: открыл страницу и сразу можно писать. Поддерживает одновременную запись экрана, микрофона и системного аудио.

После записи можно в один клик прогнать через FFmpeg и конвертнуть в MP4, чтобы дальше было удобно монтировать и шарить.

Проект можно деплоить через Docker, либо просто клонировать и открыть локально в браузере. Кроссплатформенно, и на другой комп переехал без повторной конфигурации.

📁 Language: #JavaScript 57.0%

⭐️ Stars: 42

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
7
На Stepik вышел курс «Linux с нуля»

Этот курс закрывает всю обязательную Linux-базу для работы в IT: от установки Linux и работы с файлами до сетей, прав, дисков, процессов, автоматизации на Bash и многого другого. Всё сразу закрепляется на практике (200+ заданий с автопроверкой)

Материал подаётся понятным языком, шаг за шагом, на реальных примерах и с наглядными схемами

После прохождения вы получите сертификат, который можно добавить в резюме.

Есть бесплатные демо-уроки для ознакомления. В ближайшие 24ч курс доступен со скидкой 25% по промокоду «GITHUB»: открыть курс на Stepik
7😁2💊1
Docspell

Домашние счета, квитанции и договоры всё копятся и копятся. Даже если всё отсканировать в электронный вид, найти нужный документ потом бывает мучением: приходится долго листать, а теги и заметки вручную проставлять лень.

На GitHub нашёл Docspell, опенсорсную систему управления документами, заточенную под личное и семейное использование. Она умеет автоматически распознавать содержимое документов и умно ставить теги.

В основе библиотека NLP от Стэнфорда: система через машинное обучение подхватывает закономерности из твоих текущих документов и начинает сама предлагать теги, вытаскивать даты, угадывать контрагента, плюс умеет OCR, чтобы распознавать текст.

Есть полнотекстовый поиск, интеграция с почтой (можно импортировать документы прямо из email), Android-приложение для загрузки файлов с телефона. Также поддерживаются кастомные поля, массовое редактирование, дашборды и другие полезные штуки.

Разворачивается одной командой через Docker, плюс есть пакет для Debian и модуль для NixOS. По сути, тремя командами можно поднять локально, и данные полностью остаются под твоим контролем.

📁 Language: #Elm 47.2%, #Scala 44.2%

⭐️ Stars: 2.1k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1