GitHub Разработчика
17.2K subscribers
609 photos
350 videos
2 files
945 links
Здесь ты найдешь полезные репозитории с GitHub

Связь: @devmangx

РКН: https://clck.ru/3FocDP
Download Telegram
ai-data-science-team

Когда делаешь проекты по Data Science, львиная доля времени обычно уходит на чистку данных и однотипный код для графиков, а на реальный тюнинг моделей сил остается совсем мало.

Случайно наткнулся на GitHub на проект ai-data-science-team, который по сути собирает тебе универсальную виртуальную команду дата-сайентистов.

Он дает визуальный workflow-инструмент: через интерфейс и в связке с AI можно прогнать весь пайплайн от загрузки данных, очистки и EDA до моделинга.

Внутри несколько специализированных агентов, которые делят работу и берут на себя рутину: автоматом разбираются с пропусками, генерят код для feature engineering, а также могут напрямую дергать H2O и MLflow для обучения и оценки моделей.

Можно подключить OpenAI или локальные модели через Ollama, так что с приватностью данных проще, и все это сделано на Streamlit, в Python ставится и запускается довольно быстро.

Проект сейчас активно пилится и обновляется, так что подойдет тем, кто хочет отдать муторную предобработку AI и больше фокусироваться на бизнес-логике.

📁 Language: #Python 100.0%

⭐️ Stars: 4.6k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
PaddleOCR-VL-1.5.

Только что Baidu мощно опенсорснули новое поколение модели для парсинга документов: PaddleOCR-VL-1.5.

Всего 0.9B параметров, и она заняла первое место в глобальном рейтинге OmniDocBench V1.5. По совокупной производительности обходит Gemini-3-Pro, DeepSeek-OCR-2 и GPT-5.2.

В повседневной работе и жизни фото контрактов или счетов, снятые на телефон, часто получаются с перекосом, изгибом или деформацией.

Если распознавать такое классическими OCR-инструментами, нередко бывает пропуск контента или вообще полный провал распознавания.

С PaddleOCR-VL-1.5 эти проблемы решаются.

Это первая в мире OCR-модель, которая поддерживает “позиционирование по нестандартным рамкам”. Она точно распознаёт трапециевидные, сложенные, изогнутые и другие нерегулярные формы документов.

Даже если документ смяли или он сильно исказился из-за угла съёмки, модель может восстановить структуру таблиц и текста “ячейка за ячейкой” с точностью, близкой к сканеру.

Плюс добавили распознавание печатей и автосклейку таблиц, которые идут на нескольких страницах. Ещё отдельно прокачали редкие иероглифы, древние тексты и 109 языков, чтобы заметно повысить стабильность в сложных рабочих сценариях.

За последние полгода OCR-гонка реально стала очень жёсткой: крупные компании активно выкатывают новые модели и пытаются занять нишу документ-парсинга.

А релиз Baidu PaddleOCR-VL-1.5 попал ровно в боль разработчиков: распознавание “нестандартных документов”, которые обычно хуже всего даются.

То есть OCR перестаёт быть штукой только для идеальных сканов и начинает нормально работать в сложных бизнес-сценариях.

Сейчас веса модели полностью открыты. Разработчики могут скачать или протестировать онлайн на Hugging Face.

Онлайн демо, Скачать модель

📁 Language: #Python 76.3%

⭐️ Stars: 61.9k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
Web-ScreenRec

Запрос на запись экрана это частая история, но большинство рекордеров надо ставить, а если пересел на другое устройство, снова всё ставить и настраивать, что бесит.

Случайно нашёл на GitHub опенсорсный Web ScreenRec: запись прямо в браузере, без установки софта.

Сделано на веб-технологиях: открыл страницу и сразу можно писать. Поддерживает одновременную запись экрана, микрофона и системного аудио.

После записи можно в один клик прогнать через FFmpeg и конвертнуть в MP4, чтобы дальше было удобно монтировать и шарить.

Проект можно деплоить через Docker, либо просто клонировать и открыть локально в браузере. Кроссплатформенно, и на другой комп переехал без повторной конфигурации.

📁 Language: #JavaScript 57.0%

⭐️ Stars: 42

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
7
На Stepik вышел курс «Linux с нуля»

Этот курс закрывает всю обязательную Linux-базу для работы в IT: от установки Linux и работы с файлами до сетей, прав, дисков, процессов, автоматизации на Bash и многого другого. Всё сразу закрепляется на практике (200+ заданий с автопроверкой)

Материал подаётся понятным языком, шаг за шагом, на реальных примерах и с наглядными схемами

После прохождения вы получите сертификат, который можно добавить в резюме.

Есть бесплатные демо-уроки для ознакомления. В ближайшие 24ч курс доступен со скидкой 25% по промокоду «GITHUB»: открыть курс на Stepik
7😁2💊1
Docspell

Домашние счета, квитанции и договоры всё копятся и копятся. Даже если всё отсканировать в электронный вид, найти нужный документ потом бывает мучением: приходится долго листать, а теги и заметки вручную проставлять лень.

На GitHub нашёл Docspell, опенсорсную систему управления документами, заточенную под личное и семейное использование. Она умеет автоматически распознавать содержимое документов и умно ставить теги.

В основе библиотека NLP от Стэнфорда: система через машинное обучение подхватывает закономерности из твоих текущих документов и начинает сама предлагать теги, вытаскивать даты, угадывать контрагента, плюс умеет OCR, чтобы распознавать текст.

Есть полнотекстовый поиск, интеграция с почтой (можно импортировать документы прямо из email), Android-приложение для загрузки файлов с телефона. Также поддерживаются кастомные поля, массовое редактирование, дашборды и другие полезные штуки.

Разворачивается одной командой через Docker, плюс есть пакет для Debian и модуль для NixOS. По сути, тремя командами можно поднять локально, и данные полностью остаются под твоим контролем.

📁 Language: #Elm 47.2%, #Scala 44.2%

⭐️ Stars: 2.1k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2