ai-data-science-team
Когда делаешь проекты по Data Science, львиная доля времени обычно уходит на чистку данных и однотипный код для графиков, а на реальный тюнинг моделей сил остается совсем мало.
Случайно наткнулся на GitHub на проект ai-data-science-team, который по сути собирает тебе универсальную виртуальную команду дата-сайентистов.
Он дает визуальный workflow-инструмент: через интерфейс и в связке с AI можно прогнать весь пайплайн от загрузки данных, очистки и EDA до моделинга.
Внутри несколько специализированных агентов, которые делят работу и берут на себя рутину: автоматом разбираются с пропусками, генерят код для feature engineering, а также могут напрямую дергать H2O и MLflow для обучения и оценки моделей.
Можно подключить OpenAI или локальные модели через Ollama, так что с приватностью данных проще, и все это сделано на Streamlit, в Python ставится и запускается довольно быстро.
Проект сейчас активно пилится и обновляется, так что подойдет тем, кто хочет отдать муторную предобработку AI и больше фокусироваться на бизнес-логике.
📁 Language: #Python 100.0%
⭐️ Stars: 4.6k
➡️ Cсылка на GitHub
📱 @git_developer
Когда делаешь проекты по Data Science, львиная доля времени обычно уходит на чистку данных и однотипный код для графиков, а на реальный тюнинг моделей сил остается совсем мало.
Случайно наткнулся на GitHub на проект ai-data-science-team, который по сути собирает тебе универсальную виртуальную команду дата-сайентистов.
Он дает визуальный workflow-инструмент: через интерфейс и в связке с AI можно прогнать весь пайплайн от загрузки данных, очистки и EDA до моделинга.
Внутри несколько специализированных агентов, которые делят работу и берут на себя рутину: автоматом разбираются с пропусками, генерят код для feature engineering, а также могут напрямую дергать H2O и MLflow для обучения и оценки моделей.
Можно подключить OpenAI или локальные модели через Ollama, так что с приватностью данных проще, и все это сделано на Streamlit, в Python ставится и запускается довольно быстро.
Проект сейчас активно пилится и обновляется, так что подойдет тем, кто хочет отдать муторную предобработку AI и больше фокусироваться на бизнес-логике.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
PaddleOCR-VL-1.5.
Только что Baidu мощно опенсорснули новое поколение модели для парсинга документов: PaddleOCR-VL-1.5.
Всего 0.9B параметров, и она заняла первое место в глобальном рейтинге OmniDocBench V1.5. По совокупной производительности обходит Gemini-3-Pro, DeepSeek-OCR-2 и GPT-5.2.
В повседневной работе и жизни фото контрактов или счетов, снятые на телефон, часто получаются с перекосом, изгибом или деформацией.
Если распознавать такое классическими OCR-инструментами, нередко бывает пропуск контента или вообще полный провал распознавания.
С PaddleOCR-VL-1.5 эти проблемы решаются.
Это первая в мире OCR-модель, которая поддерживает “позиционирование по нестандартным рамкам”. Она точно распознаёт трапециевидные, сложенные, изогнутые и другие нерегулярные формы документов.
Даже если документ смяли или он сильно исказился из-за угла съёмки, модель может восстановить структуру таблиц и текста “ячейка за ячейкой” с точностью, близкой к сканеру.
Плюс добавили распознавание печатей и автосклейку таблиц, которые идут на нескольких страницах. Ещё отдельно прокачали редкие иероглифы, древние тексты и 109 языков, чтобы заметно повысить стабильность в сложных рабочих сценариях.
За последние полгода OCR-гонка реально стала очень жёсткой: крупные компании активно выкатывают новые модели и пытаются занять нишу документ-парсинга.
А релиз Baidu PaddleOCR-VL-1.5 попал ровно в боль разработчиков: распознавание “нестандартных документов”, которые обычно хуже всего даются.
То есть OCR перестаёт быть штукой только для идеальных сканов и начинает нормально работать в сложных бизнес-сценариях.
Сейчас веса модели полностью открыты. Разработчики могут скачать или протестировать онлайн на Hugging Face.
Онлайн демо, Скачать модель
📁 Language: #Python 76.3%
⭐️ Stars: 61.9k
➡️ Cсылка на GitHub
📱 @git_developer
Только что Baidu мощно опенсорснули новое поколение модели для парсинга документов: PaddleOCR-VL-1.5.
Всего 0.9B параметров, и она заняла первое место в глобальном рейтинге OmniDocBench V1.5. По совокупной производительности обходит Gemini-3-Pro, DeepSeek-OCR-2 и GPT-5.2.
В повседневной работе и жизни фото контрактов или счетов, снятые на телефон, часто получаются с перекосом, изгибом или деформацией.
Если распознавать такое классическими OCR-инструментами, нередко бывает пропуск контента или вообще полный провал распознавания.
С PaddleOCR-VL-1.5 эти проблемы решаются.
Это первая в мире OCR-модель, которая поддерживает “позиционирование по нестандартным рамкам”. Она точно распознаёт трапециевидные, сложенные, изогнутые и другие нерегулярные формы документов.
Даже если документ смяли или он сильно исказился из-за угла съёмки, модель может восстановить структуру таблиц и текста “ячейка за ячейкой” с точностью, близкой к сканеру.
Плюс добавили распознавание печатей и автосклейку таблиц, которые идут на нескольких страницах. Ещё отдельно прокачали редкие иероглифы, древние тексты и 109 языков, чтобы заметно повысить стабильность в сложных рабочих сценариях.
За последние полгода OCR-гонка реально стала очень жёсткой: крупные компании активно выкатывают новые модели и пытаются занять нишу документ-парсинга.
А релиз Baidu PaddleOCR-VL-1.5 попал ровно в боль разработчиков: распознавание “нестандартных документов”, которые обычно хуже всего даются.
То есть OCR перестаёт быть штукой только для идеальных сканов и начинает нормально работать в сложных бизнес-сценариях.
Сейчас веса модели полностью открыты. Разработчики могут скачать или протестировать онлайн на Hugging Face.
Онлайн демо, Скачать модель
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
Web-ScreenRec
Запрос на запись экрана это частая история, но большинство рекордеров надо ставить, а если пересел на другое устройство, снова всё ставить и настраивать, что бесит.
Случайно нашёл на GitHub опенсорсный Web ScreenRec: запись прямо в браузере, без установки софта.
Сделано на веб-технологиях: открыл страницу и сразу можно писать. Поддерживает одновременную запись экрана, микрофона и системного аудио.
После записи можно в один клик прогнать через FFmpeg и конвертнуть в MP4, чтобы дальше было удобно монтировать и шарить.
Проект можно деплоить через Docker, либо просто клонировать и открыть локально в браузере. Кроссплатформенно, и на другой комп переехал без повторной конфигурации.
📁 Language: #JavaScript 57.0%
⭐️ Stars: 42
➡️ Cсылка на GitHub
📱 @git_developer
Запрос на запись экрана это частая история, но большинство рекордеров надо ставить, а если пересел на другое устройство, снова всё ставить и настраивать, что бесит.
Случайно нашёл на GitHub опенсорсный Web ScreenRec: запись прямо в браузере, без установки софта.
Сделано на веб-технологиях: открыл страницу и сразу можно писать. Поддерживает одновременную запись экрана, микрофона и системного аудио.
После записи можно в один клик прогнать через FFmpeg и конвертнуть в MP4, чтобы дальше было удобно монтировать и шарить.
Проект можно деплоить через Docker, либо просто клонировать и открыть локально в браузере. Кроссплатформенно, и на другой комп переехал без повторной конфигурации.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
На Stepik вышел курс «Linux с нуля»
Этот курс закрывает всю обязательную Linux-базу для работы в IT: от установки Linux и работы с файлами до сетей, прав, дисков, процессов, автоматизации на Bash и многого другого. Всё сразу закрепляется на практике (200+ заданий с автопроверкой)
Материал подаётся понятным языком, шаг за шагом, на реальных примерах и с наглядными схемами
После прохождения вы получите сертификат, который можно добавить в резюме.
Есть бесплатные демо-уроки для ознакомления. В ближайшие 24ч курс доступен со скидкой 25% по промокоду «
Этот курс закрывает всю обязательную Linux-базу для работы в IT: от установки Linux и работы с файлами до сетей, прав, дисков, процессов, автоматизации на Bash и многого другого. Всё сразу закрепляется на практике (200+ заданий с автопроверкой)
Материал подаётся понятным языком, шаг за шагом, на реальных примерах и с наглядными схемами
После прохождения вы получите сертификат, который можно добавить в резюме.
Есть бесплатные демо-уроки для ознакомления. В ближайшие 24ч курс доступен со скидкой 25% по промокоду «
GITHUB»: открыть курс на Stepik❤7😁2💊1
Docspell
Домашние счета, квитанции и договоры всё копятся и копятся. Даже если всё отсканировать в электронный вид, найти нужный документ потом бывает мучением: приходится долго листать, а теги и заметки вручную проставлять лень.
На GitHub нашёл Docspell, опенсорсную систему управления документами, заточенную под личное и семейное использование. Она умеет автоматически распознавать содержимое документов и умно ставить теги.
В основе библиотека NLP от Стэнфорда: система через машинное обучение подхватывает закономерности из твоих текущих документов и начинает сама предлагать теги, вытаскивать даты, угадывать контрагента, плюс умеет OCR, чтобы распознавать текст.
Есть полнотекстовый поиск, интеграция с почтой (можно импортировать документы прямо из email), Android-приложение для загрузки файлов с телефона. Также поддерживаются кастомные поля, массовое редактирование, дашборды и другие полезные штуки.
Разворачивается одной командой через Docker, плюс есть пакет для Debian и модуль для NixOS. По сути, тремя командами можно поднять локально, и данные полностью остаются под твоим контролем.
📁 Language: #Elm 47.2%, #Scala 44.2%
⭐️ Stars: 2.1k
➡️ Cсылка на GitHub
📱 @git_developer
Домашние счета, квитанции и договоры всё копятся и копятся. Даже если всё отсканировать в электронный вид, найти нужный документ потом бывает мучением: приходится долго листать, а теги и заметки вручную проставлять лень.
На GitHub нашёл Docspell, опенсорсную систему управления документами, заточенную под личное и семейное использование. Она умеет автоматически распознавать содержимое документов и умно ставить теги.
В основе библиотека NLP от Стэнфорда: система через машинное обучение подхватывает закономерности из твоих текущих документов и начинает сама предлагать теги, вытаскивать даты, угадывать контрагента, плюс умеет OCR, чтобы распознавать текст.
Есть полнотекстовый поиск, интеграция с почтой (можно импортировать документы прямо из email), Android-приложение для загрузки файлов с телефона. Также поддерживаются кастомные поля, массовое редактирование, дашборды и другие полезные штуки.
Разворачивается одной командой через Docker, плюс есть пакет для Debian и модуль для NixOS. По сути, тремя командами можно поднять локально, и данные полностью остаются под твоим контролем.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2