paperetl
Когда занимаешься исследованием или анализом данных и у тебя сотни или тысячи PDF-статей, каждый раз вручную вытаскивать и раскладывать информацию это ад.
Недавно, пока копался в тулзах для обработки данных, наткнулся на paperetl. Это опенсорсная библиотека для пакетной обработки и парсинга научных публикаций, которая приводит разный входной формат к структурированным данным.
Поддерживает массовый парсинг и преобразование источников в разных форматах: полный текст PDF, PubMed XML, ArXiv XML и другие.
Может складывать неструктурированные статьи прямо в SQLite, выгружать в JSON, а также подключаться к Elasticsearch для полнотекстового поиска.
По сути, одной командой можно прогнать целую папку с файлами и превратить её в БД или набор структурированных файлов, чтобы потом нормально искать, фильтровать и анализировать.
Если ты делаешь литобзор, систематический обзор или хочешь собрать свою базу статей, инструмент точно стоит попробовать.
📁 Language: #Python 96.2%
⭐️ Stars: 490
➡️ Cсылка на GitHub
📱 @git_developer
Когда занимаешься исследованием или анализом данных и у тебя сотни или тысячи PDF-статей, каждый раз вручную вытаскивать и раскладывать информацию это ад.
Недавно, пока копался в тулзах для обработки данных, наткнулся на paperetl. Это опенсорсная библиотека для пакетной обработки и парсинга научных публикаций, которая приводит разный входной формат к структурированным данным.
Поддерживает массовый парсинг и преобразование источников в разных форматах: полный текст PDF, PubMed XML, ArXiv XML и другие.
Может складывать неструктурированные статьи прямо в SQLite, выгружать в JSON, а также подключаться к Elasticsearch для полнотекстового поиска.
По сути, одной командой можно прогнать целую папку с файлами и превратить её в БД или набор структурированных файлов, чтобы потом нормально искать, фильтровать и анализировать.
Если ты делаешь литобзор, систематический обзор или хочешь собрать свою базу статей, инструмент точно стоит попробовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2
NoLanguageLeftWaiting
Если хочется делать стриминговый перевод для трансляций или прям настоящий синхрон, быстро упираешься в тупняк классических офлайн-моделей: они часто ждут, пока человек договорит фразу целиком, и из-за этого появляется заметная задержка.
На GitHub нашелся опенсорсный проект NoLanguageLeftWaiting. Ребята взяли офлайн-переводчик Meta NLLB и переделали его в режим реального синхронного перевода: модель может переводить на лету, не дожидаясь конца предложения.
Плюс они закрывают типичные боли “псевдо-синхрона”: когда пунктуация вставляется криво, а работа с префиксами и контекстом превращается в кашу.
Что по возможностям:
* перевод между ~200 языками
* два варианта бэкенда: HuggingFace и CTranslate2
* внутри сразу два размера модели: 600M и 1.3B
Сейчас они ещё пилят speculative decoding (спекулятивное декодирование), чтобы ускорить вывод. Идея: часть гипотез быстро “пробрасывать” и потом частично валидировать, чтобы не тормозить на каждом шаге. По их замерам валидация занимает примерно 0.15 секунды.
Если делаешь голосовой перевод, субтитры для стрима или любой кросс-языковой созвон, где задержка решает, проект прям стоит потыкать.
📁 Language: #Python 100.0%
⭐️ Stars: 41
➡️ Cсылка на GitHub
📱 @git_developer
Если хочется делать стриминговый перевод для трансляций или прям настоящий синхрон, быстро упираешься в тупняк классических офлайн-моделей: они часто ждут, пока человек договорит фразу целиком, и из-за этого появляется заметная задержка.
На GitHub нашелся опенсорсный проект NoLanguageLeftWaiting. Ребята взяли офлайн-переводчик Meta NLLB и переделали его в режим реального синхронного перевода: модель может переводить на лету, не дожидаясь конца предложения.
Плюс они закрывают типичные боли “псевдо-синхрона”: когда пунктуация вставляется криво, а работа с префиксами и контекстом превращается в кашу.
Что по возможностям:
* перевод между ~200 языками
* два варианта бэкенда: HuggingFace и CTranslate2
* внутри сразу два размера модели: 600M и 1.3B
Сейчас они ещё пилят speculative decoding (спекулятивное декодирование), чтобы ускорить вывод. Идея: часть гипотез быстро “пробрасывать” и потом частично валидировать, чтобы не тормозить на каждом шаге. По их замерам валидация занимает примерно 0.15 секунды.
Если делаешь голосовой перевод, субтитры для стрима или любой кросс-языковой созвон, где задержка решает, проект прям стоит потыкать.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍1🔥1
local_ai_ocr
Если нужно вытаскивать текст из документов или PDF, загружать файлы в онлайн-конвертеры всегда как-то стрёмно. А у многих локальных тулов то распознавание так себе, то форматирование превращается в кашу.
Случайно наткнулся на GitHub на open-source проект local_ai_ocr: он собран на модели DeepSeek-OCR и заточен под локальное офлайн-распознавание текста на Windows.
Он умеет с GPU-ускорением обрабатывать картинки и PDF: не просто точно вытягивает текст, но и может сразу экспортировать в Markdown, чтобы сохранить сложные таблицы и верстку.
Работает полностью офлайн: ничего не нужно отправлять в облако. Скачал, распаковал, запустил init-скрипт и можно пользоваться, без сложной настройки окружения.
Если для тебя критична приватность данных или нужна максимально точная “реконструкция” форматирования документа, штука точно стоит того, чтобы попробовать.
📁 Language: #Python 67%
⭐️ Stars: 493
➡️ Cсылка на GitHub
📱 @git_developer
Если нужно вытаскивать текст из документов или PDF, загружать файлы в онлайн-конвертеры всегда как-то стрёмно. А у многих локальных тулов то распознавание так себе, то форматирование превращается в кашу.
Случайно наткнулся на GitHub на open-source проект local_ai_ocr: он собран на модели DeepSeek-OCR и заточен под локальное офлайн-распознавание текста на Windows.
Он умеет с GPU-ускорением обрабатывать картинки и PDF: не просто точно вытягивает текст, но и может сразу экспортировать в Markdown, чтобы сохранить сложные таблицы и верстку.
Работает полностью офлайн: ничего не нужно отправлять в облако. Скачал, распаковал, запустил init-скрипт и можно пользоваться, без сложной настройки окружения.
Если для тебя критична приватность данных или нужна максимально точная “реконструкция” форматирования документа, штука точно стоит того, чтобы попробовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2
FastScheduler
Писать планировщик задач на Python через стандартную библиотеку хоть и просто, но возможностей там немного. Как только появляются асинхронные задачи, работа с таймзонами, ретраи при фейлах и похожие кейсы, становится тяжко.
На GitHub нашел FastScheduler, это опенсорсный легковесный таск-планировщик для Python. Поддерживает async, таймзоны, Cron-выражения и еще имеет визуальную панель.
За счет очень аккуратного синтаксиса на декораторах задачу можно описать одной строкой. Есть разные варианты расписаний: интервалы, конкретное время, Cron и т.д. Асинхронные функции работают из коробки.
Установка через pip в один шаг, а для персистентности доступны разные хранилища вроде SQLite и PostgreSQL. После рестарта сервиса состояние задач не теряется.
📁 Language: #Python 79.5%
⭐️ Stars: 319
➡️ Cсылка на GitHub
📱 @git_developer
Писать планировщик задач на Python через стандартную библиотеку хоть и просто, но возможностей там немного. Как только появляются асинхронные задачи, работа с таймзонами, ретраи при фейлах и похожие кейсы, становится тяжко.
На GitHub нашел FastScheduler, это опенсорсный легковесный таск-планировщик для Python. Поддерживает async, таймзоны, Cron-выражения и еще имеет визуальную панель.
За счет очень аккуратного синтаксиса на декораторах задачу можно описать одной строкой. Есть разные варианты расписаний: интервалы, конкретное время, Cron и т.д. Асинхронные функции работают из коробки.
Установка через pip в один шаг, а для персистентности доступны разные хранилища вроде SQLite и PostgreSQL. После рестарта сервиса состояние задач не теряется.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3
Anubis
Преподавателю на computer science в универе, помимо подготовки занятий, ещё приходится проверять домашки, разбирать отправленные решения и админить студенческие репозитории с кодом. Всё это довольно выматывает.
А университетские LMS обычно старые, обновляются медленно, поэтому нормально автоматизировать проверку программных заданий там ещё сложнее.
И вот на GitHub попался Anubis LMS, опенсорсная система управления обучением, заточенная именно под курсы по программированию. Её уже используют в Нью-Йоркском университете несколько семестров подряд.
У каждого студента отдельный GitHub-репозиторий. После пуша система автоматически прогоняет тесты и сразу возвращает фидбек. До дедлайна студент может отправлять решения сколько угодно раз и смотреть результаты тестов.
Плюс там есть облачная IDE, запускается в один клик: в браузере студент получает заранее настроенное Linux-окружение, без возни с локальной установкой и конфигами.
Система также умеет на основе таймстемпов коммитов и результатов тестов строить визуальную аналитику по обучению, чтобы преподаватель видел, как у студентов с усвоением конкретных тем.
Если ты ведёшь курс по программированию или недоволен автоматизацией в обычных LMS, проект точно стоит попробовать.
📁 Language: #Python 61.5%
⭐️ Stars: 366
➡️ Cсылка на GitHub
📱 @git_developer
Преподавателю на computer science в универе, помимо подготовки занятий, ещё приходится проверять домашки, разбирать отправленные решения и админить студенческие репозитории с кодом. Всё это довольно выматывает.
А университетские LMS обычно старые, обновляются медленно, поэтому нормально автоматизировать проверку программных заданий там ещё сложнее.
И вот на GitHub попался Anubis LMS, опенсорсная система управления обучением, заточенная именно под курсы по программированию. Её уже используют в Нью-Йоркском университете несколько семестров подряд.
У каждого студента отдельный GitHub-репозиторий. После пуша система автоматически прогоняет тесты и сразу возвращает фидбек. До дедлайна студент может отправлять решения сколько угодно раз и смотреть результаты тестов.
Плюс там есть облачная IDE, запускается в один клик: в браузере студент получает заранее настроенное Linux-окружение, без возни с локальной установкой и конфигами.
Система также умеет на основе таймстемпов коммитов и результатов тестов строить визуальную аналитику по обучению, чтобы преподаватель видел, как у студентов с усвоением конкретных тем.
Если ты ведёшь курс по программированию или недоволен автоматизацией в обычных LMS, проект точно стоит попробовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Ciphey
Наткнулся на кусок зашифрованного текста, а что за шифр, непонятно. Вручную перебирать способы расшифровки слишком долго.
На GitHub как раз попался Ciphey, это инструмент для автоматической расшифровки: закидываешь шифртекст, он сам пытается определить тип шифрования/кодировки и расшифровать, чаще всего укладывается в 3 секунды.
Он опирается на кастомный AI-модуль и NLP, чтобы автоматически угадывать метод и распознавать осмысленный plaintext, без того чтобы заранее знать какие-то параметры шифрования.
Поддерживает больше 50 вариантов шифров и кодировок: бинарь, азбука Морзе, Base64, шифр Цезаря, Виженер, XOR и другие классические и современные варианты, плюс умеет распознавать хэши.
Внутри много написано на C++, поэтому работает быстро. Есть CLI, а также можно подключать как Python-библиотеку в свой проект. Поддерживаются Windows, Linux и macOS.
📁 Language: #Python 100.0%
⭐️ Stars: 20.8k
➡️ Cсылка на GitHub
📱 @git_developer
Наткнулся на кусок зашифрованного текста, а что за шифр, непонятно. Вручную перебирать способы расшифровки слишком долго.
На GitHub как раз попался Ciphey, это инструмент для автоматической расшифровки: закидываешь шифртекст, он сам пытается определить тип шифрования/кодировки и расшифровать, чаще всего укладывается в 3 секунды.
Он опирается на кастомный AI-модуль и NLP, чтобы автоматически угадывать метод и распознавать осмысленный plaintext, без того чтобы заранее знать какие-то параметры шифрования.
Поддерживает больше 50 вариантов шифров и кодировок: бинарь, азбука Морзе, Base64, шифр Цезаря, Виженер, XOR и другие классические и современные варианты, плюс умеет распознавать хэши.
Внутри много написано на C++, поэтому работает быстро. Есть CLI, а также можно подключать как Python-библиотеку в свой проект. Поддерживаются Windows, Linux и macOS.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤5🔥3
DocStrange
Когда делаешь RAG или “скармливаешь” ИИ свои материалы, самая больная тема это таблицы внутри PDF и картинок. Текст из них вытаскивается криво: формат плывет, особенно на сложных макетах, и в таком виде это почти невозможно нормально использовать.
На GitHub как раз нашелся опенсорсный проект DocStrange, который целится ровно в эту проблему: превращать документы в данные без боли.
Он умеет довольно точно конвертировать разные форматы в то, что любят большие модели: Markdown или структурированный JSON.
Поддерживаются PDF, изображения, офисные документы и даже ссылки на веб-страницы. В основе OCR плюс анализ верстки, то есть он не просто распознает текст, а пытается понять структуру документа.
Фишка в том, что он может восстанавливать сложные таблицы, а еще по заданным полям или Schema сразу вытаскивать структурированный JSON.
Есть готовый локальный веб-интерфейс: закинул файл drag-and-drop и получил результат. Плюс поддерживается локальное ускорение на GPU, все крутится у тебя на машине, данные никуда не уезжают, с приватностью спокойнее.
Лучше всего зайдет тем, кто собирает RAG-базу знаний или кому нужно пачками разбирать сканы, счета, инвойсы и другой неструктурированный хлам.
📁 Language: #Python 85.4%
⭐️ Stars: 1.3k
➡️ Cсылка на GitHub
📱 @git_developer
Когда делаешь RAG или “скармливаешь” ИИ свои материалы, самая больная тема это таблицы внутри PDF и картинок. Текст из них вытаскивается криво: формат плывет, особенно на сложных макетах, и в таком виде это почти невозможно нормально использовать.
На GitHub как раз нашелся опенсорсный проект DocStrange, который целится ровно в эту проблему: превращать документы в данные без боли.
Он умеет довольно точно конвертировать разные форматы в то, что любят большие модели: Markdown или структурированный JSON.
Поддерживаются PDF, изображения, офисные документы и даже ссылки на веб-страницы. В основе OCR плюс анализ верстки, то есть он не просто распознает текст, а пытается понять структуру документа.
Фишка в том, что он может восстанавливать сложные таблицы, а еще по заданным полям или Schema сразу вытаскивать структурированный JSON.
Есть готовый локальный веб-интерфейс: закинул файл drag-and-drop и получил результат. Плюс поддерживается локальное ускорение на GPU, все крутится у тебя на машине, данные никуда не уезжают, с приватностью спокойнее.
Лучше всего зайдет тем, кто собирает RAG-базу знаний или кому нужно пачками разбирать сканы, счета, инвойсы и другой неструктурированный хлам.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
plexe
Чтобы натренировать ML-модель, обычно надо шарить в алгоритмах, писать код и бесконечно тюнить гиперпараметры. Для большинства это входной барьер, который сразу отбивает желание.
На GitHub есть Plexe, опенсорсный проект, который сильно снижает порог: ты описываешь задачу обычным языком, а он автоматически собирает машинное обучение под это.
Достаточно по-человечески объяснить, что именно хочешь предсказать, какие данные на входе и что должно быть на выходе. Дальше система через связку нескольких агентов сама проходит весь пайплайн: анализ данных, план решения, генерация кода, тесты и оценка качества.
Поддерживает разных провайдеров LLM: OpenAI, Anthropic, Ollama и другие. Плюс умеет автоматически выводить структуру данных или даже генерировать синтетический датасет.
Еще внутри есть распределенное обучение на Ray: можно параллельно прогонять несколько вариантов моделей и сильно ускоряться.
Если тебе нужно быстро проверить ML-идею или дать возможность строить модели не технарям, штука выглядит реально полезной.
📁 Language: #Python 92.0%
⭐️ Stars: 2.3k
➡️ Cсылка на GitHub
📱 @git_developer
Чтобы натренировать ML-модель, обычно надо шарить в алгоритмах, писать код и бесконечно тюнить гиперпараметры. Для большинства это входной барьер, который сразу отбивает желание.
На GitHub есть Plexe, опенсорсный проект, который сильно снижает порог: ты описываешь задачу обычным языком, а он автоматически собирает машинное обучение под это.
Достаточно по-человечески объяснить, что именно хочешь предсказать, какие данные на входе и что должно быть на выходе. Дальше система через связку нескольких агентов сама проходит весь пайплайн: анализ данных, план решения, генерация кода, тесты и оценка качества.
Поддерживает разных провайдеров LLM: OpenAI, Anthropic, Ollama и другие. Плюс умеет автоматически выводить структуру данных или даже генерировать синтетический датасет.
Еще внутри есть распределенное обучение на Ray: можно параллельно прогонять несколько вариантов моделей и сильно ускоряться.
Если тебе нужно быстро проверить ML-идею или дать возможность строить модели не технарям, штука выглядит реально полезной.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3❤2
ai-data-science-team
Когда делаешь проекты по Data Science, львиная доля времени обычно уходит на чистку данных и однотипный код для графиков, а на реальный тюнинг моделей сил остается совсем мало.
Случайно наткнулся на GitHub на проект ai-data-science-team, который по сути собирает тебе универсальную виртуальную команду дата-сайентистов.
Он дает визуальный workflow-инструмент: через интерфейс и в связке с AI можно прогнать весь пайплайн от загрузки данных, очистки и EDA до моделинга.
Внутри несколько специализированных агентов, которые делят работу и берут на себя рутину: автоматом разбираются с пропусками, генерят код для feature engineering, а также могут напрямую дергать H2O и MLflow для обучения и оценки моделей.
Можно подключить OpenAI или локальные модели через Ollama, так что с приватностью данных проще, и все это сделано на Streamlit, в Python ставится и запускается довольно быстро.
Проект сейчас активно пилится и обновляется, так что подойдет тем, кто хочет отдать муторную предобработку AI и больше фокусироваться на бизнес-логике.
📁 Language: #Python 100.0%
⭐️ Stars: 4.6k
➡️ Cсылка на GitHub
📱 @git_developer
Когда делаешь проекты по Data Science, львиная доля времени обычно уходит на чистку данных и однотипный код для графиков, а на реальный тюнинг моделей сил остается совсем мало.
Случайно наткнулся на GitHub на проект ai-data-science-team, который по сути собирает тебе универсальную виртуальную команду дата-сайентистов.
Он дает визуальный workflow-инструмент: через интерфейс и в связке с AI можно прогнать весь пайплайн от загрузки данных, очистки и EDA до моделинга.
Внутри несколько специализированных агентов, которые делят работу и берут на себя рутину: автоматом разбираются с пропусками, генерят код для feature engineering, а также могут напрямую дергать H2O и MLflow для обучения и оценки моделей.
Можно подключить OpenAI или локальные модели через Ollama, так что с приватностью данных проще, и все это сделано на Streamlit, в Python ставится и запускается довольно быстро.
Проект сейчас активно пилится и обновляется, так что подойдет тем, кто хочет отдать муторную предобработку AI и больше фокусироваться на бизнес-логике.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
PaddleOCR-VL-1.5.
Только что Baidu мощно опенсорснули новое поколение модели для парсинга документов: PaddleOCR-VL-1.5.
Всего 0.9B параметров, и она заняла первое место в глобальном рейтинге OmniDocBench V1.5. По совокупной производительности обходит Gemini-3-Pro, DeepSeek-OCR-2 и GPT-5.2.
В повседневной работе и жизни фото контрактов или счетов, снятые на телефон, часто получаются с перекосом, изгибом или деформацией.
Если распознавать такое классическими OCR-инструментами, нередко бывает пропуск контента или вообще полный провал распознавания.
С PaddleOCR-VL-1.5 эти проблемы решаются.
Это первая в мире OCR-модель, которая поддерживает “позиционирование по нестандартным рамкам”. Она точно распознаёт трапециевидные, сложенные, изогнутые и другие нерегулярные формы документов.
Даже если документ смяли или он сильно исказился из-за угла съёмки, модель может восстановить структуру таблиц и текста “ячейка за ячейкой” с точностью, близкой к сканеру.
Плюс добавили распознавание печатей и автосклейку таблиц, которые идут на нескольких страницах. Ещё отдельно прокачали редкие иероглифы, древние тексты и 109 языков, чтобы заметно повысить стабильность в сложных рабочих сценариях.
За последние полгода OCR-гонка реально стала очень жёсткой: крупные компании активно выкатывают новые модели и пытаются занять нишу документ-парсинга.
А релиз Baidu PaddleOCR-VL-1.5 попал ровно в боль разработчиков: распознавание “нестандартных документов”, которые обычно хуже всего даются.
То есть OCR перестаёт быть штукой только для идеальных сканов и начинает нормально работать в сложных бизнес-сценариях.
Сейчас веса модели полностью открыты. Разработчики могут скачать или протестировать онлайн на Hugging Face.
Онлайн демо, Скачать модель
📁 Language: #Python 76.3%
⭐️ Stars: 61.9k
➡️ Cсылка на GitHub
📱 @git_developer
Только что Baidu мощно опенсорснули новое поколение модели для парсинга документов: PaddleOCR-VL-1.5.
Всего 0.9B параметров, и она заняла первое место в глобальном рейтинге OmniDocBench V1.5. По совокупной производительности обходит Gemini-3-Pro, DeepSeek-OCR-2 и GPT-5.2.
В повседневной работе и жизни фото контрактов или счетов, снятые на телефон, часто получаются с перекосом, изгибом или деформацией.
Если распознавать такое классическими OCR-инструментами, нередко бывает пропуск контента или вообще полный провал распознавания.
С PaddleOCR-VL-1.5 эти проблемы решаются.
Это первая в мире OCR-модель, которая поддерживает “позиционирование по нестандартным рамкам”. Она точно распознаёт трапециевидные, сложенные, изогнутые и другие нерегулярные формы документов.
Даже если документ смяли или он сильно исказился из-за угла съёмки, модель может восстановить структуру таблиц и текста “ячейка за ячейкой” с точностью, близкой к сканеру.
Плюс добавили распознавание печатей и автосклейку таблиц, которые идут на нескольких страницах. Ещё отдельно прокачали редкие иероглифы, древние тексты и 109 языков, чтобы заметно повысить стабильность в сложных рабочих сценариях.
За последние полгода OCR-гонка реально стала очень жёсткой: крупные компании активно выкатывают новые модели и пытаются занять нишу документ-парсинга.
А релиз Baidu PaddleOCR-VL-1.5 попал ровно в боль разработчиков: распознавание “нестандартных документов”, которые обычно хуже всего даются.
То есть OCR перестаёт быть штукой только для идеальных сканов и начинает нормально работать в сложных бизнес-сценариях.
Сейчас веса модели полностью открыты. Разработчики могут скачать или протестировать онлайн на Hugging Face.
Онлайн демо, Скачать модель
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1