GitHub Разработчика
17.2K subscribers
579 photos
345 videos
2 files
917 links
Здесь ты найдешь полезные репозитории с GitHub

Связь: @devmangx

РКН: https://clck.ru/3FocDP
Download Telegram
TaxHacker

Каждый раз, когда надо разгрести чеки и инвойсы для налогов, обычно все превращается в ручной ад: по одной бумажке вбивать в таблицу продавца, сумму, дату, налоги и прочие поля. Долго и легко накосячить.

На GitHub недавно нашелся TaxHacker, опенсорсный учетный инструмент под фрилансеров и малый бизнес. Фишка в том, что он с помощью AI автоматически распознает и вытаскивает данные из инвойсов.

Сфоткал чек или загрузил PDF и AI сам вытащит ключевое: названия позиций, суммы, дату, продавца, налоговые поля и т.д. Дальше это сохраняется сразу в структурированную базу, плюс можно добавить кастомные поля, чтобы вытягивать то, что нужно именно тебе.

Есть поддержка 170+ фиатных валют и 14 криптовалют, а также автоматический пересчет по курсу на дату операции. Можно фильтровать записи по дате, категориям, проектам, сумме и другим признакам, и выгружать полный журнал транзакций в CSV.

Отдельно полезно, что можно настраивать промпты для AI, включая системные шаблоны: заставить модель вытаскивать дополнительные атрибуты под твой кейс, например email, адрес, код проекта и т.п.

Для деплоя есть Docker-образ и Docker Compose, можно быстро поднять на своем сервере и держать данные под полным контролем. Также поддерживается подключение к уже существующему PostgreSQL.

📁 Language: #TypeScript 99.7%

⭐️ Stars: 1k

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
paperetl

Когда занимаешься исследованием или анализом данных и у тебя сотни или тысячи PDF-статей, каждый раз вручную вытаскивать и раскладывать информацию это ад.

Недавно, пока копался в тулзах для обработки данных, наткнулся на paperetl. Это опенсорсная библиотека для пакетной обработки и парсинга научных публикаций, которая приводит разный входной формат к структурированным данным.

Поддерживает массовый парсинг и преобразование источников в разных форматах: полный текст PDF, PubMed XML, ArXiv XML и другие.

Может складывать неструктурированные статьи прямо в SQLite, выгружать в JSON, а также подключаться к Elasticsearch для полнотекстового поиска.

По сути, одной командой можно прогнать целую папку с файлами и превратить её в БД или набор структурированных файлов, чтобы потом нормально искать, фильтровать и анализировать.

Если ты делаешь литобзор, систематический обзор или хочешь собрать свою базу статей, инструмент точно стоит попробовать.

📁 Language: #Python 96.2%

⭐️ Stars: 490

➡️ Cсылка на GitHub

📱 @git_developer
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1