TaxHacker
Каждый раз, когда надо разгрести чеки и инвойсы для налогов, обычно все превращается в ручной ад: по одной бумажке вбивать в таблицу продавца, сумму, дату, налоги и прочие поля. Долго и легко накосячить.
На GitHub недавно нашелся TaxHacker, опенсорсный учетный инструмент под фрилансеров и малый бизнес. Фишка в том, что он с помощью AI автоматически распознает и вытаскивает данные из инвойсов.
Сфоткал чек или загрузил PDF и AI сам вытащит ключевое: названия позиций, суммы, дату, продавца, налоговые поля и т.д. Дальше это сохраняется сразу в структурированную базу, плюс можно добавить кастомные поля, чтобы вытягивать то, что нужно именно тебе.
Есть поддержка 170+ фиатных валют и 14 криптовалют, а также автоматический пересчет по курсу на дату операции. Можно фильтровать записи по дате, категориям, проектам, сумме и другим признакам, и выгружать полный журнал транзакций в CSV.
Отдельно полезно, что можно настраивать промпты для AI, включая системные шаблоны: заставить модель вытаскивать дополнительные атрибуты под твой кейс, например email, адрес, код проекта и т.п.
Для деплоя есть Docker-образ и Docker Compose, можно быстро поднять на своем сервере и держать данные под полным контролем. Также поддерживается подключение к уже существующему PostgreSQL.
📁 Language: #TypeScript 99.7%
⭐️ Stars: 1k
➡️ Cсылка на GitHub
📱 @git_developer
Каждый раз, когда надо разгрести чеки и инвойсы для налогов, обычно все превращается в ручной ад: по одной бумажке вбивать в таблицу продавца, сумму, дату, налоги и прочие поля. Долго и легко накосячить.
На GitHub недавно нашелся TaxHacker, опенсорсный учетный инструмент под фрилансеров и малый бизнес. Фишка в том, что он с помощью AI автоматически распознает и вытаскивает данные из инвойсов.
Сфоткал чек или загрузил PDF и AI сам вытащит ключевое: названия позиций, суммы, дату, продавца, налоговые поля и т.д. Дальше это сохраняется сразу в структурированную базу, плюс можно добавить кастомные поля, чтобы вытягивать то, что нужно именно тебе.
Есть поддержка 170+ фиатных валют и 14 криптовалют, а также автоматический пересчет по курсу на дату операции. Можно фильтровать записи по дате, категориям, проектам, сумме и другим признакам, и выгружать полный журнал транзакций в CSV.
Отдельно полезно, что можно настраивать промпты для AI, включая системные шаблоны: заставить модель вытаскивать дополнительные атрибуты под твой кейс, например email, адрес, код проекта и т.п.
Для деплоя есть Docker-образ и Docker Compose, можно быстро поднять на своем сервере и держать данные под полным контролем. Также поддерживается подключение к уже существующему PostgreSQL.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
paperetl
Когда занимаешься исследованием или анализом данных и у тебя сотни или тысячи PDF-статей, каждый раз вручную вытаскивать и раскладывать информацию это ад.
Недавно, пока копался в тулзах для обработки данных, наткнулся на paperetl. Это опенсорсная библиотека для пакетной обработки и парсинга научных публикаций, которая приводит разный входной формат к структурированным данным.
Поддерживает массовый парсинг и преобразование источников в разных форматах: полный текст PDF, PubMed XML, ArXiv XML и другие.
Может складывать неструктурированные статьи прямо в SQLite, выгружать в JSON, а также подключаться к Elasticsearch для полнотекстового поиска.
По сути, одной командой можно прогнать целую папку с файлами и превратить её в БД или набор структурированных файлов, чтобы потом нормально искать, фильтровать и анализировать.
Если ты делаешь литобзор, систематический обзор или хочешь собрать свою базу статей, инструмент точно стоит попробовать.
📁 Language: #Python 96.2%
⭐️ Stars: 490
➡️ Cсылка на GitHub
📱 @git_developer
Когда занимаешься исследованием или анализом данных и у тебя сотни или тысячи PDF-статей, каждый раз вручную вытаскивать и раскладывать информацию это ад.
Недавно, пока копался в тулзах для обработки данных, наткнулся на paperetl. Это опенсорсная библиотека для пакетной обработки и парсинга научных публикаций, которая приводит разный входной формат к структурированным данным.
Поддерживает массовый парсинг и преобразование источников в разных форматах: полный текст PDF, PubMed XML, ArXiv XML и другие.
Может складывать неструктурированные статьи прямо в SQLite, выгружать в JSON, а также подключаться к Elasticsearch для полнотекстового поиска.
По сути, одной командой можно прогнать целую папку с файлами и превратить её в БД или набор структурированных файлов, чтобы потом нормально искать, фильтровать и анализировать.
Если ты делаешь литобзор, систематический обзор или хочешь собрать свою базу статей, инструмент точно стоит попробовать.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1