GitHub Разработчика

paperetl

Когда занимаешься исследованием или анализом данных и у тебя сотни или тысячи PDF-статей, каждый раз вручную вытаскивать и раскладывать информацию это ад.

Недавно, пока копался в тулзах для обработки данных, наткнулся на paperetl. Это опенсорсная библиотека для пакетной обработки и парсинга научных публикаций, которая приводит разный входной формат к структурированным данным.

Поддерживает массовый парсинг и преобразование источников в разных форматах: полный текст PDF, PubMed XML, ArXiv XML и другие.

Может складывать неструктурированные статьи прямо в SQLite, выгружать в JSON, а также подключаться к Elasticsearch для полнотекстового поиска.

По сути, одной командой можно прогнать целую папку с файлами и превратить её в БД или набор структурированных файлов, чтобы потом нормально искать, фильтровать и анализировать.

Если ты делаешь литобзор, систематический обзор или хочешь собрать свою базу статей, инструмент точно стоит попробовать.

📁 Language: #Python 96.2%

⭐️ Stars: 490

➡️

Cсылка на GitHub

📱

@git_developer

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

927 views16:07

About

Blog

Apps

Platform