Как обрабатывать данные? Какие бесплатные и платные инструменты существуют? И, особенно, как работать с данными изначально не в самом лучшем качестве.
Наиболее правильный термин data wrangling, плохо переводится на русский, но по сути - это "преобразование данных" и в этой области есть много инструментов. Другой часто используемый термин - data preparation или data prep (подготовка данных) за которым скрывается обработка и трансформация данных для последующей загрузки (ETL) или постобработки после загрузки (ELT).
Инструментов существует огромное количество. Есть много что можно собрать из маленьких компонентов, в академической среде, чаще это инструменты завязанные на executive papers такие как Jupyter Notebook, в open source среде - это многочисленные инструменты преобразования данных через командную строку и в корпоративной среде - это, чаще, дорогие коммерческие продукты сочетающие в себе множество возможностей.
- OpenRefine [1] бесплатный инструмент, некогда вышедший из проекта Google Refine который опубликовали в Google после поглощения команды Metaweb (проект Freebase). Один из лучших бесплатных инструментов в этой области.
- Trifacta [2] де-факто лидеры рынка, изначально делали акцент на обработке данных, сейчас это комплексный продукт по подготовке данных, их преобразованию и построение дата труб (data pipelines). Одно из самых дорогих решений на рынке, от $419 в месяц за пользователя.
- Microsoft Excel один из мощнейших инструментов о возможностях применения которого в обработке данных знают не все. Но с расширениями вроде ReshapeXL [3] позволяет добиваться многого.
- Microsoft PowerBI [4] включает многочисленные возможности обработки данных для последующей визуализации
- Tableau Prep [5] позволяет делать пред-обработку данных для последующей визуализации в продуктах Tableau.
- Datameer X [6] подготовка данных специально для озёр Hadoop
- Easy Morph [7] ETL инструмент подготовки данных без программирования
- Meltano [8] инструмент обработки данных через Python и с открытым кодом с интеграцией с разными источниками
Также большой список инструментов в коллекциях:
- Awesome ETL [9] подборка Extract, Transform and Load инструментов
- Gartner Data Preparation tools [10] список от Gartner
Основной тренд сейчас - это то что подготовка данных уходит в облака, я ранее писал о переходе от подхода ETL к ELT и обработке данных уже в облачном хранилище. Таких продуктов всё больше и, похоже, будущее за ними.
Ссылки:
[1] https://openrefine.org/
[2] https://www.trifacta.com/
[3] https://reshapexl.com/
[4] https://powerbi.microsoft.com/en-us/
[5] https://www.tableau.com/products/prep
[6] https://www.datameer.com/datameer-x/
[7] https://easymorph.com/
[8] https://meltano.com
[9] https://github.com/pawl/awesome-etl
[10] https://www.gartner.com/reviews/market/data-preparation-tools
#dataprep #datawrangling #data
Наиболее правильный термин data wrangling, плохо переводится на русский, но по сути - это "преобразование данных" и в этой области есть много инструментов. Другой часто используемый термин - data preparation или data prep (подготовка данных) за которым скрывается обработка и трансформация данных для последующей загрузки (ETL) или постобработки после загрузки (ELT).
Инструментов существует огромное количество. Есть много что можно собрать из маленьких компонентов, в академической среде, чаще это инструменты завязанные на executive papers такие как Jupyter Notebook, в open source среде - это многочисленные инструменты преобразования данных через командную строку и в корпоративной среде - это, чаще, дорогие коммерческие продукты сочетающие в себе множество возможностей.
- OpenRefine [1] бесплатный инструмент, некогда вышедший из проекта Google Refine который опубликовали в Google после поглощения команды Metaweb (проект Freebase). Один из лучших бесплатных инструментов в этой области.
- Trifacta [2] де-факто лидеры рынка, изначально делали акцент на обработке данных, сейчас это комплексный продукт по подготовке данных, их преобразованию и построение дата труб (data pipelines). Одно из самых дорогих решений на рынке, от $419 в месяц за пользователя.
- Microsoft Excel один из мощнейших инструментов о возможностях применения которого в обработке данных знают не все. Но с расширениями вроде ReshapeXL [3] позволяет добиваться многого.
- Microsoft PowerBI [4] включает многочисленные возможности обработки данных для последующей визуализации
- Tableau Prep [5] позволяет делать пред-обработку данных для последующей визуализации в продуктах Tableau.
- Datameer X [6] подготовка данных специально для озёр Hadoop
- Easy Morph [7] ETL инструмент подготовки данных без программирования
- Meltano [8] инструмент обработки данных через Python и с открытым кодом с интеграцией с разными источниками
Также большой список инструментов в коллекциях:
- Awesome ETL [9] подборка Extract, Transform and Load инструментов
- Gartner Data Preparation tools [10] список от Gartner
Основной тренд сейчас - это то что подготовка данных уходит в облака, я ранее писал о переходе от подхода ETL к ELT и обработке данных уже в облачном хранилище. Таких продуктов всё больше и, похоже, будущее за ними.
Ссылки:
[1] https://openrefine.org/
[2] https://www.trifacta.com/
[3] https://reshapexl.com/
[4] https://powerbi.microsoft.com/en-us/
[5] https://www.tableau.com/products/prep
[6] https://www.datameer.com/datameer-x/
[7] https://easymorph.com/
[8] https://meltano.com
[9] https://github.com/pawl/awesome-etl
[10] https://www.gartner.com/reviews/market/data-preparation-tools
#dataprep #datawrangling #data