Что характерно:
- все сервисы научной инфраструктуры данных имеют сильную академическую или некоммерческую аффиляцию, во всех случаях либо от международных организаций с сильной репутацией, или национальных научных фондов, или консорциумов университетов (как поставщиков данных)
- ключевой фактор успеха - наличие возможности экономического и культурного влияния на владельцев данных. Если их нет, то и данные публиковаться не будут
- коммерческие проекты имеют сильный фокус на удобство и масштаб. Они дают удобные интерфейсы, индексируют сотни тысяч наборов данных и так далее
- инфраструктурные организации практически никогда не совмещают свои функции с созданием данных. Иначе говоря, даже если создаётся какой-нибудь центр биоданных при каком-нибудь лидирующем университете в этой области, то всё равно, управление этим биобанком выделяется, или в отдельный инфраструктурный юнит, или, что более вероятно, в отдельную организацию учреждаемую сразу группой таких исследовательских центров.
- отдельная тема - это огромное число отраслевых банков данных и цифровых репозиториев данных в отраслевом разрезе: лингвистика, биология, гидрография. Такие банки данных есть и в России, например, ЕСИМО [7] или УИС Россия [8] и ещё ряд специализированных, чаще непубличных, репозиториев. Некоторые из них можно найти в каталоге re3data [9], хотя и далеко не все, конечно же.
Ссылки:
[1] https://t.iss.one/begtin/2513
[2] https://data.humdata.org
[3] https://www.ukdataservice.ac.uk/
[4] https://zenodo.org
[5] https://figshare.com/
[6] https://data.mendeley.com/
[7] https://esimo.ru/portal/
[8] https://uisrussia.msu.ru
[9] https://www.re3data.org/search?query=&countries[]=RUS
#data #datainfrastructure
- все сервисы научной инфраструктуры данных имеют сильную академическую или некоммерческую аффиляцию, во всех случаях либо от международных организаций с сильной репутацией, или национальных научных фондов, или консорциумов университетов (как поставщиков данных)
- ключевой фактор успеха - наличие возможности экономического и культурного влияния на владельцев данных. Если их нет, то и данные публиковаться не будут
- коммерческие проекты имеют сильный фокус на удобство и масштаб. Они дают удобные интерфейсы, индексируют сотни тысяч наборов данных и так далее
- инфраструктурные организации практически никогда не совмещают свои функции с созданием данных. Иначе говоря, даже если создаётся какой-нибудь центр биоданных при каком-нибудь лидирующем университете в этой области, то всё равно, управление этим биобанком выделяется, или в отдельный инфраструктурный юнит, или, что более вероятно, в отдельную организацию учреждаемую сразу группой таких исследовательских центров.
- отдельная тема - это огромное число отраслевых банков данных и цифровых репозиториев данных в отраслевом разрезе: лингвистика, биология, гидрография. Такие банки данных есть и в России, например, ЕСИМО [7] или УИС Россия [8] и ещё ряд специализированных, чаще непубличных, репозиториев. Некоторые из них можно найти в каталоге re3data [9], хотя и далеко не все, конечно же.
Ссылки:
[1] https://t.iss.one/begtin/2513
[2] https://data.humdata.org
[3] https://www.ukdataservice.ac.uk/
[4] https://zenodo.org
[5] https://figshare.com/
[6] https://data.mendeley.com/
[7] https://esimo.ru/portal/
[8] https://uisrussia.msu.ru
[9] https://www.re3data.org/search?query=&countries[]=RUS
#data #datainfrastructure
У Bessemer Venture Partners большой обзор рынка стартапов формирующих инфраструктуру данных Roadmap: Data Infrastructure [1]. Обзор ориентирован, в первую очередь, на инвесторов в подобные компании. Много важных факторов рынка подмечено, хорошо изложено и, в принципе, очень полезный материал.
Я коротко изложу основные тезисы:
1. Исследователи данных (data scientists) определяют решения.
Сейчас новые стартапы и продукты ориентируются на ниши работы с данными где есть исследователи данных и их потребности. Продукты в других областях тоже появляются, но приоритет, всё же, на data science.
2. Отделение сложности работы данными от инженеров данных.
У бизнес потребителей и data scientist'ов есть потребность в данных, но работа инженеров данных может занимать дни. Всё большее число стартапов фокусируются на ускорение доставки данных и на "трубах данных без дата инженеров" упрощая интерфейсы и заменяя команды дата-инженеров внутри.
3. Управление данными, мониторинга и наблюдаемость
Число источников данных значительно выросло, выросла сложность работы с ними и всё больше нового регулирования, особенно, в части приватности. Каталоги данных, прослеживаемость данных и мониторинг данных являются важными приоритетами в новой ситуации.
4. Новая волна BI и дата аналитики
С прицелом на реальное время, автоматизацию и быстрое развертывание. Очень многие создаются под задачи специфические для конкретных индустрий.
5. Инфраструктура для машинного обучения
Многие стартапы фокусируются на том чтобы машинное обучение можно было бы разворачивать в короткие сроки, создают инфраструктуру в виде инструментов, обогащения данных и многое другое
В целом, конечно, важно помнить про то что это взгляд венчурного фонда с подчеркиванием профиля компаний в их портфеле, но тезисы и тренды (их можно прочитать в публикации) подмечены весьма точно.
Ссылки:
[1] https://www.bvp.com/atlas/roadmap-data-infrastructure
#data #datainfrastructure
Я коротко изложу основные тезисы:
1. Исследователи данных (data scientists) определяют решения.
Сейчас новые стартапы и продукты ориентируются на ниши работы с данными где есть исследователи данных и их потребности. Продукты в других областях тоже появляются, но приоритет, всё же, на data science.
2. Отделение сложности работы данными от инженеров данных.
У бизнес потребителей и data scientist'ов есть потребность в данных, но работа инженеров данных может занимать дни. Всё большее число стартапов фокусируются на ускорение доставки данных и на "трубах данных без дата инженеров" упрощая интерфейсы и заменяя команды дата-инженеров внутри.
3. Управление данными, мониторинга и наблюдаемость
Число источников данных значительно выросло, выросла сложность работы с ними и всё больше нового регулирования, особенно, в части приватности. Каталоги данных, прослеживаемость данных и мониторинг данных являются важными приоритетами в новой ситуации.
4. Новая волна BI и дата аналитики
С прицелом на реальное время, автоматизацию и быстрое развертывание. Очень многие создаются под задачи специфические для конкретных индустрий.
5. Инфраструктура для машинного обучения
Многие стартапы фокусируются на том чтобы машинное обучение можно было бы разворачивать в короткие сроки, создают инфраструктуру в виде инструментов, обогащения данных и многое другое
В целом, конечно, важно помнить про то что это взгляд венчурного фонда с подчеркиванием профиля компаний в их портфеле, но тезисы и тренды (их можно прочитать в публикации) подмечены весьма точно.
Ссылки:
[1] https://www.bvp.com/atlas/roadmap-data-infrastructure
#data #datainfrastructure
Bessemer Venture Partners
Roadmap: Data Infrastructure
The modern cloud data stack is undergoing massive construction and the future of software will be defined by the accessibility and use of data.
Как командам по работе с данным документировать свою работу? Большая часть заметок и описаний являются внутренними, но у команды Gitlab есть огромный детальный и интересный раздел Data team [1] описывающий буквально все аспекты работы с данными внутри Gitlab: взаимодействие команд, инфраструктуру данных, используемые инструменты, решаемые задачи, перечень дашбордов и источников данных, правила программирования на Python, правила настройки dbt и ещё много чего другого.
Учитывая насколько дата инженеры, аналитики и сайентисты не любят документировать свою работу, то вдвойне полезно почитать.
А я бы обратил в этом гайде на два аспекта:
- Trusted Data Framework [2] создание в корпоративной системе данных "доверенной зоны" которая настроена на многочисленные проверки. Она должна покрывать те области в которых принимаются наиболее критически важные решения.
- Data Pumps [3] другое название для Reverse ETL, инструменты возврата в маркетинговые и транзакционные системы результатов анализа для улучшения работы этих систем.
- Data Spigot [4] краны данных. Это когда каждое приложение получает данные по индивидуальным реквизитам доступа (своему ключу) и только в минимальном объёме необходимом ему для работы. В Gitlab'е всё построено вокруг хранилища в Snowflake, но сама идея универсальна.
Заодно можно понять почему так взлетает использование dbt, почему Gitlab начали создавать Meltano и то насколько в сложных продуктах всё собирается и интегрируется из отдельных кирпичиков, а задача дата инженеров в переплетении их между собой.
В целом документ почти идеальное описание целей, задач, принципов, правил, организации и инфраструктуры с точки зрения инженерии данных.
Ссылки:
[1] https://about.gitlab.com/handbook/business-technology/data-team/
[2] https://about.gitlab.com/handbook/business-technology/data-team/platform/#tdf
[3] https://about.gitlab.com/handbook/business-technology/data-team/platform/#data-pump
[4] https://about.gitlab.com/handbook/business-technology/data-team/platform/#data-spigot
#data #datainfrastructure #datadocumentation #dataengineering
Учитывая насколько дата инженеры, аналитики и сайентисты не любят документировать свою работу, то вдвойне полезно почитать.
А я бы обратил в этом гайде на два аспекта:
- Trusted Data Framework [2] создание в корпоративной системе данных "доверенной зоны" которая настроена на многочисленные проверки. Она должна покрывать те области в которых принимаются наиболее критически важные решения.
- Data Pumps [3] другое название для Reverse ETL, инструменты возврата в маркетинговые и транзакционные системы результатов анализа для улучшения работы этих систем.
- Data Spigot [4] краны данных. Это когда каждое приложение получает данные по индивидуальным реквизитам доступа (своему ключу) и только в минимальном объёме необходимом ему для работы. В Gitlab'е всё построено вокруг хранилища в Snowflake, но сама идея универсальна.
Заодно можно понять почему так взлетает использование dbt, почему Gitlab начали создавать Meltano и то насколько в сложных продуктах всё собирается и интегрируется из отдельных кирпичиков, а задача дата инженеров в переплетении их между собой.
В целом документ почти идеальное описание целей, задач, принципов, правил, организации и инфраструктуры с точки зрения инженерии данных.
Ссылки:
[1] https://about.gitlab.com/handbook/business-technology/data-team/
[2] https://about.gitlab.com/handbook/business-technology/data-team/platform/#tdf
[3] https://about.gitlab.com/handbook/business-technology/data-team/platform/#data-pump
[4] https://about.gitlab.com/handbook/business-technology/data-team/platform/#data-spigot
#data #datainfrastructure #datadocumentation #dataengineering
The GitLab Handbook
Data Team
The GitLab Enterprise Data Team is responsible for empowering every GitLab team member to contribute to the data program and generate business value from our data assets.
Любопытный продукт про работу с данными с открытым кодом JuiceFS [1], облачная файловая система с поддержкой многих облачных провайдеров и предоставляющая S3 совместимый интерфейс. Базовая архитектура продукта в том что все метаданные хранятся в Redis или в другом key-value хранилище, а файлы в S3 совместимом хранилище файлов. Никакой магии, но полезный рабочий инструмент. Авторы пошли тем же путём что я уже часто описываю - сделать популярный open source продукт и привлекать венчурные инвестиции на облачное решение [2].
Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).
А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.
Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.
Ссылки:
[1] https://github.com/juicedata/juicefs
[2] https://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc
#data #datainfrastructure #storage #startups
Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).
А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.
Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.
Ссылки:
[1] https://github.com/juicedata/juicefs
[2] https://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc
#data #datainfrastructure #storage #startups
GitHub
GitHub - juicedata/juicefs: JuiceFS is a distributed POSIX file system built on top of Redis and S3.
JuiceFS is a distributed POSIX file system built on top of Redis and S3. - juicedata/juicefs