Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Что характерно:
- все сервисы научной инфраструктуры данных имеют сильную академическую или некоммерческую аффиляцию, во всех случаях либо от международных организаций с сильной репутацией, или национальных научных фондов, или консорциумов университетов (как поставщиков данных)
- ключевой фактор успеха - наличие возможности экономического и культурного влияния на владельцев данных. Если их нет, то и данные публиковаться не будут
- коммерческие проекты имеют сильный фокус на удобство и масштаб. Они дают удобные интерфейсы, индексируют сотни тысяч наборов данных и так далее
- инфраструктурные организации практически никогда не совмещают свои функции с созданием данных. Иначе говоря, даже если создаётся какой-нибудь центр биоданных при каком-нибудь лидирующем университете в этой области, то всё равно, управление этим биобанком выделяется, или в отдельный инфраструктурный юнит, или, что более вероятно, в отдельную организацию учреждаемую сразу группой таких исследовательских центров.
- отдельная тема - это огромное число отраслевых банков данных и цифровых репозиториев данных в отраслевом разрезе: лингвистика, биология, гидрография. Такие банки данных есть и в России, например, ЕСИМО [7] или УИС Россия [8] и ещё ряд специализированных, чаще непубличных, репозиториев. Некоторые из них можно найти в каталоге re3data [9], хотя и далеко не все, конечно же.

Ссылки:
[1] https://t.iss.one/begtin/2513
[2] https://data.humdata.org
[3] https://www.ukdataservice.ac.uk/
[4] https://zenodo.org
[5] https://figshare.com/
[6] https://data.mendeley.com/
[7] https://esimo.ru/portal/
[8] https://uisrussia.msu.ru
[9] https://www.re3data.org/search?query=&countries[]=RUS

#data #datainfrastructure
У Bessemer Venture Partners большой обзор рынка стартапов формирующих инфраструктуру данных Roadmap: Data Infrastructure [1]. Обзор ориентирован, в первую очередь, на инвесторов в подобные компании. Много важных факторов рынка подмечено, хорошо изложено и, в принципе, очень полезный материал.

Я коротко изложу основные тезисы:
1. Исследователи данных (data scientists) определяют решения.
Сейчас новые стартапы и продукты ориентируются на ниши работы с данными где есть исследователи данных и их потребности. Продукты в других областях тоже появляются, но приоритет, всё же, на data science.
2. Отделение сложности работы данными от инженеров данных.
У бизнес потребителей и data scientist'ов есть потребность в данных, но работа инженеров данных может занимать дни. Всё большее число стартапов фокусируются на ускорение доставки данных и на "трубах данных без дата инженеров" упрощая интерфейсы и заменяя команды дата-инженеров внутри.
3. Управление данными, мониторинга и наблюдаемость
Число источников данных значительно выросло, выросла сложность работы с ними и всё больше нового регулирования, особенно, в части приватности. Каталоги данных, прослеживаемость данных и мониторинг данных являются важными приоритетами в новой ситуации.
4. Новая волна BI и дата аналитики
С прицелом на реальное время, автоматизацию и быстрое развертывание. Очень многие создаются под задачи специфические для конкретных индустрий.
5. Инфраструктура для машинного обучения
Многие стартапы фокусируются на том чтобы машинное обучение можно было бы разворачивать в короткие сроки, создают инфраструктуру в виде инструментов, обогащения данных и многое другое

В целом, конечно, важно помнить про то что это взгляд венчурного фонда с подчеркиванием профиля компаний в их портфеле, но тезисы и тренды (их можно прочитать в публикации) подмечены весьма точно.

Ссылки:
[1] https://www.bvp.com/atlas/roadmap-data-infrastructure

#data #datainfrastructure
Как командам по работе с данным документировать свою работу? Большая часть заметок и описаний являются внутренними, но у команды Gitlab есть огромный детальный и интересный раздел Data team [1] описывающий буквально все аспекты работы с данными внутри Gitlab: взаимодействие команд, инфраструктуру данных, используемые инструменты, решаемые задачи, перечень дашбордов и источников данных, правила программирования на Python, правила настройки dbt и ещё много чего другого.

Учитывая насколько дата инженеры, аналитики и сайентисты не любят документировать свою работу, то вдвойне полезно почитать.

А я бы обратил в этом гайде на два аспекта:
- Trusted Data Framework [2] создание в корпоративной системе данных "доверенной зоны" которая настроена на многочисленные проверки. Она должна покрывать те области в которых принимаются наиболее критически важные решения.
- Data Pumps [3] другое название для Reverse ETL, инструменты возврата в маркетинговые и транзакционные системы результатов анализа для улучшения работы этих систем.
- Data Spigot [4] краны данных. Это когда каждое приложение получает данные по индивидуальным реквизитам доступа (своему ключу) и только в минимальном объёме необходимом ему для работы. В Gitlab'е всё построено вокруг хранилища в Snowflake, но сама идея универсальна.

Заодно можно понять почему так взлетает использование dbt, почему Gitlab начали создавать Meltano и то насколько в сложных продуктах всё собирается и интегрируется из отдельных кирпичиков, а задача дата инженеров в переплетении их между собой.

В целом документ почти идеальное описание целей, задач, принципов, правил, организации и инфраструктуры с точки зрения инженерии данных.

Ссылки:
[1] https://about.gitlab.com/handbook/business-technology/data-team/
[2] https://about.gitlab.com/handbook/business-technology/data-team/platform/#tdf
[3] https://about.gitlab.com/handbook/business-technology/data-team/platform/#data-pump
[4] https://about.gitlab.com/handbook/business-technology/data-team/platform/#data-spigot

#data #datainfrastructure #datadocumentation #dataengineering
Любопытный продукт про работу с данными с открытым кодом JuiceFS [1], облачная файловая система с поддержкой многих облачных провайдеров и предоставляющая S3 совместимый интерфейс. Базовая архитектура продукта в том что все метаданные хранятся в Redis или в другом key-value хранилище, а файлы в S3 совместимом хранилище файлов. Никакой магии, но полезный рабочий инструмент. Авторы пошли тем же путём что я уже часто описываю - сделать популярный open source продукт и привлекать венчурные инвестиции на облачное решение [2].

Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).

А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.

Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.

Ссылки:
[1] https://github.com/juicedata/juicefs
[2] https://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc

#data #datainfrastructure #storage #startups