Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Среди современного стека с данными отдельная тема, о которой я регулярно пишу, это продукты по data discovery, каталоги данных в современном стеке данных. О них было исследование Forrester Wave [1] в середине прошлого года и это такие продукты как Atlan, Alation, Collibra из коммерческих и продукты вроде Amundsen, Datahub и др. из недавно превращённых в открытые продукты с открытым кодом.

Так вот эти продукты переживают сейчас бум развития, инвестиций и пользовательского внимания, потому что уже многие крупные и средние компании накопили команды, наработки, данные и тд. а наведение в этом всём порядка оказывается большой задачей. Вернее задач там много, аналитические, задачи complience и тд.

Полезно посмотреть на два обзора и "каталога каталогов". Один от одного из сотрудников Atlan [2] со списком основных продуктов их конкурентов и кратким описанием каждого.

Другой от CastorDoc [3] с куда более детальным списком и сравнением по областям применения, стоимости и возможностям.

Сейчас это всё довольно сложные платформы, с разными акцентами на управлении метаданными. Лично приглядываюсь к ним потому что многие возможности такой платформы, но в формате открытого каталога, мы реализуем в DataCrafter'е. Например, автоматическая идентификация типов данных есть в Collibra, но пока мало где в других каталогах.

И я, конечно, не могу не обратить внимание насколько технологии Modern Data Stack оторваны от работы с открытыми данными и с исследовательскими данными. Чем больше я изучаю инструментарий технологический, логический и др. тем больше видна разница, между каталогами открытых данных и каталогами корпоративных метаданных. Я бы даже сказал что это разные миры которые практически не пересекаются по форматам данных, способам агрегации данных, способам доступа и так далее.

Ссылки:
[1] https://t.iss.one/begtin/2978
[2] https://www.notion.so/atlanhq/The-Ultimate-Repository-of-Data-Discovery-Solutions-149b0ea2a2ed401d84f2b71681c5a369
[3] https://notion.castordoc.com/catalog-of-catalogs

#datadiscovery #metadata #metadatamanagement #datacatalogs
В качестве регулярного напоминания о том где искать данные и какие каталоги данных существуют:
- Хаб открытых данных (hubofdata.ru) создан на базе системы каталогов данных CKAN нами (@infoculture) ещё до появления государственных порталов данных. Можно использовать для загрузки данных, а нами используется как хранилище метаданных к архивам, причём не только данных, но и веб-сайтов.

- Данные НКО (ngodata.ru) портал созданный нами для того чтобы НКО могли бы публиковать данные по результатам своей работы. Задумка была хорошая, но заинтересованность НКО в распространении своих данных мы явно
переоценили. В то же время немало данных Инфокультуры опубликовано и там тоже.

- Каталог каталогов данных (datacatalogs.ru) - создан как агрегатор метаданных о каталогах данных. Охватывает,
наверное, почти все каталоги данных в России и о России, а также некоторые цифровые репозитории где должны быть данные (в том числе), например, репозитории научных публикаций.

- DataCrafter (data.apicrafter.ru) - каталог данных созданный в рамках нашего коммерческого проекта APICrafter. Значительная часть данных открыта и общедоступна. Всё ещё в бета режиме и пока используется для технологических экспериментов в основном. Вроде того что я постоянно рассказываю о классификации данных и разметки типов полей данных по их смыслу (кодам ИНН, ФИО, персональным данным, справочникам и тд)

Всё это то что находится в открытом доступе, а также много данных которые мы постоянно собираем и до которых _не доходят руки_, потому что собрать данные != документировать данные != привести данные удобный вид.

#opendata #dataportals #datasets #datadiscovery
Возвращаясь к теме обнаружения данных (data discovery) то более всего она актуальна когда у компании/организации очень много разных систем и данных и есть потребность ответить себе на вопрос как узнать что и где хранится. Я ещё в допандемийное время много читал лекций про карты данных систематизацию источников данных, в первую очередь, в органах власти и госучреждениях. Но в основном я рассказывал про нетехнические методы, а есть и вполне технические, и разного рода ПО и сервисы каталогизации данных - это именно про такое.

Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.

А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.

В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.

По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.

Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/

#datadiscovery #opendata #data #datatools #standards
Подготовил перевод на русский статьи про поисковики по данным и отправил в рассылку на Substack [1]․ Кстати, если Вы не подписались ещё, то приглашаю подписываться [2]. Рассылку я веду на русском языке, пишу туда редко, но только относительно большие тексты.

Ссылки:
[1] https://begtin.substack.com/p/25?sd=fs
[2] https://begtin.substack.com

#datadiscovery #data #dataportals
В рубрике интересных проектов на данных Data-Driven Discovery of Models (D3M) [1], большой проект DARPA, военного ведомства США финансирующего инновационные проекты.

Проект посвящён автоматизации data science и предсказанием применения моделей данных. А главная идея в улучшении понимания предметных областей для для исследователей данных.

Они упоминают там 3 платформы в этом направлении:
- Einblick [2] система совместного исследования данных и моделирования предсказаний на их основе
- TwoRavens [3] система для моделирования предметных областей через данные и моделирования данных в этих областях
- Distil [4] система для специалистов предметных областей исследовать данные в разных формах

Фактически D3M это экосистема внутри которой финансируются многие проекты. Например, Auctus, поисковик по данным о которым я недавно писал [5] и Datamart [6] проект по анализу наборов данных с сопоставлением их с Wikidata.

А также множество проектов по направлению AutoML, помогающим автоматизировать работу отраслевых экспертов и отделяющих машинное обучение от самих специалистов по машинному обучению. Через типовые модели, через создание базы примитивов для этих моделей и многое другое.

Там много очень разных интересных идей, причём в сторону технологически продвинутых nocode/low-code инструментов внутри которых могут быть сложные алгоритмы работы с данными. Фактически это путь по значительному усилению отраслевых аналитиков в областях экономики, геополитики, промышленности и тд и для того чтобы они самостоятельно могли бы работать с большими данными.

Ссылки:
[1] https://datadrivendiscovery.org/
[2] https://www.einblick.ai/
[3] https://2ra.vn/
[4] https://d3m.uncharted.software/
[5] https://t.iss.one/begtin/3922
[6] https://datadrivendiscovery.org/augmentation/

#data #research #datascience #datadiscovery #ml
Ещё в 2018 году в Инфокультуре (@infoculture) мы делали множество карт данных, подсказок для хакатонов и тех кто делает продукты на открытых данных о том где открытые данные взять. С той поры у меня не доходили руки привести их все в порядок. Какие-то были более-менее систематизированы, какие-то ещё рассеяны по разным местам.

Наконец-то дошли руки привести их в порядок, сделать машиночитаемый формат и выложить онлайн в репозитории ru-datamaps [1].

Охватываются такие темы как:
- Авиация
- Экология
- Госфинансы
- Законотворчество
- Здравоохранение
- Нефтегазовый сектор
- Образование
- Некоммерческие организации
- Правоохранительная система

Карты в форматах Xmind, PNG, PDF и JSON.

По мере того как буду находить остальные карты, они появятся в этом же репозитории на Github.

Ссылки:
[1] https://github.com/infoculture/ru-datamaps

#opendata #opensource #datamaps #datadiscovery
Полезное чтение про данные, технологи и не только:
- Restfox [1] аналог Postman с открытым кодом, позволяет настраивать и тестировать работу с API. До уровня Postman не дотягивает, но выглядит неплохо
- Python 3.11.0 is released — Impacts to Data Science and Engineering [2] - коротко о том почему надо прямо сейчас обновлять Python до 3.11. Если кратко: быстрее на 10-60%, лучше управление ошибками и много изменения затрагивающих работу с данными.
- Hertz [3] фреймворк для Go по созданию микросервисов. Давно пора переводить микросервисы на Go и Rust.
- Data Catalogs Are Dead; Long Live Data Discovery [4] очередной текст в копилку хайпа про смерть корпоративных каталогов данных и развитие data discovery. Будем честными, ещё каталоги то мало где внедрены, а тут сразу data discovery. Автор Barr Moses, CEO стартапа Monte Carlo, так что текст нельзя считать независимым. Но почитать стоит
- Open Source Law, Policy & Practice [5] вышла вторая редакция книжки про регуляторное регулирование открытого кода. Книга полезная, но как же она далека от госполитики в постсоветских странах! В открытом доступе, к сожалению, нет. Только заказывать за деньги, но если интересуетесь законами про open source, то читать стоит.

Ссылки:
[1] https://github.com/flawiddsouza/Restfox
[2] https://medium.com/codex/python-3-11-0-is-released-impacts-to-data-science-and-engineering-2d6c474611f4
[3] https://github.com/cloudwego/hertz
[4] https://medium.com/towards-data-science/data-catalogs-are-dead-long-live-data-discovery-a0dc8d02bd34
[5] https://global.oup.com/academic/product/open-source-law-policy-and-practice-9780198862345?cc=gb&lang=en&#the

#opensource #datatools #data #python #datacatalogs #datadiscovery
Forwarded from Инфокультура
В каталог каталогов данных Datacatalogs.ru добавлено 18 каталогов данных в форме геопорталов, в большинстве случаев это геопорталы органов власти на базе ArcGIS, но не только.

Особенность геопорталов в том что часто разработчики не предусматривают отдельных разделов выгрузки данных, но данные доступны через документированное или недокументированное API. Часто геопорталы создаются региональными органами власти, например, в форме единых геопорталов региона или города. Существуют геопорталы коммерческих компаний и научных организаций.

Ссылки на добавленные геопорталы։
- https://lgtgis.aari.ru/arcgis/rest/
- https://geoportal.gcras.ru/arcgis/rest/services
- https://gis.gov-murman.ru/
- https://meteo-dv.ru/
- https://gisnao.ru/
- https://gis.rkomi.ru/
- https://agoracle.asutk.ru/arcgis/rest/services
- https://gis.toris.gov.spb.ru/
- https://karta.yanao.ru
- https://map.govvrn.ru
- https://gis.sgm.ru/server/rest/services
- https://maps29.ru/
- https://www.tver.ru/ArcGIS/rest/services
- https://map.novo-sibirsk.ru
- https://geo.govrb.ru
- https://map.samadm.ru
- https://geoportal.egov66.ru
- https://maps.crru.ru/smaps/cmViewer.php

Каталог каталогов данных создан как проект по обнаружению данных, data discovery, с целью упрощения поиска данных по нужным темам и территориям. На сегодняшний день в него включено 280 порталов открытых данных, систем научных репозиториев, геопорталов, реестров открытых данных и порталов открытости бюджетной системы всех регионов России, а также порталы данных о России или связанные с Россией в мире.

Дополнительная цель проекта в архивации порталов данных на случай их возможного исчезновения в будущем.

Мы продолжаем работать над наполнением и визуальным представлением данных в каталоге. В ближайшее время запланирована модернизация веб-интерфейса и публикация самого каталога в форме набора данных и/или API.

Если Вы знаете какие-либо порталы данных, геопорталы и другие каталоги данных не учтённые в datacatalogs.ru - присылайте нам через форму на сайте.

#opendata #datacatalogs #datasets #datadiscovery
К вопросу о том как искать данные, ключевой проект в этой области - это Google Dataset search [1] который до сих пор имеет статус исследовательского и "не вышел из инкубатора". Он всем хорош, например, использует разметку Dataset из Schema.org для идентификации наборов данных на сайтах и позволяет получать нужные данные быстро если владелец их разметил. Но у него есть системная проблема, она заключается в том что для наборов данных не работает ранжирование теми же методами что для других поисковых индексов, они редко ссылаются друг на друга. Так как определить данные по значимости при поиске? По ключевым словам? Поиск быстро "замусоривается"․ Что и произошло с ним в данном случае. Например, когда ищешь стат показатели по множеству запросов вылезают ссылки на коммерческий проект CEIC. Вроде такого [2], выдаётся первым на запрос "European statistics". Разметка на странице там есть, а вот содержания нет. Нет там и лицензий CC-BY, ни многого другого. Это типичная SEO страница для тех кто торгует данными. Это если мы ищем любые данные, не только бесплатные. А если сделаем фильтр на бесплатные и поищем "Russian statistics" то первым вылезет ссылка на набор данных Linkedin users in Russian Federation [3] сервиса NapoleonCat где нет никаких данных, только график картинкой.

Краткий вывод неутешителен, хороших поисковиков по данным сейчас нет. Задачи data discovery требуют больших усилий, с одной стороны, с другой это не рынок услуг, поскольку платить кому-то за целенаправленный поиск мало кто готов. Только рынок продуктов. Интересно когда появятся достойные альтернативы?

Ссылки:
[1] https://datasetsearch.research.google.com
[2] https://www.ceicdata.com/en/european-union/eurostat-trade-statistics-by-sitc-european-union-russia
[3] https://napoleoncat.com/stats/linkedin-users-in-russian_federation/2022/01/

#datadiscovery #datasets #opendata #searchengines #google