Ivan Begtin – Telegram

Ivan Begtin

8.1K subscribers

2K photos

3 videos

102 files

4.72K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

8.1K subscribers

Кажется я ещё ни разу об этом не писал, о том как сопоставить метрики качества данных используемые в Modern Data Stack и в порталах открытых данных. Во многом там разные подходы, я писал о разнице между разными типами каталогов в большом тексте на Medium.

В блоге Towards Data Science полезный текст от Prukalpa, сооснователя стартапа Atlan, про методику 5WH1

5WH1 - это список вопросов по качеству данных на которые нужны ответы: What, Why, Where, Who, When, and How.

Или, по русски։ Что, Почему, Где, Кто, Когда и Как

В целом - это перечень метаданных которые должны собираться о данных для понимания того как данные устроены и что с ними делать. В корпоративном мире применение этой методики или подобных - это нечто безусловно актуальное и важное, особенно при работе многих команд. В мире открытых данных всё несколько иначе. Данные в виде файлов, их владельцы уже часто недоступны и много исторических данных по которым мало метаданных в принципе.

Тем не менее, наиболее продуманный стандарт мониторинга качества метаданных - это европейский MQA (Metadata Quality Assurance). Но критерии там иные: Findability, Accessibility, Interoperabilty, Contextuality, Reusability.

Перечень метаданных собираемых в рамках агрегации описаний по стандарту DCAT-AP для открытых данных даже больше, но и качество данных многократно ниже.

Подробнее и со ссылками в моей заметке на Medium на английском [1]

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-3-metadata-quality-observation-c49be890f6ff

#opendata #metadata #dataquality

1.8K viewsIvan Begtin, 06:35

В рубрике больших наборов данных GitTables [1], огромная коллекция CSV файлов собранных с Github методом поиска о котором я ранее писал совсем недавно [2] и преобразованных в формат Parquet.

Авторы - исследователи из The INtelligent Data Engineering Lab [3] и MIT Media Lab в Университете Амстердама, довольно известная команда учёных работавших над темой семантических типов данных и понимания данных. Они разрабатывали такие инструменты как Sherlock, Sato, AdaTyper и тд по идентификации типов данных. Инструменты скорее академические чем практические, но небесполезные.

GitTables - это интересная идея по сбору данных, с оговоркой что авторы продекларировали сбор и аннотирование данных с массой допущений, ключевое из которых в том что CSV файлы обычно содержат заголовки в первой строке и в том что данные в Github'е хорошо диверсифицированы.

К сожалению, из-за двух этих предположений, этот набор данных скорее годится для проверки алгоритмов контроля качества данных, а не исследований иным способам анализа данных.

Даже краткий анализ показывает что файлы там с разными разделителями, кодировками, многие вообще не CSV, а многие проистекают из всего лишь нескольких репозиториев создавая значительное искажение.

Зато для проверки инструментов на способность импортировать данные из любого источника - этот набор данных очень даже подходит.

Ссылки:
[1] https://gittables.github.io/
[2] https://t.iss.one/begtin/3994
[3] https://indelab.org/

#opendata #datasets

1.7K viewsIvan Begtin, 17:13

Полезное чтение про данные, для разнообразия свежие статьи про открытость данных
- Ethics of Open Data за авторством N. Weber, Brandon T. Locke [1] о этике открытости данных, в каких случаях открытость может наносить вред (подсказка - нарушение приватности) и как это решается. Полезное, хотя и очень неполный перечень кейсов рассмотрен.

- How open is open? A study of two Irish open government data websites [2] обзор двух ирландских сайтов с открытыми данными за авторством 3-х исследователей из Саудовской Аравии (!) опубликованное в журнале Вопросы государственного и муниципального управления НИУ ВШЭ. Очень необычная комбинация. Статья скорее любопытная, чем интересная.

- The role of open data in transforming the society to Society 5.0: a resource or a tool for SDG-compliant Smart Living? [3] о том как с помощью открытых данных достигать общества 5.0 и SDG. Фактически это про доступность данных о качестве жизни

- Open Data: A Stepchild in e-Estonia’s Data Management Strategy? [4] по факту критика Эстонской госполитики по открытию данных под видом предложений по её улучшению.

- A Review of Open Research Data Policies and Practices in China [5] обзор политики открытости научных данных в Китае, много примеров, ссылок на порталы и публикации. Если кратко - то открытость исследований активно в Китае развивается, проектов много и они весьма велики. Например, Science DB [6] - это более 5 миллионов открытых наборов данных.

Ссылки:
[1] https://arxiv.org/pdf/2205.10402.pdf
[2] https://vgmu.hse.ru/en/2022--5/606167949.html
[3] https://arxiv.org/pdf/2206.11784.pdf
[4] https://www.sciendo.com/article/10.2478/bjes-2022-0006
[5] https://pdfs.semanticscholar.org/935c/1f6d25b282e53474b1ac55579a135a6ea95f.pdf
[6] https://www.scidb.cn/en

#opendata #data #readings

Open Data: A Stepchild in e-Estonia’s Data Management Strategy?

Abstract
The availability of open data has increased dramatically, partly in reaction to several types of government agencies publishing their raw data. Access to and use of open data is not only essential for the development of public policy and delivery…

1.6K viewsIvan Begtin, 04:41

State of data engineering 2022 [1] обзор инженерии данных в 2022 г. от LakeFS. На мой взгляд составители так сильно поленились, в отличие от других отчетов в стиле state of они просто написали текст с описанием текущих продуктов. При этом, не сравнили с прошлым годом, не использовали опрос пользователей/клиентов, не обосновали почему сделали акцент на этих, а не на других технологиях.

Картинка симпатичная, текст по полезности далек от совершенства. Особенно если сравнить с другими технологическими масштабными исследованиями от Postman и Jetbrains.

Тем не менее что-то полезное и здесь можно найти.

Ссылки:
[1] https://lakefs.io/the-state-of-data-engineering-2022/

#dataengineering

1.9K viewsIvan Begtin, 05:40

Большой тренд который нельзя уже давно игнорировать - это миграция новаций в базах данных в облако. В лучшем случае, при этом, есть опенсорсная версия того же продукта который можно развернуть локально, в худшем случае инновации делаются сразу в облаке и только в облаке.

Например, DataStax, стартап с продуктом Astra DB на базе Apache Cassandra [1]. Для тех кто не помнит, Apache Cassandra - это такая NoSQL база данных с хорошей масштабируемостью. Не такая удобная, ИМХО, из коробки как MongoDB, но гораздо лучше масштабируется горизонтально.

Особенность Apache Cassandra в языке CQL, очень похожем на SQL. Он, с одной стороны, довольно привычен, но с другой не так удобен для работы со схематичными объектами. И вот DataStax в Astra DB [2] добавили почти MongoDB совместимое Document API. Это возможность работы с режиме CRUD.

В общем удобная и полезная возможность. Но, существующая только в облачном виде. Даже Enterprise версия тоже облачная. Этого, в последнее время всё больше, появление cloud-only продуктов. С одной стороны они дают возможность крайне высокой скорости развертывания и управляемости инфраструктуры, а с другой, зависимость от облачных сервисов становится огромной. Впрочем это не только про этот продукт, а про многочисленные другие также.

Ссылки:
[1] https://www.datastax.com/products/datastax-astra
[2] https://docs.datastax.com/en/astra/docs/develop/dev-with-doc.html

#data #startups

Astra DB: Managed Apache Cassandra® DBaaS for AI Apps | DataStax

Reduce AI app development time with Astra DB — managed Cassandra NoSQL and vector search built for real-time generative AI and scalable workloads.

1.7K viewsIvan Begtin, 14:18

Я люблю коллекционировать разные термины и сочетания касающиеся данных, благо комбинации выдумывают самые разнообразные, у меня даже словарик есть примерно на 200 терминов включая такие экзотические как data pollution, data liquidity и data laborers. Давно не встречал новых терминов и вот пополнение.

data stations - станции данных. Термин придуманный в DANS, голландским исследовательским центром работающим над инфраструктурой раскрытия научных данных.

Термин - это по сути аналог dataverse (data universe), тематическая коллекция и правила сбора данных используемое в одноименном продукте сделанном командой Гарварда.

Возвращаясь к DANS, например, такая станция данных по археологии [1] у них сейчас оформлена одной из первых.

В моём понимании - это, скорее грантоориентированное дробление, так чтобы по отдельности брать гранты на развитие каждой станции по отдельности.

Ссылки:
[1] https://dans.knaw.nl/en/data-stations/archaeology/

#opendata #openresearchdata #openaccess #data

1.6K viewsIvan Begtin, 16:37

Хроники закрытия данных в России

Минэнерго РФ полностью убрало раздел "Статистика" у себя на сайте [1]․ Если ещё 13 февраля там были цифры по добыче и поставки энергоносителей с 2013 года, то теперь данные отсутствуют в принципе с сообщением Раздел на реконструкции. Ведутся технические работы.

Какие-то остатки наборов данных есть в разделе Открытые данные [2], но там только наборы в пару строк и с затиранием статистики прошлых лет. Например, набор данных Добыча газа (2021) [3]

Ссылки:
[1] https://minenergo.gov.ru/activity/statistic
[2] https://minenergo.gov.ru/opendata
[3] https://minenergo.gov.ru/opendata/7705847529-dobychagaza21

#opendata #russia

1.7K viewsIvan Begtin, 04:41

Бесплатный, но требующий авторизации, интерактивный генератор SQL запросов Rasgo SQL Generator [1]. Часть их продукта No-Code Data Prep & Visualization.

Не они первые строят интерактивные интерфейсы для запросов к СУБД, такое достаточно давно востребовано, но требует одновременно хорошего понимания устройства данных и понимания построения подобных инструментов в графическом дизайне. Можно сказать что автоматизация идёт по пути всё большей стратификации когда дата аналитики юниоры не будут знать даже SQL и программирования в принципе, только разного рода no-code инструменты.

Ссылки:
[1] https://www.rasgoml.com/post/sql-generator

#datatools #startups

Blog Rasgo - SQL Generator

1.7K viewsIvan Begtin, 05:31

PRQL - ещё один кандидат на замену SQL [1] позиционируется как PRQL is a modern language for transforming data, читается как "приквел". Основная идея в том чтобы сделать язык более дружелюбным для тех кто на нём пишет и не потерять возможностей SQL, ну и ещё много чего, вроде расширяемости новыми функциями.

Референсная реализация есть на Rust [2] и гораздо менее популярная на Python [3]

Автор известен тем что создал когда-то библиотеку Xarray [4] для Python, весьма известную теми кто работает с большими массивами вычисляемых данных.

Про PRQL он написал книгу [5] и как-то в целом системно подходит к разработке, так что есть хорошие шансы что результат будет и долгосрочный.

Ссылки:
[1] https://prql-lang.org/
[2] https://github.com/prql/prql
[3] https://github.com/prql/PyPrql
[4] https://xarray.dev/
[5] https://prql-lang.org/book/

#opensource #sql #datatools

2.2K viewsIvan Begtin, 10:49

Один из вопросов на которые пока лично у меня нет ответа - это какие некоммерческие проекты ещё возможно создавать в России. Почти все проекты Инфокультуры в последние годы были вокруг данных. Это и Госзатраты и Открытые НКО и многие другие проекты [1]. Они всё ещё доступны, но ~~неизвестно когда~~, скорее скоро, до них доберутся российские цензоры и выбор будет, или их закрывать, или перестать делать их внутри России.

Проект который развивать можно и нужно безо всех сомнений, хотя и также с рисками - это Национальный цифровой архив, из его телеграм канала я регулярно делаю репосты.

Что ещё полезного и реально актуального можно делать в России? Особенно с учётом полного отсутствия финансирования на технологичные некоммерческие проекты. Я вижу явную тему опрозрачивания рынка ИТ, и даже понимаю что можно делать в этом направлении, не понимаю правда где на это взять финансирование, но что-то можно и без него.

Вижу явную тему мониторинга [падения] качества жизни вот только все реальные данные по этой теме могут сейчас оказаться зацензурированы, уже цензурируются по факту.

Любое опрозрачивание объективного состояния экономики будет предметом манипуляции и давления со всех сторон, в общем, тоже мимо.

Открытые данные - это то что находится внутри любой подобной инициативы, по умолчанию.

Давайте обсудим какие технологические общественные проекты актуальны в России. И напишите, если Вы какие-то проекты на данных делаете или планируете делать.

Ссылки:
[1] https://infoculture.ru/projects

#opendata #opengov #projects

Инфокультура

Новости Информационной культуры. https://infoculture.ru

1.6K viewsIvan Begtin, 17:45

Очень частый вопрос о том какая возникает экономическая эффективность от открытия данных государством. Частый, чаще всего, от непонимания как раскрытия ключевых данных влияет на общество. Особенность ответа в том что отдельный маленький набор данных может ни на что не влиять, но целенаправленная политика раскрытия по определенной теме может влиять очень сильно. Пример, качество жизни. По отдельности наборы данных о состоянии воздуха, воды, качестве образования, уровне преступности и тд., важны, но вместе из них можно собрать цельный продукт.

Другой пример из совершенно иной области. Открытые данные - это бесплатное топливо для многочисленных сервисов по работе с данными таких как SplitGraph, data.world, bit.io, DoltHub, Amazon AWS, Azure Open Datasets, Google Big Query.

Основная идея в том что пользователи не готовы платить за открытые данные, но готовы платить за инфраструктуру работы с ними и обработки, особенно когда открытые данные находятся в том же контуре куда они могут загрузить свои - это основная модель работы с открытыми данными в BigQuery, Azure, AWS. Данные являются мультипликатором удобства сервиса. Когда ты используешь инфраструктуру облачного провайдера для того чтобы работать с собственными данными, а открытые данные для тебя лежат тут же, рядом, пригодные для быстрого подключения.

Такое использование открытых данных далеко не единственное, но поддающееся измерению, в отличии от попыток измерить их косвенный экономический эффект от исследований или аналитических сервисов, которые, чаще основаны не на общедоступной информации.

#opendata

Deploy data at the edge | Splitgraph

Splitgraph is building the Unified Data Stack, an integrated and modern solution for working with data without worrying about its infrastructure.

1.5K viewsIvan Begtin, 05:15

В рубрике продуктов на данных с открытым кодом OpenBB [1] аналог торгового терминала Bloomberg с открытым кодом. Ранее он был известен как Gamestonk Terminal. О нем много где писали, например, на Reddit'е большой тред [2].

Как и у всех продуктов для инвесторов он интегрирован с десятками источников данных, частью полностью открытых, частью доступных по подписке, за деньги. Я предполагаю что бизнес модель команды сделавшей этот терминал как раз в том чтобы зная как устроен код оперативно добавлять новые источники данных и сервисы которые уже взимают деньги с пользователей.

Важная и интересная особенность - это терминал командной строки, с кучей команд, достаточно большим числом возможностей и тд. Эдакий полноценный shell (программная оболочка) для работы.

Главная особенность в гибкости и в возможности загрузки и анализа практически любых наборов данных с временными рядами.

Ссылки:
[1] https://openbb.co
[2] https://www.reddit.com/r/Python/comments/m515yk/gamestonk_terminal_the_equivalent_to_an/

#opensource #opendata #data

Homepage | OpenBB

OpenBB is building an AI-powered research and analytics workspace. Our mission is to make research effective, powerful and accessible to everyone.

1.5K viewsIvan Begtin, 06:17

Forwarded from Национальный цифровой архив

Инструменты для работы и исследования веб-архивов

metawarc — инструмент командной строки для извлечения метаданных из изображений, документов и других файлов внутри архивов WARC (Web ARChive). С помощью команды analyze возвращает список типов mime со статистикой в виде количества файлов и общего размера файлов. Ссылка: https://github.com/datacoon/metawarc.

CDX Summary — инструмент для обобщения коллекции WARC. CDX Summary позволяет пользователям понять, что находится в CDX файле, содержащем большую коллекцию WARC файлов, предоставляя человекочитаемое резюме. Сводка включает в себя временной разброс, типы mime, ведущие хосты и примеры URI из коллекции. Ссылка: https://github.com/internetarchive/cdx-summary.

SolrWayback — интерфейс, позволяющий исследователям изучать файлы ARC и WARC, аналогичное Internet Archive Wayback Machine. SolrWayback позволяет осуществлять типичный полнотекстовый поиск и исследовательские способы просмотра архива, включая создание графов гиперссылок. Ссылка:
https://github.com/netarchivesuite/Solrwayback.

Рекомендуем также использовать список инструментов Awesome digital preservation: https://github.com/ruarxive/awesome-digital-preservation.

GitHub - datacoon/metawarc: metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive)

metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive) - datacoon/metawarc

1.3K viewsIvan Begtin, 13:01

Forwarded from Национальный цифровой архив

Для тех кто готов помогать с архивацией сайтов, мы начали собирать задачи в которых нужна помощь. Большая часть задач являются техническими, например, по сбору сайтов порталов и разделов с открытыми данными в России [1] и по развитию инструментов архивации данных из API [2]․

Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.

Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.

Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1

#digitalpreservation #opensource #ruarxive

Issues · ruarxive/rudatarchive

Russian open data portals and websites archival campaign - Issues · ruarxive/rudatarchive

1.3K viewsIvan Begtin, 13:58

Большой экспертный доклад группы экспертов Евростата [1] с основной идеей изменения подхода к официальной статистики через управление данными и построению статистических показателей, в том числе, за счёт данных частных компаний. Что характерно, в докладе участвовала большая группа экспертов почти со всех стран ЕС и почти все они из частного сектора компаний работающих с данными.

В целом ничего радикально нового, но чётко систематизировано и про то как будет происходить эволюция официальной статистики. Включая участие граждан в её формировании.

Важнейший аспект документа - в отражении того что статистика формируется не только под заказ органов власти, а для бизнеса и граждан.

Ссылки:
[1] https://ec.europa.eu/eurostat/documents/7870049/14803739/KS-FT-22-004-EN-N.pdf/052b4357-bf8e-9ce4-c063-7e806c045dac

#opendata #statistics #europe #eurostat

1.7K viewsIvan Begtin, 14:26

Хороший текст “Semantic-free” is the future of Business Intelligence [1] о семантически-свободных BI продуктах и то что headless BI - это тоже семантически-свободный BI. Расшифровывается это как то что все BI инструменты должны соблюдать общие стандарты в результате применения которых можно использовать комбинации BI инструментов. Звучит здорово, но вообще безвендорный мир или мир с ослаблением вендоров сложен без административного или мощного рыночного давления.

Текст же весьма полезный для понимания некоторых проблем с BI которые после прочтения текста кажутся очевидными.

Ссылки:
[1] https://towardsdatascience.com/semantic-free-is-the-future-of-business-intelligence-27aae1d11563

#bi #datastandards

“Semantic-free” is the future of Business Intelligence

How dbt, metrics, headless, and the universal semantic layer enable “semantic-free” Business Intelligence

1.7K viewsIvan Begtin, 18:38

Интересный тренд, инвестиции в стартапы по анализу и обработки защищённых и зашифрованных данных. Opaque [1] получли $22M в серии A на платформу для конфиденциальных вычислений.

Из корп сайта будет неовчевиден потенциал команды, а они, в то же время, создатели опенсорс платформы MC2 [2] для безопасной аналитики.

Ссылки:
[1] https://opaque.co
[2] https://github.com/mc2-project/mc2

#data #startups #security

1.6K viewsIvan Begtin, 11:30