Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Postman опубликовали обновление API Platform Landscape [1] с перечнем продуктов и трендов в мире API.

Ключевые тезисы оттуда:
1. Компании переходят к модели API-first
2. Гибридная архитектура и многооблачность
3. API как продукт
4. Взрывной рост продуктов API Gateway
5. Всё больше протоколов для API в активном использовании.
6. Всё больший сдвиг в сторону безопасности доступа к API.

Не все согласятся что экосистема API существует автономна, например, для меня это скорее часть экосистемы работы с данными, а Postman показывают её с выгодной для них стороны там где они лидеры, но, тем не менее, в части описанного, тренды изложены верно и сам обзор полезен.


Ссылки:
[1] https://blog.postman.com/2022-api-platform-landscape-trends-and-challenges/

#api
Из важного, Microsoft серьёзно пересматривают подход к этике ИИ, о чём пишут у себя в блоге [1], а также анонсируют вторую версию стандарта ответственного ИИ [2].

В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.

И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.

В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.

В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.

Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.

Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz

#ai #dataethics #aiethics #microsoft
Полезное чтение о методике JTBD (jobs-to-be-done) для дата-команд [1]

В тексте фокус на ключевых задачах дата команд, в основном в контексте средних-крупных компаний, тем не менее справедливо в любом контексте.

Если Вы работаете в команде работающей с данными как с продуктом - это текст точно про Вашу работу.

Ссылки:
[1] https://locallyoptimistic.com/post/building-more-effective-data-teams-using-the-jtbd-framework/

#readings #data #datateams
Мало кто знает что многие файлы с данными находятся не на порталах открытых данных, не в поисковиках вроде Google Dataset Search или DataCite, а на крупнейших хостингах кода таких как Github.

Поисковая система Github'а поддерживает запросы с указанием части названия файла, простым поиском можно найти десятки миллионов файлов в форматах .json, .csv, .xml, .sqlite.

Пример запроса filename:.csv [1] конечно, надо помнить что у Github'а нет сбора метаданных как в других поисковиках, но, при этом, объём хранимых данных количественно превосходит все остальные источники вместе взятые. Хотя и по объёму, наверное, меньше чем реестр открытых данных Amazon.

Как бы то ни было - это бесценный исследовательский материал, полезный всем кто изучает то какие данные существуют и из чего они состоят.

Также у Github'а много других, расширенных опций для поиска [2] которыми, на удивление, многие редко пользуются

Ссылки:
[1] https://github.com/search?q=filename%3A.csv&type=code
[2] https://github.com/search/advanced

#opendata #github #opensource
Кажется я ещё ни разу об этом не писал, о том как сопоставить метрики качества данных используемые в Modern Data Stack и в порталах открытых данных. Во многом там разные подходы, я писал о разнице между разными типами каталогов в большом тексте на Medium.

В блоге Towards Data Science полезный текст от Prukalpa, сооснователя стартапа Atlan, про методику 5WH1

5WH1
- это список вопросов по качеству данных на которые нужны ответы: What, Why, Where, Who, When, and How.

Или, по русски։ Что, Почему, Где, Кто, Когда и Как

В целом - это перечень метаданных которые должны собираться о данных для понимания того как данные устроены и что с ними делать. В корпоративном мире применение этой методики или подобных - это нечто безусловно актуальное и важное, особенно при работе многих команд. В мире открытых данных всё несколько иначе. Данные в виде файлов, их владельцы уже часто недоступны и много исторических данных по которым мало метаданных в принципе.

Тем не менее, наиболее продуманный стандарт мониторинга качества метаданных - это европейский MQA (Metadata Quality Assurance). Но критерии там иные: Findability, Accessibility, Interoperabilty, Contextuality, Reusability.

Перечень метаданных собираемых в рамках агрегации описаний по стандарту DCAT-AP для открытых данных даже больше, но и качество данных многократно ниже.

Подробнее и со ссылками в моей заметке на Medium на английском [1]

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-3-metadata-quality-observation-c49be890f6ff

#opendata #metadata #dataquality
В рубрике больших наборов данных GitTables [1], огромная коллекция CSV файлов собранных с Github методом поиска о котором я ранее писал совсем недавно [2] и преобразованных в формат Parquet.

Авторы - исследователи из The INtelligent Data Engineering Lab [3] и MIT Media Lab в Университете Амстердама, довольно известная команда учёных работавших над темой семантических типов данных и понимания данных. Они разрабатывали такие инструменты как Sherlock, Sato, AdaTyper и тд по идентификации типов данных. Инструменты скорее академические чем практические, но небесполезные.

GitTables - это интересная идея по сбору данных, с оговоркой что авторы продекларировали сбор и аннотирование данных с массой допущений, ключевое из которых в том что CSV файлы обычно содержат заголовки в первой строке и в том что данные в Github'е хорошо диверсифицированы.

К сожалению, из-за двух этих предположений, этот набор данных скорее годится для проверки алгоритмов контроля качества данных, а не исследований иным способам анализа данных.

Даже краткий анализ показывает что файлы там с разными разделителями, кодировками, многие вообще не CSV, а многие проистекают из всего лишь нескольких репозиториев создавая значительное искажение.

Зато для проверки инструментов на способность импортировать данные из любого источника - этот набор данных очень даже подходит.

Ссылки:
[1] https://gittables.github.io/
[2] https://t.iss.one/begtin/3994
[3] https://indelab.org/

#opendata #datasets
Полезное чтение про данные, для разнообразия свежие статьи про открытость данных
- Ethics of Open Data за авторством N. Weber, Brandon T. Locke [1] о этике открытости данных, в каких случаях открытость может наносить вред (подсказка - нарушение приватности) и как это решается. Полезное, хотя и очень неполный перечень кейсов рассмотрен.

- How open is open? A study of two Irish open government data websites [2] обзор двух ирландских сайтов с открытыми данными за авторством 3-х исследователей из Саудовской Аравии (!) опубликованное в журнале Вопросы государственного и муниципального управления НИУ ВШЭ. Очень необычная комбинация. Статья скорее любопытная, чем интересная.

- The role of open data in transforming the society to Society 5.0: a resource or a tool for SDG-compliant Smart Living? [3] о том как с помощью открытых данных достигать общества 5.0 и SDG. Фактически это про доступность данных о качестве жизни

- Open Data: A Stepchild in e-Estonia’s Data Management Strategy? [4] по факту критика Эстонской госполитики по открытию данных под видом предложений по её улучшению.

- A Review of Open Research Data Policies and Practices in China [5] обзор политики открытости научных данных в Китае, много примеров, ссылок на порталы и публикации. Если кратко - то открытость исследований активно в Китае развивается, проектов много и они весьма велики. Например, Science DB [6] - это более 5 миллионов открытых наборов данных.

Ссылки:
[1] https://arxiv.org/pdf/2205.10402.pdf
[2] https://vgmu.hse.ru/en/2022--5/606167949.html
[3] https://arxiv.org/pdf/2206.11784.pdf
[4] https://www.sciendo.com/article/10.2478/bjes-2022-0006
[5] https://pdfs.semanticscholar.org/935c/1f6d25b282e53474b1ac55579a135a6ea95f.pdf
[6] https://www.scidb.cn/en

#opendata #data #readings
State of data engineering 2022 [1] обзор инженерии данных в 2022 г. от LakeFS. На мой взгляд составители так сильно поленились, в отличие от других отчетов в стиле state of они просто написали текст с описанием текущих продуктов. При этом, не сравнили с прошлым годом, не использовали опрос пользователей/клиентов, не обосновали почему сделали акцент на этих, а не на других технологиях.

Картинка симпатичная, текст по полезности далек от совершенства. Особенно если сравнить с другими технологическими масштабными исследованиями от Postman и Jetbrains.

Тем не менее что-то полезное и здесь можно найти.

Ссылки:
[1] https://lakefs.io/the-state-of-data-engineering-2022/

#dataengineering
Большой тренд который нельзя уже давно игнорировать - это миграция новаций в базах данных в облако. В лучшем случае, при этом, есть опенсорсная версия того же продукта который можно развернуть локально, в худшем случае инновации делаются сразу в облаке и только в облаке.

Например, DataStax, стартап с продуктом Astra DB на базе Apache Cassandra [1]. Для тех кто не помнит, Apache Cassandra - это такая NoSQL база данных с хорошей масштабируемостью. Не такая удобная, ИМХО, из коробки как MongoDB, но гораздо лучше масштабируется горизонтально.

Особенность Apache Cassandra в языке CQL, очень похожем на SQL. Он, с одной стороны, довольно привычен, но с другой не так удобен для работы со схематичными объектами. И вот DataStax в Astra DB [2] добавили почти MongoDB совместимое Document API. Это возможность работы с режиме CRUD.

В общем удобная и полезная возможность. Но, существующая только в облачном виде. Даже Enterprise версия тоже облачная. Этого, в последнее время всё больше, появление cloud-only продуктов. С одной стороны они дают возможность крайне высокой скорости развертывания и управляемости инфраструктуры, а с другой, зависимость от облачных сервисов становится огромной. Впрочем это не только про этот продукт, а про многочисленные другие также.

Ссылки:
[1] https://www.datastax.com/products/datastax-astra
[2] https://docs.datastax.com/en/astra/docs/develop/dev-with-doc.html

#data #startups
Я люблю коллекционировать разные термины и сочетания касающиеся данных, благо комбинации выдумывают самые разнообразные, у меня даже словарик есть примерно на 200 терминов включая такие экзотические как data pollution, data liquidity и data laborers. Давно не встречал новых терминов и вот пополнение.

data stations - станции данных. Термин придуманный в DANS, голландским исследовательским центром работающим над инфраструктурой раскрытия научных данных.

Термин - это по сути аналог dataverse (data universe), тематическая коллекция и правила сбора данных используемое в одноименном продукте сделанном командой Гарварда.

Возвращаясь к DANS, например, такая станция данных по археологии [1] у них сейчас оформлена одной из первых.

В моём понимании - это, скорее грантоориентированное дробление, так чтобы по отдельности брать гранты на развитие каждой станции по отдельности.

Ссылки:
[1] https://dans.knaw.nl/en/data-stations/archaeology/

#opendata #openresearchdata #openaccess #data
Хроники закрытия данных в России

Минэнерго РФ полностью убрало раздел "Статистика" у себя на сайте [1]․ Если ещё 13 февраля там были цифры по добыче и поставки энергоносителей с 2013 года, то теперь данные отсутствуют в принципе с сообщением Раздел на реконструкции. Ведутся технические работы.

Какие-то остатки наборов данных есть в разделе Открытые данные [2], но там только наборы в пару строк и с затиранием статистики прошлых лет. Например, набор данных Добыча газа (2021) [3]

Ссылки:
[1] https://minenergo.gov.ru/activity/statistic
[2] https://minenergo.gov.ru/opendata
[3] https://minenergo.gov.ru/opendata/7705847529-dobychagaza21

#opendata #russia
Бесплатный, но требующий авторизации, интерактивный генератор SQL запросов Rasgo SQL Generator [1]. Часть их продукта No-Code Data Prep & Visualization.

Не они первые строят интерактивные интерфейсы для запросов к СУБД, такое достаточно давно востребовано, но требует одновременно хорошего понимания устройства данных и понимания построения подобных инструментов в графическом дизайне. Можно сказать что автоматизация идёт по пути всё большей стратификации когда дата аналитики юниоры не будут знать даже SQL и программирования в принципе, только разного рода no-code инструменты.

Ссылки:
[1] https://www.rasgoml.com/post/sql-generator

#datatools #startups
PRQL - ещё один кандидат на замену SQL [1] позиционируется как PRQL is a modern language for transforming data, читается как "приквел". Основная идея в том чтобы сделать язык более дружелюбным для тех кто на нём пишет и не потерять возможностей SQL, ну и ещё много чего, вроде расширяемости новыми функциями.

Референсная реализация есть на Rust [2] и гораздо менее популярная на Python [3]

Автор известен тем что создал когда-то библиотеку Xarray [4] для Python, весьма известную теми кто работает с большими массивами вычисляемых данных.

Про PRQL он написал книгу [5] и как-то в целом системно подходит к разработке, так что есть хорошие шансы что результат будет и долгосрочный.

Ссылки:
[1] https://prql-lang.org/
[2] https://github.com/prql/prql
[3] https://github.com/prql/PyPrql
[4] https://xarray.dev/
[5] https://prql-lang.org/book/

#opensource #sql #datatools
Один из вопросов на которые пока лично у меня нет ответа - это какие некоммерческие проекты ещё возможно создавать в России. Почти все проекты Инфокультуры в последние годы были вокруг данных. Это и Госзатраты и Открытые НКО и многие другие проекты [1]. Они всё ещё доступны, но неизвестно когда, скорее скоро, до них доберутся российские цензоры и выбор будет, или их закрывать, или перестать делать их внутри России.

Проект который развивать можно и нужно безо всех сомнений, хотя и также с рисками - это Национальный цифровой архив, из его телеграм канала я регулярно делаю репосты.

Что ещё полезного и реально актуального можно делать в России? Особенно с учётом полного отсутствия финансирования на технологичные некоммерческие проекты. Я вижу явную тему опрозрачивания рынка ИТ, и даже понимаю что можно делать в этом направлении, не понимаю правда где на это взять финансирование, но что-то можно и без него.

Вижу явную тему мониторинга [падения] качества жизни вот только все реальные данные по этой теме могут сейчас оказаться зацензурированы, уже цензурируются по факту.

Любое опрозрачивание объективного состояния экономики будет предметом манипуляции и давления со всех сторон, в общем, тоже мимо.

Открытые данные - это то что находится внутри любой подобной инициативы, по умолчанию.

Давайте обсудим какие технологические общественные проекты актуальны в России. И напишите, если Вы какие-то проекты на данных делаете или планируете делать.

Ссылки:
[1] https://infoculture.ru/projects

#opendata #opengov #projects