Ivan Begtin

Postman опубликовали обновление API Platform Landscape [1] с перечнем продуктов и трендов в мире API.

Ключевые тезисы оттуда:
1. Компании переходят к модели API-first
2. Гибридная архитектура и многооблачность
3. API как продукт
4. Взрывной рост продуктов API Gateway
5. Всё больше протоколов для API в активном использовании.
6. Всё больший сдвиг в сторону безопасности доступа к API.

Не все согласятся что экосистема API существует автономна, например, для меня это скорее часть экосистемы работы с данными, а Postman показывают её с выгодной для них стороны там где они лидеры, но, тем не менее, в части описанного, тренды изложены верно и сам обзор полезен.

Ссылки:
[1] https://blog.postman.com/2022-api-platform-landscape-trends-and-challenges/

#api

10.4K viewsIvan Begtin, 09:02

Ivan Begtin

Из важного, Microsoft серьёзно пересматривают подход к этике ИИ, о чём пишут у себя в блоге [1], а также анонсируют вторую версию стандарта ответственного ИИ [2].

В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.

И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.

В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.

В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.

Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.

Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz

#ai #dataethics #aiethics #microsoft

Microsoft On the Issues

Microsoft’s framework for building AI systems responsibly

Today we are sharing publicly Microsoft’s Responsible AI Standard, a framework to guide how we build AI systems. It is an important step in our journey to develop better, more trustworthy AI. We are releasing our latest Responsible AI Standard to share what…

1.6K viewsIvan Begtin, edited 10:48

Ivan Begtin

Полезное чтение о методике JTBD (jobs-to-be-done) для дата-команд [1]

В тексте фокус на ключевых задачах дата команд, в основном в контексте средних-крупных компаний, тем не менее справедливо в любом контексте.

Если Вы работаете в команде работающей с данными как с продуктом - это текст точно про Вашу работу.

Ссылки:
[1] https://locallyoptimistic.com/post/building-more-effective-data-teams-using-the-jtbd-framework/

#readings #data #datateams

1.9K viewsIvan Begtin, 13:02

Ivan Begtin

Мало кто знает что многие файлы с данными находятся не на порталах открытых данных, не в поисковиках вроде Google Dataset Search или DataCite, а на крупнейших хостингах кода таких как Github.

Поисковая система Github'а поддерживает запросы с указанием части названия файла, простым поиском можно найти десятки миллионов файлов в форматах .json, .csv, .xml, .sqlite.

Пример запроса filename:.csv [1] конечно, надо помнить что у Github'а нет сбора метаданных как в других поисковиках, но, при этом, объём хранимых данных количественно превосходит все остальные источники вместе взятые. Хотя и по объёму, наверное, меньше чем реестр открытых данных Amazon.

Как бы то ни было - это бесценный исследовательский материал, полезный всем кто изучает то какие данные существуют и из чего они состоят.

Также у Github'а много других, расширенных опций для поиска [2] которыми, на удивление, многие редко пользуются

Ссылки:
[1] https://github.com/search?q=filename%3A.csv&type=code
[2] https://github.com/search/advanced

#opendata #github #opensource

2.2K viewsIvan Begtin, 18:02

Ivan Begtin

Кажется я ещё ни разу об этом не писал, о том как сопоставить метрики качества данных используемые в Modern Data Stack и в порталах открытых данных. Во многом там разные подходы, я писал о разнице между разными типами каталогов в большом тексте на Medium.

В блоге Towards Data Science полезный текст от Prukalpa, сооснователя стартапа Atlan, про методику 5WH1

5WH1 - это список вопросов по качеству данных на которые нужны ответы: What, Why, Where, Who, When, and How.

Или, по русски։ Что, Почему, Где, Кто, Когда и Как

В целом - это перечень метаданных которые должны собираться о данных для понимания того как данные устроены и что с ними делать. В корпоративном мире применение этой методики или подобных - это нечто безусловно актуальное и важное, особенно при работе многих команд. В мире открытых данных всё несколько иначе. Данные в виде файлов, их владельцы уже часто недоступны и много исторических данных по которым мало метаданных в принципе.

Тем не менее, наиболее продуманный стандарт мониторинга качества метаданных - это европейский MQA (Metadata Quality Assurance). Но критерии там иные: Findability, Accessibility, Interoperabilty, Contextuality, Reusability.

Перечень метаданных собираемых в рамках агрегации описаний по стандарту DCAT-AP для открытых данных даже больше, но и качество данных многократно ниже.

Подробнее и со ссылками в моей заметке на Medium на английском [1]

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-3-metadata-quality-observation-c49be890f6ff

#opendata #metadata #dataquality

1.8K viewsIvan Begtin, 06:35

Ivan Begtin

В рубрике больших наборов данных GitTables [1], огромная коллекция CSV файлов собранных с Github методом поиска о котором я ранее писал совсем недавно [2] и преобразованных в формат Parquet.

Авторы - исследователи из The INtelligent Data Engineering Lab [3] и MIT Media Lab в Университете Амстердама, довольно известная команда учёных работавших над темой семантических типов данных и понимания данных. Они разрабатывали такие инструменты как Sherlock, Sato, AdaTyper и тд по идентификации типов данных. Инструменты скорее академические чем практические, но небесполезные.

GitTables - это интересная идея по сбору данных, с оговоркой что авторы продекларировали сбор и аннотирование данных с массой допущений, ключевое из которых в том что CSV файлы обычно содержат заголовки в первой строке и в том что данные в Github'е хорошо диверсифицированы.

К сожалению, из-за двух этих предположений, этот набор данных скорее годится для проверки алгоритмов контроля качества данных, а не исследований иным способам анализа данных.

Даже краткий анализ показывает что файлы там с разными разделителями, кодировками, многие вообще не CSV, а многие проистекают из всего лишь нескольких репозиториев создавая значительное искажение.

Зато для проверки инструментов на способность импортировать данные из любого источника - этот набор данных очень даже подходит.

Ссылки:
[1] https://gittables.github.io/
[2] https://t.iss.one/begtin/3994
[3] https://indelab.org/

#opendata #datasets

GitTables

Home

1.7K viewsIvan Begtin, 17:13

Ivan Begtin

Полезное чтение про данные, для разнообразия свежие статьи про открытость данных
- Ethics of Open Data за авторством N. Weber, Brandon T. Locke [1] о этике открытости данных, в каких случаях открытость может наносить вред (подсказка - нарушение приватности) и как это решается. Полезное, хотя и очень неполный перечень кейсов рассмотрен.

- How open is open? A study of two Irish open government data websites [2] обзор двух ирландских сайтов с открытыми данными за авторством 3-х исследователей из Саудовской Аравии (!) опубликованное в журнале Вопросы государственного и муниципального управления НИУ ВШЭ. Очень необычная комбинация. Статья скорее любопытная, чем интересная.

- The role of open data in transforming the society to Society 5.0: a resource or a tool for SDG-compliant Smart Living? [3] о том как с помощью открытых данных достигать общества 5.0 и SDG. Фактически это про доступность данных о качестве жизни

- Open Data: A Stepchild in e-Estonia’s Data Management Strategy? [4] по факту критика Эстонской госполитики по открытию данных под видом предложений по её улучшению.

- A Review of Open Research Data Policies and Practices in China [5] обзор политики открытости научных данных в Китае, много примеров, ссылок на порталы и публикации. Если кратко - то открытость исследований активно в Китае развивается, проектов много и они весьма велики. Например, Science DB [6] - это более 5 миллионов открытых наборов данных.

Ссылки:
[1] https://arxiv.org/pdf/2205.10402.pdf
[2] https://vgmu.hse.ru/en/2022--5/606167949.html
[3] https://arxiv.org/pdf/2206.11784.pdf
[4] https://www.sciendo.com/article/10.2478/bjes-2022-0006
[5] https://pdfs.semanticscholar.org/935c/1f6d25b282e53474b1ac55579a135a6ea95f.pdf
[6] https://www.scidb.cn/en

#opendata #data #readings

Sciendo

Open Data: A Stepchild in e-Estonia’s Data Management Strategy?

Abstract
The availability of open data has increased dramatically, partly in reaction to several types of government agencies publishing their raw data. Access to and use of open data is not only essential for the development of public policy and delivery…

1.6K viewsIvan Begtin, 04:41

Ivan Begtin

State of data engineering 2022 [1] обзор инженерии данных в 2022 г. от LakeFS. На мой взгляд составители так сильно поленились, в отличие от других отчетов в стиле state of они просто написали текст с описанием текущих продуктов. При этом, не сравнили с прошлым годом, не использовали опрос пользователей/клиентов, не обосновали почему сделали акцент на этих, а не на других технологиях.

Картинка симпатичная, текст по полезности далек от совершенства. Особенно если сравнить с другими технологическими масштабными исследованиями от Postman и Jetbrains.

Тем не менее что-то полезное и здесь можно найти.

Ссылки:
[1] https://lakefs.io/the-state-of-data-engineering-2022/

#dataengineering

1.9K viewsIvan Begtin, 05:40

Ivan Begtin

Большой тренд который нельзя уже давно игнорировать - это миграция новаций в базах данных в облако. В лучшем случае, при этом, есть опенсорсная версия того же продукта который можно развернуть локально, в худшем случае инновации делаются сразу в облаке и только в облаке.

Например, DataStax, стартап с продуктом Astra DB на базе Apache Cassandra [1]. Для тех кто не помнит, Apache Cassandra - это такая NoSQL база данных с хорошей масштабируемостью. Не такая удобная, ИМХО, из коробки как MongoDB, но гораздо лучше масштабируется горизонтально.

Особенность Apache Cassandra в языке CQL, очень похожем на SQL. Он, с одной стороны, довольно привычен, но с другой не так удобен для работы со схематичными объектами. И вот DataStax в Astra DB [2] добавили почти MongoDB совместимое Document API. Это возможность работы с режиме CRUD.

В общем удобная и полезная возможность. Но, существующая только в облачном виде. Даже Enterprise версия тоже облачная. Этого, в последнее время всё больше, появление cloud-only продуктов. С одной стороны они дают возможность крайне высокой скорости развертывания и управляемости инфраструктуры, а с другой, зависимость от облачных сервисов становится огромной. Впрочем это не только про этот продукт, а про многочисленные другие также.

Ссылки:
[1] https://www.datastax.com/products/datastax-astra
[2] https://docs.datastax.com/en/astra/docs/develop/dev-with-doc.html

#data #startups

DataStax

Astra DB for Generative AI App Creation & Development | DataStax

Reduce app development time and start scaling without limits. Use Astra DB to create real-time GenAI apps. Start using Astra DB for vector search today!

1.7K viewsIvan Begtin, 14:18

Ivan Begtin

Я люблю коллекционировать разные термины и сочетания касающиеся данных, благо комбинации выдумывают самые разнообразные, у меня даже словарик есть примерно на 200 терминов включая такие экзотические как data pollution, data liquidity и data laborers. Давно не встречал новых терминов и вот пополнение.

data stations - станции данных. Термин придуманный в DANS, голландским исследовательским центром работающим над инфраструктурой раскрытия научных данных.

Термин - это по сути аналог dataverse (data universe), тематическая коллекция и правила сбора данных используемое в одноименном продукте сделанном командой Гарварда.

Возвращаясь к DANS, например, такая станция данных по археологии [1] у них сейчас оформлена одной из первых.

В моём понимании - это, скорее грантоориентированное дробление, так чтобы по отдельности брать гранты на развитие каждой станции по отдельности.

Ссылки:
[1] https://dans.knaw.nl/en/data-stations/archaeology/

#opendata #openresearchdata #openaccess #data

1.6K viewsIvan Begtin, 16:37

Ivan Begtin

Хроники закрытия данных в России

Минэнерго РФ полностью убрало раздел "Статистика" у себя на сайте [1]․ Если ещё 13 февраля там были цифры по добыче и поставки энергоносителей с 2013 года, то теперь данные отсутствуют в принципе с сообщением Раздел на реконструкции. Ведутся технические работы.

Какие-то остатки наборов данных есть в разделе Открытые данные [2], но там только наборы в пару строк и с затиранием статистики прошлых лет. Например, набор данных Добыча газа (2021) [3]

Ссылки:
[1] https://minenergo.gov.ru/activity/statistic
[2] https://minenergo.gov.ru/opendata
[3] https://minenergo.gov.ru/opendata/7705847529-dobychagaza21

#opendata #russia

1.7K viewsIvan Begtin, 04:41

Ivan Begtin

Бесплатный, но требующий авторизации, интерактивный генератор SQL запросов Rasgo SQL Generator [1]. Часть их продукта No-Code Data Prep & Visualization.

Не они первые строят интерактивные интерфейсы для запросов к СУБД, такое достаточно давно востребовано, но требует одновременно хорошего понимания устройства данных и понимания построения подобных инструментов в графическом дизайне. Можно сказать что автоматизация идёт по пути всё большей стратификации когда дата аналитики юниоры не будут знать даже SQL и программирования в принципе, только разного рода no-code инструменты.

Ссылки:
[1] https://www.rasgoml.com/post/sql-generator

#datatools #startups

Rasgoml

Blog Rasgo - SQL Generator

1.7K viewsIvan Begtin, 05:31

Ivan Begtin

PRQL - ещё один кандидат на замену SQL [1] позиционируется как PRQL is a modern language for transforming data, читается как "приквел". Основная идея в том чтобы сделать язык более дружелюбным для тех кто на нём пишет и не потерять возможностей SQL, ну и ещё много чего, вроде расширяемости новыми функциями.

Референсная реализация есть на Rust [2] и гораздо менее популярная на Python [3]

Автор известен тем что создал когда-то библиотеку Xarray [4] для Python, весьма известную теми кто работает с большими массивами вычисляемых данных.

Про PRQL он написал книгу [5] и как-то в целом системно подходит к разработке, так что есть хорошие шансы что результат будет и долгосрочный.

Ссылки:
[1] https://prql-lang.org/
[2] https://github.com/prql/prql
[3] https://github.com/prql/PyPrql
[4] https://xarray.dev/
[5] https://prql-lang.org/book/

#opensource #sql #datatools

2.2K viewsIvan Begtin, 10:49

Ivan Begtin

Один из вопросов на которые пока лично у меня нет ответа - это какие некоммерческие проекты ещё возможно создавать в России. Почти все проекты Инфокультуры в последние годы были вокруг данных. Это и Госзатраты и Открытые НКО и многие другие проекты [1]. Они всё ещё доступны, но ~~неизвестно когда~~, скорее скоро, до них доберутся российские цензоры и выбор будет, или их закрывать, или перестать делать их внутри России.

Проект который развивать можно и нужно безо всех сомнений, хотя и также с рисками - это Национальный цифровой архив, из его телеграм канала я регулярно делаю репосты.

Что ещё полезного и реально актуального можно делать в России? Особенно с учётом полного отсутствия финансирования на технологичные некоммерческие проекты. Я вижу явную тему опрозрачивания рынка ИТ, и даже понимаю что можно делать в этом направлении, не понимаю правда где на это взять финансирование, но что-то можно и без него.

Вижу явную тему мониторинга [падения] качества жизни вот только все реальные данные по этой теме могут сейчас оказаться зацензурированы, уже цензурируются по факту.

Любое опрозрачивание объективного состояния экономики будет предметом манипуляции и давления со всех сторон, в общем, тоже мимо.

Открытые данные - это то что находится внутри любой подобной инициативы, по умолчанию.

Давайте обсудим какие технологические общественные проекты актуальны в России. И напишите, если Вы какие-то проекты на данных делаете или планируете делать.

Ссылки:
[1] https://infoculture.ru/projects

#opendata #opengov #projects

Инфокультура

Новости Информационной культуры. https://infoculture.ru

1.6K viewsIvan Begtin, 17:45

About

Blog

Apps

Platform