Ivan Begtin – Telegram

Ivan Begtin

8.09K subscribers

1.99K photos

3 videos

102 files

4.7K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

8.09K subscribers

Я, кстати, не писал про весьма любопытный стартап Hyperquery который в декабре вошёл в публичную бету [1] и теперь доступен [2]. Авторы продают инструмент сочетающий SQL запросы и тетрадки (notebooks) в стиле Notion. Фактически - это Notion для команд аналитиков и дата саентистов.

Идея SQL тетрадок не новая, есть Franchise [3] в облаке и как открытый код, есть Query.me [4], есть Count [5].

Достоинство Hyperquery именно в Notion подобном интерфейсе, в том что команды привыкшие к такому интерфейсу заценят его удобство.
Интересное сочетание, на мой взгляд имеет хорошую перспективу если к SQL запросам добавят расширяемую коллекцию способов визуализации.

Ссылки:
[1] https://medium.com/df-foundation/introducing-hyperquerys-public-beta-b871252e99e9
[2] https://www.hyperquery.ai
[3] https://franchise.cloud/
[4] https://query.me/
[5] https://count.co/

#startups #datatools #querytools #notebooks

Introducing Hyperquery’s public beta 🙌

… and the modern analytics experience.

1.5K viewsIvan Begtin, 08:29

Humanitarian Data Exchange (HDX) опубликовали доклад The State of Open Humanitarian Data 2022 [1] с подробностями и цифрами их проекта Data Grids по сбору структурированных данных по странам где происходят гуманитарные кризисы. В основном это африканские и азиатские страны, а из постсоветских стран там только Украина упомянута.

Основная цель их проекта в систематизированном сборе и актуализации ключевых данных о бедности, гуманитарной помощи, климате, авариях, катастрофах и так далее по этим странам. При этом далеко не все данные вообще могут быть доступны или существовать, а цифры в докладе взяты из их дашборда [2] который постоянно актуализируется.

Для тех кто не знает, HDX [3] - это проект каталога данных Управления по координации гуманитарных вопросов ООН. Там собрано более 18 тысяч наборов данных по гуманитарным кризисам. В отличие от многих других порталов данных, в проекте сильный фокус на данные в привязке к странам и территориям, визуализации и систематизации данных.

Год назад их представитель выступал у нас на Дне открытых данных в Москве и интересно рассказывал что они делают.

Не могу не напомнить что у ООН много проектов на данных и очень много открытых данных в повестке, подборку порталов открытых данных их управлений я приводил ранее на канале [4]

Ссылки:
[1] https://data.humdata.org/dataset/2048a947-5714-4220-905b-e662cbcd14c8/resource/56bb190e-fd43-4573-898c-76aaedb7e10a/download/state-of-open-humanitarian-data-2022.pdf
[2] https://data.humdata.org/dashboards/overview-of-data-grids
[3] https://data.humdata.org
[4] https://t.iss.one/begtin/3310

#opendata #un #hdx #unocha

1.3K viewsIvan Begtin, 10:41

Я рассказывал про то что у очень многих госорганов/госсайтов/информационных систем есть документированные, плоходокументированные и совсем недокументированное API. Все вместе это частично, объект интереса в задачах сбора и извлечения данных, частично вопрос информационной безопасности и, в значительной степени, вопрос технической квалификации.

Я приведу несколько примеров API на порталах органов власти и их информационных систем.

Росрыболовство
Официальный сайт органа власти (fish.gov.ru) создан на бесплатной CMS Wordpess. Сайт установлен без доп. настроек и с настройками по умолчанию, поэтому из сайта доступно техническое API Wordpress'а [1] через которое можно автоматически выгрузить все их новости, веб-страницы и тд. Похоже на неотключенную возможность у CMS.

Автоматизированная система транспортного комплекса (АСУ ТК)
Сайт АСУ ТК (asutk.ru) создан на базе CMS Sharepoint, по умолчанию API к спискам на сайте и к веб-страницам доступно по технической ссылке [2]. Не видно что API используется где-то на сайте, скорее не отключенная возможность CMS.

Портал уполномоченного органа в сфере электронной подписи
Сайт Минцифры России со сведениями о УЦ и УП (e-trust.gosuslugi.ru) предоставляет недокументированное API, например, для получения списка аккредитованных УЦ [3]. Похоже на API сделанное разработчиками для скорости отображения данных на веб-страницах которые подгружают данные через Ajax запросы.

Цифровой мастер-план города Байкальска
Не совсем государственный, скорее государством заказанный сайт (план.байкальск.рф) отображает данные с помощью Graphql API [4]. Похоже это основной принцип работы сайты через отображение данных через запросы к бэкэнду Graphql.

Я привёл 4 примера из нескольких сотен, именно недокументированных API. Как такие API появляются? Почему часто владельцы данных сами о них не знают?

Основные причины таковы:
1. Неотъемлимая часть CMS или веб-фреймворка. CMS вроде Sharepoint'а или Wordpress предоставляют API по умолчанию, позволяющее скачивать весь общедоступный контент автоматизировано. Аналогично делают некоторые компоненты для существующих CMS.
2. Разработчикам так удобнее. Разработчики привыкшие делать внутренние или закрытые веб-приложения часто переносят эти практики для приложений в открытом доступе и отображают данные через Ajax запросы.
3. Внутреннее API не для всех. Значительно реже, API делается для себя/каких-то команд которые работают с данными, но не документируется, не описывается и тд. Часто можно найти в документах техзаданий к госконтрактам.

Есть порталы где API декоративно и запросы автоматически блокируются после 5-10 обращений в минуту. Есть порталы где API - это основной способ предоставлять информацию. В одном только портале электронного бюджета более 100 API к данным.

Ссылки:
[1] https://fish.gov.ru/wp-json/
[2] https://asutk.ru/_api/Web/
[3] https://e-trust.gosuslugi.ru/app/scc/portal/api/v1/portal/ca/list
[4] https://api-dmp-baykalsk.chg.one/v1/graphql

#opendata #openapi #api #government

Федеральное агентство по рыболовству

Главная | Федеральное агентство по рыболовству

Официальный сайт федерального органа исполнительной власти. Описание деятельности и целей, отчёты, новости, анонсы мероприятий, подразделения и контакты Росрыболовства.

1.3K viewsIvan Begtin, 20:25

Полный слепок всех данных из портала Data.gov.ru выложен на Хаб открытых данных [1]. Это архив в 13ГБ, после распаковки 29 ГБ.

Слепок этих данных создавался в архивационных целях, для Национального цифрового архива, но также может быть полезен всем исследователям открытых данных в России, тем кто ищет большие данные для собственных задач и так далее.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #data #dataports #ruarxive

Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных

Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.

2.1K viewsIvan Begtin, 07:16

В рубрике интересных инструментов по работе с данными Mercury [1], утилита по преобразованию тетрадок с Python в веб приложения и возможностью запуска их с определёнными параметрами.

Выглядит любопытно и есть живое демо [2], может быть полезно для разного рода способов публикации, например, студенческих работ или работ на хакатонах/конкурсах.

А может и другие применения есть.

Ссылки:
[1] https://github.com/mljar/mercury
[2] https://mercury-demo-1.herokuapp.com/

#datatools #notebooks #python #opensource

GitHub - mljar/mercury: Convert Jupyter Notebooks to Web Apps

Convert Jupyter Notebooks to Web Apps. Contribute to mljar/mercury development by creating an account on GitHub.

1.4K viewsIvan Begtin, 10:45

Вышла новая версия Metabase [1] опенсорсной и облачной системы визуализации дашбордами (BI системы). В этой версии добавили поддержку моделей и возможности моделирования структуры отображаемых данных для нетехнических пользователей и, в принципе, видно что продукт эволюционирует в сторону повышения его доступености для аналитиков без технического бэкграунда и большей поддержке облачных продуктов.

Собственно основные продукты по визуализации данных с открытым кодом готовые к быстрому корпоративному применению - это Metabase и Superset. Изменения в них весьма интересны.

Ссылки:
[1] https://www.metabase.com/blog/Metabase-0.42/index.html

# datatools #cloud #bi #metabase #opensource

1.5K viewsIvan Begtin, 11:29

Написал в рассылку о судьбе NoSQL в современном стеке данных [1]. Могу сказать что сейчас NoSQL и современные инструменты - это плохо сочетающиеся комбинации, как минимум в ряде задач. Это создает как проблемы, так и коммерческие возможности

Ссылки:
[1] https://begtin.substack.com/p/23

#datatools #mailing #nosql #mongodb

Ivan’s Begtin Newsletter on digital, open and preserved government

#23. Судьба NoSQL в современном стеке данных

Во всём что касается современного стека технологий по работе с данными особенна интересна судьба NoSQL продуктов вроде MongoDB, ElasticSearch, Redis, Neo4J и других. Проблема в том что большая часть инструментов в Modern data stack ориентированы на наличие…

1.5K viewsIvan Begtin, 17:34

Минцифры анонсировали поддержку раскрытия исходного кода и открытую государственную лицензию для открытого кода публикуемого от лица Российской Федерации и выставили проект НПА на обсуждение [1]

Если кратко, то инициатива полезная, как минимум открытие исходного кода многих госпроектов/госпродуктов/инструментов разработанных за бюджетные средства - это хорошо. Важно чтобы открытость была полной, а не доступ к репозиторию после регистрации, например, в ЕСИА или по ограниченному списку.

В любом случае это тот документ который стоит прочитать и содержательно прокомментировать на regulation как минимум. Лично у меня есть вопросы к содержанию открытой лицензии, я о своих сомнениях и комментариях позже ещё напишу.

Ссылки:
[1] https://regulation.gov.ru/p/124850

#opensource #sourcecode #digital

1.5K viewsIvan Begtin, 10:17

Если университет проводит хакатоны на данных и не может опубликовать ни одного набора данных в открытом доступе, то это, конечно, то грош цена таким хакатонам. (c)

Кстати, в Испании 12 университетов публикуют свои данные на национальном портале открытых данных data.gob.es [1], а Университет Сарагосы опубликовал уже 341 набор данных.

В основном это административные данные о жизни университетов, их обязательной финансовой отчетности, статистике и образовательному процессу. Потому что раскрытие данных о научной деятельности обычно идёт по другим каналам - порталам публикации научных данных вроде Zenodo и других проектов открытого доступа.

Ссылки:
[1] https://datos.gob.es/es/catalogo?administration_level=U

#opendata #data

Conjuntos de datos | datos.gob.es

Datos.gob.es reutiliza la información pública

1.4K viewsIvan Begtin, edited 13:18

Продолжая тему недокументированных государственных API приведу ещё один живой пример с некоторыми техническими подробностями.

Вот, в Санкт-Петербурге есть портал бюджетных инициатив граждан [1]. В целом неплохой, современно выглядящий и с примерно 29 тысячами опубликованных инициатив. Когда я в целях архивации региональных сайтов бюджетов пытался его заархивировать то столкнулся с тем что у него нет веб-страниц в нормальном понимании. Вместо этого даннные отдаются через API по вполне легко находимой ссылке /api/v2/budget/initiatives [2] в коде страницы, в HTML коде сайта видно что что API передаётся параметр offset для перехода к следующей порции данных и limit для ограничений числа получаемых данных. В результате все инициативы можно выкачать простым перебором. Запросы к API возвращают в JSON формате общее число объектов в поле total_count и список объектов в поле objects в каждом ответе.

Особенность в том что это типовая задача. Не только на этом сайте и не только в этом API данные публикуются именно таким образом. В принципе вариации мышления и логики разработчиков очень невелики, всего 5-6 базовых сценария. Поэтому когда-то давно, 2 года назад я сделал ручную утилиту apibackuper [3] которую считаю личным вкладом в дело цифровой архивации;)

Утилита создана чтобы автоматизировать именно выгрузку данны из API, так чтобы всё можно было описать простыми параметрами в конфигурационном файле и запустить выгрузку. Не открою большого секрета в том что по объёму около 75% данных в Датакрафере [4] скачано именно с помощью apibackuper, фактически над этой утилитой просто возведена надстройка по автогенерации из API в процессе обнаружения данных.

В отличие от HTML парсеров утилита умеет проходить по всем страницам API, выгружать индивидуальные объекты при необходимости и складывать файлы в локальное хранилище или в S3 совместимое, а также экспортировать данные в JSONL формат. Для простоты все промежуточные файлы хранятся в ZIP контейнере и экспортируются по запросу. Всё описыается в .cfg файле

Пример который я озвучивал выше, с инициативами на портале инициативного бюджетирования СПб один из самых простых. Я специально его выложил онлайн как открытый код [4] хотя именно кода там мало, собственно .cfg файл необходимый для выполнения команд и набор этих команд прост.
- apibackuper estimage - оценить длительность и число запросов по выгрузке данных
- apibackuper run - запустить выгрузку данных
- apibackuper export data.jsonl - экспортировать данные в формат jsonl в файл data.jsonl
- apibackuper getfiles - выгрузить все изображения по ссылкам images.image.url

Когда-то я делал эту утилиту для архивации материалов с сайта Мэрии Москвы, там почти весь контент через API, и портала электронного бюджета. Сейчас, как я говорил, эта маленькая программа помогает собирать и большого числа документированных и недокументированных государственных API для архивации и для каталога данных.

Ссылки:
[1] https://tvoybudget.spb.ru
[2] https://tvoybudget.spb.ru/api/v2/budget/initiatives
[3] https://github.com/ruarxive/apibackuper
[4] https://data.apicrafter.ru
[5] https://github.com/ruarxive/apibackuper-example-spbbudget
[6] https://github.com/ruarxive/apibackuper-example-spbbudget/blob/main/apibackuper.cfg

#opendata #datatools #opensource

tvoybudget.spb.ru

Официальный cайт проекта «Твой Бюджет»

Проект инициативного бюджетирования при поддержке правительства Санкт-Петербурга

1.3K viewsIvan Begtin, 17:34

Один из важнейших этических вопросов к экосистемам и крупнейшим платформам - это саморегулирование и самоцензура. Отчасти он проистекает от скорости развития платформ, значительно опережающей работу регуляторов и законодателей. А отчасти природа этого вопроса в сильной зависимости крупных и, особенно публичных, компаний от общественного мнения.

Вот к примеру на Amazon началось давление по поводу того что через него закупают некоторые пищевые консерванты которые потом используют для суицидов [1], теперь компания использует алгоритмы для идентификации таких продуктов и предлагает тем кто их покупает воспользоваться альтернативами.

Можно ли говорить о том что это самоцензура и саморегулирование? В каких случае это допустимо и в каких нет?

Вопрос очень непростой потому что нет какого-то общечеловеческого каталога ценностей определяющих допустимые границы самоограничений для технологических компаний да и бизнеса в принципе. Как правило компании разрабатывают свои принципы самостоятельно, некоторые даже публикуют их в открытом доступе. К примеру, Google на странице "Беспрепятственный доступ к информации" [2], по сути, декларируют свою ценностную модель (частично декларируют на самом деле).

Но в отличие от вопросов научной этики или международных документов по защите прав человека - эти правила не универсальны.

Случай с Amazon - это тоже некая форма цензуры и таких будет только больше.

Ссылки:
[1] https://www.nytimes.com/2022/02/04/technology/amazon-suicide-poison-preservative.html
[2] https://www.google.com/intl/ru/search/howsearchworks/mission/open-web/

#policy #amazon #censorship

Lawmakers Press Amazon on Sales of Chemical Used in Suicides

Even as grieving families tried to warn Amazon and other e-commerce sites of the danger, there were more purchases and more deaths.

1.2K viewsIvan Begtin, 06:23

Напомню что 4-5 марта мы, Инфокультура и АУРД, организуем в Москве Open Data Day 2022 [1] он пройдет паралеллельно с сотнями других мероприятий по всему миру [2]. ODD начинался по инициативе Open Knowledge Foundation, большая часть мероприятий были простыми митапами и хакатонами, но несколько больших мероприятий были в формате конференций, например, неделя открытых данных в Нью-Йорке.

В Москве мы проводим мероприятие в формате конференции в которой будут дискусии по актуальным вопросам открытых данных и открытости в целом (открытый код, открытые сообщества, открытое железо и тд.), а также практические мастер классы. Мы скоро разместим программу где будут подробности!

А когда-то мы проводили ODD в формате большой оффлайновой [не]конференции, но пандемия все сильно поменяла и в этом году почти всё будет онлайн с оффлайновым присутствием для спикера и тех кто захочет прийти во ФРИИ и послушать вживую.

Как принять участие/помочь/сделать доброе дело?
1. Сделать репост этого поста и рассказать другим о мероприятии.
2. Ещё есть время предложить спикеров для дискуссий/актуальные темы/проведения мастер классов. Главный критерий - знание предметной области и хорошая подача материала!
3. Подключиться к трансляции в сам День открытых данных, задавать вопросы и комментировать.
4. [При желании] прийти вживую в оффлайн и поговорить на актуальные темы в оффлайне. Чай/кофе/печеньки обеспечим;)

И, конечно, и это важно, что мероприятий в день открытых данных много. В России кроме мероприятия в Москве, анонсировано мероприятие в Кирове и надеюсь оно также будет интересным. Я ещё напишу о нём когда узнаю все подробности от организаторов.

Формат полу-онлайн конференции может подойти не всем, кто-то хочет больше общения вживую. Не стесняйтесь организовать своё мероприятие в своём городе. Создавайте для него лендинг или сообщество в соц сети, регистрируйте на opendataday.org и присылайте мне, я и мои коллеги постараемся привлечь к нему побольше внимания.

ODD в Москве проводится при поддержке членов ассоциации АУРД и наших многолетних партнеров: Фонда Развития Интернет Инициатив, Интерфакса, Департамента медиаи коммуникации Высшей школы экономики и Центра цифровых прав, Роскомсвободы и многих других! Присоединяйтесь к списку партнеров и вступайте к нам в ассоциацию, конечно же;)

Вы также можете поддержать Инфокультуру по мере своих возможностей.

Ссылки:
[1] https://opendataday.ru/msk
[2] https://opendataday.org

#opendataday #odd #деньоткрытыхданных #opendata #events #data

Инфокультура

Новости Информационной культуры. https://infoculture.ru

9.1K viewsIvan Begtin, edited 06:56

В Италии выяснили что местные автостраховщики делают разные оценки процентной ставки в зависимости от того где Вы родились [1]. Для жителей Рима тариф будет одним, для жителей Неаполя другим. Всё это в статье Algorithmic Audit of Italian Car Insurance: Evidence of Unfairness in Access and Pricing от команды исследователей из 3-х итальянских университетов [2].

Дискриминация по национальности и по месту рождения одна из наиболее жёстких. Большинство из нас не имеет возможности выбрать расу, нацию и, особенно, место рождения.

В статье упоминается что эта практика существовала и раньше, а с применением автоматизированных алгоритмов она лишь стала изощрённее.

Ссылки:
[1] https://algorithmwatch.org/en/discriminating-insurance/
[2] https://www.dei.unipd.it/~silvello/papers/2021_aies2021.pdf

#privacy #ai #ethics

Costly birthplace: discriminating insurance practice - AlgorithmWatch

Two residents in Rome with exactly the same driving history, car, age, profession, and number of years owning a driving license may be charged a different price when purchasing car insurance. Why? Because of their place of birth, according to a recent study.

1.3K viewsIvan Begtin, 08:21

Существует совсем не нулевая вероятность что Google Analytics в Европейском союзе может быть запрещён или ограничен или Google сами перестанут предоставлять этот продукт европейским пользователям. Simpleanalytics [1] сделали обзор с упоминанием регуляторов Австрии и Голландии которые уже сформулировали свои претензии к этому продукту, в части нарушения GDPR.

Но тут важно помнить что Google просто самый большой из таких сервисов. Кто следующий и чем это закончится?

Ссылки:
[1] https://blog.simpleanalytics.com/will-google-analytics-be-banned-in-the-eu

#privacy #eu #google

Simpleanalytics

Will Google Analytics be banned in the EU?

The Dutch Data Protection Authority (AP) questioned the legal use of Google Analytics in The Netherlands. Will it be banned?

1.2K viewsIvan Begtin, 09:27

В Forbes вышла моя колонка [1] по регулировании Метавселенных в России

Вначале я хотел добавить юмора, описать будущее чего-то вроде Росметаконтроля или Федеральной службы виртуального патриотизма или Министерства внутривиртуальных дел, но в какой-то момент юмор засбоил и получился серьёзный текст про усиление госконтроля.

Ссылки:
[1] https://www.forbes.ru/mneniya/455185-metavselennye-pod-kontrolem-pocemu-novye-tehnologii-v-rossii-vosprinimaut-kak-ugrozu

#privacy #vr #ar #metauniverses #reading

Метавселенные под контролем: почему новые технологии в России воспринимают как угрозу

Российские власти задумались о том, как регулировать метавселенные и виртуальную реальность. Чиновники видят риски не столько в технологиях, как таковых, сколько в распространении информации. Метавселенные дадут гражданам дополнительные возможности д

1.4K viewsIvan Begtin, 09:32

В блоге Open Ownership пишут о том что на декабрьской конференции UNDC (Управлении ООН по противодействии коррупции) приняли резолюцию [1] о развитии в сторону раскрытия сведений о конечных владельцах компаний. Обратите внимание что именно о конечных владельцах (beneficial owners), а не учредителям юр. лиц. Сведения об учредителях не везде, но много где доступны за деньги или бесплатно, а вот сведения о конечных владельцах публикуются лишь единицами стран.

Напомню что в России сведения о конечных владельцах публикуются только кредитными организациями и то, в виде схем, в немашиночитаемом виде.

Ссылки:
[1] https://www.unodc.org/unodc/en/corruption/COSP/session9-resolutions.html#Res.9-7

#opendata #un #anticorruption

1.3K viewsIvan Begtin, 12:04

Команда Superconductive стоящая за Great Expecations open source продуктом по контролю качества данных подняла $40M инвестиций на создание облачного продукта [1]

Можно сказать что у инструментов работы с данными просто заметнейший тренд на то что вначале команды создают востребованное open source ПО, а потом берут инвестиции на облачную версию.

Главное, я напомню, не забывать судьбу CloverETL которые начинали с open source продукта, а потом убили его ради корпоративной версии и таких примеров в настольном и сервером ПО немало, а у open source + облачного другие особенности, главная из которых в том что авторы часто потом добавляют в open source решение зависимость от своей облачной инфраструктуры.

Ссылки:
[1] https://techcrunch.com/2022/02/10/superconductive-creators-of-great-expectations-raises-40m-to-launch-a-commercial-version-of-its-open-source-data-quality-tool/

#opensource #dataquality #startups #investments

Superconductive, creators of Great Expectations, raises $40M to launch a commercial version of its open source data quality tool…

Data quality — the practice of testing and ensuring that the data and data sets you are using are what you expect them to be — has become a key component in the world of data science. Data may be the “new oil”; but if it’s too crude, you may not be able to…

1.4K viewsIvan Begtin, edited 19:40

Полезное чтение про разное

- How often do people actually copy and paste from Stack Overflow? Now we know. [1] о том как часто программисты копируют тексты со Stack Overflow. Мини-исследование от команды проекта собиравших данные о копировании с помощью отслеживания фактов копирования в JavaScript коде. Если кратко - копируют много и посты/ответы с хорошей репутацией.

- The next billion programmers [2] рассуждения всё того же Benn Stancil из стартапа Mode о том что самый главный продукт для переделки или пересоздания - это Excel. У Бена хорошие рассуждения практически во всех его текстах, он уходит куда дальше чем просто продвижение Mode и дискуссий вокруг хайпов вокруг данных, а рассуждает по общеотраслевые проблемы. Excel - это, действительно, с одной стороны гениальное, а с другой тяжкое наследие.

- Six Reasons Why the Wolfram Language Is (Like) Open Source [3] ноябрьский текст от Jon McLoone, директора по коммуникациям и стратегии в Wolfram, о том почему модель открытого кода не подходит для ключевых технологий Wolfram. Для тех кто не знает, Wolfram Mathematica один из лучших продуктов для технических вычислений, а Wolfram Alpha один из лучших продуктов поиска ответов на вопросы со способностью давать ответы в технических дисциплинах. Но все эти продукты с закрытым кодом, включая их Wolfram Language и многие не используют именно из-за закрытости и замкнутости экосистемы Wolfram. Стоит почитать чтобы понимать позицию тех кто делает хорошие продукты и не может поменять бизнес модель в сторону открытости и поговорить о том к чему это приведет.

- Tableau Data Catalog: Let’s do the jigsaw puzzle! [4] команда разработчиков пытаются построить каталог данных на базе Tableau. На мой взгляд это не самый правильный путь, но активным пользователям Tableau может оказаться полезным.

- Understanding of metrics store [5] полезный обзорный текст про хранилища метрик, как лучше их организовать, зачем и кому они нужны. Лично у меня metrics store четко ассоциируется с Headless BI, и разделением аналитических показателей на подсчет, хранение и интерфейс.

- Snowflake Data Classification Now Available in Public Preview [6] в Snowflake анонсировали технологии классификации данных для данных загружаемых пользователями, но потом почему-то статью убрали и осталась она только в гугл кеше. Технология практически та же что у нас в DataCrafter'е [7] и то что я недавно анонсировал в виде утилиты metacrafter [8] с открытым кодом. Разница в том что у Snowflake это встроено в систему SQL запросов и находится прямо внутри их движка.

Ссылки:
[1] https://stackoverflow.blog/2021/12/30/how-often-do-people-actually-copy-and-paste-from-stack-overflow-now-we-know/
[2] https://benn.substack.com/p/the-next-billion-programmers
[3] https://blog.wolfram.com/2021/11/30/six-reasons-why-the-wolfram-language-is-like-open-source/
[4] https://medium.com/iadvize-engineering/tableau-data-catalog-lets-do-the-jigsaw-puzzle-cef93e674622
[5] https://medium.com/kyligence/understanding-the-metrics-store-c213341e4c25
[6] https://webcache.googleusercontent.com/search?q=cache:61aCFi3onBwJ:https://www.snowflake.com/blog/data-classification-now-available-in-public-preview/+&cd=1&hl=fr&ct=clnk&gl=de&client=firefox-b-d
[7] https://data.apicrafter.ru/class
[8] https://github.com/apicrafter/metacrafter/

#reading #data #tech

stackoverflow.blog

How often do people actually copy and paste from Stack Overflow? Now we know. - Stack Overflow

1.2K viewsIvan Begtin, 08:42

В качестве регулярного напоминания о том где искать данные и какие каталоги данных существуют:
- Хаб открытых данных (hubofdata.ru) создан на базе системы каталогов данных CKAN нами (@infoculture) ещё до появления государственных порталов данных. Можно использовать для загрузки данных, а нами используется как хранилище метаданных к архивам, причём не только данных, но и веб-сайтов.

- Данные НКО (ngodata.ru) портал созданный нами для того чтобы НКО могли бы публиковать данные по результатам своей работы. Задумка была хорошая, но заинтересованность НКО в распространении своих данных мы явно
переоценили. В то же время немало данных Инфокультуры опубликовано и там тоже.

- Каталог каталогов данных (datacatalogs.ru) - создан как агрегатор метаданных о каталогах данных. Охватывает,
наверное, почти все каталоги данных в России и о России, а также некоторые цифровые репозитории где должны быть данные (в том числе), например, репозитории научных публикаций.

- DataCrafter (data.apicrafter.ru) - каталог данных созданный в рамках нашего коммерческого проекта APICrafter. Значительная часть данных открыта и общедоступна. Всё ещё в бета режиме и пока используется для технологических экспериментов в основном. Вроде того что я постоянно рассказываю о классификации данных и разметки типов полей данных по их смыслу (кодам ИНН, ФИО, персональным данным, справочникам и тд)

Всё это то что находится в открытом доступе, а также много данных которые мы постоянно собираем и до которых _не доходят руки_, потому что собрать данные != документировать данные != привести данные удобный вид.

#opendata #dataportals #datasets #datadiscovery

datacatalogs.ru/

Каталог каталогов открытых данных

Поиск и фильтрация каталогов открытых данных

1.4K viewsIvan Begtin, 11:14

Любопытный продукт про работу с данными с открытым кодом JuiceFS [1], облачная файловая система с поддержкой многих облачных провайдеров и предоставляющая S3 совместимый интерфейс. Базовая архитектура продукта в том что все метаданные хранятся в Redis или в другом key-value хранилище, а файлы в S3 совместимом хранилище файлов. Никакой магии, но полезный рабочий инструмент. Авторы пошли тем же путём что я уже часто описываю - сделать популярный open source продукт и привлекать венчурные инвестиции на облачное решение [2].

Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).

А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.

Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.

Ссылки:
[1] https://github.com/juicedata/juicefs
[2] https://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc

#data #datainfrastructure #storage #startups

GitHub - juicedata/juicefs: JuiceFS is a distributed POSIX file system built on top of Redis and S3.

JuiceFS is a distributed POSIX file system built on top of Redis and S3. - juicedata/juicefs

1.2K viewsIvan Begtin, 08:13

В рубрике интересных наборов данных, Google Mobility Report, данные о передвижении жителей стран во время COVID-19. Компания опубликовала и обновляет файлы в виде CSV файла по всему миру, CSV файлов по странам и в виде PDF отчетов по каждой стране [1]. Всего данных на 844 МБ в распакованном виде, данные по России тоже есть.

Одно ограничение в том что условия использования указанные там - это условия использования Google [2], а это, конечно, не свободная лицензия.

Тем не менее практическое применение этим данным вполне возможно найти.

Ссылки:
[1] https://www.google.com/covid19/mobility/
[2] https://policies.google.com/terms?hl=ru

#opendata #data #covid19

COVID-19 Community Mobility Report

See how your community moved differently due to COVID-19

1.3K viewsIvan Begtin, 08:42