В продолжение темы открытых наборов данных лесе и заодно отвечая на вопрос о том что можно сделать в открытых данных. Например, петиция на Change.org [1] об открытии реестра зелёных насаждений в Москве. До петиции, её авторы запрашивали эти данные у властей города и получили ответ в стиле "граждане у нас малограмотные, а реестр только для нужд чиновников" [2].
Честно говоря, я такую позицию городских властей не могу понять, во многих городах реестры зелёных насаждений раскрываются как открытые данные, ссылки есть в тексте петиции, посмотрите обязательно.
Данные о зелёных насаждениях - это, также, данные о качестве жизни. Они необходимы для сохранения окружающей среды, для понимания где требуются большие общественные усилия, для выбора места для жизни, работы, воспитания детей и ещё много чего что мы делаем.
К вопросу о том как помогать движениям за открытость - запуская вот такие инициативы, придавая им широкую публичность, делая запросы в органы власти и так далее. Для этого не нужно ни с кем советоваться, надо просто делать никого не спрашивая и ни на кого не оглядываясь.
Авторы петиции также ведут канал в телеграме @openregistry [3] где можно узнать о её продвижении и результатах общения с городскими властями.
Я со своей стороны напомню что когда-то, 10 лет назад, Москва была лидером по открытости данных в России. Первый государственный портал открытых данных был сделан властями Москвы, они же публиковали наибольшие объёмы данных и сейчас уровень раскрытия данных довольно высок.
Может быть пора сделать московским властям следующий шаг и начать публиковать данные о качестве жизни? За это не осудят, а вот жители города точно оценят.
Ссылки:
[1] www.change.org/p/защити-деревья-в-городе-подпиши-петицию-за-открытый-реестр-зелёных-насаждений-mos-mossobyanin-ditmos-depmospriroda-dpioosmos-ivan-drobotov
[2] https://www.facebook.com/groups/za.travu/permalink/3670269526319188/?app=fbl
[3] https://t.iss.one/openregistry
#opendata #petitions #moscow #ecology #lifequality
Честно говоря, я такую позицию городских властей не могу понять, во многих городах реестры зелёных насаждений раскрываются как открытые данные, ссылки есть в тексте петиции, посмотрите обязательно.
Данные о зелёных насаждениях - это, также, данные о качестве жизни. Они необходимы для сохранения окружающей среды, для понимания где требуются большие общественные усилия, для выбора места для жизни, работы, воспитания детей и ещё много чего что мы делаем.
К вопросу о том как помогать движениям за открытость - запуская вот такие инициативы, придавая им широкую публичность, делая запросы в органы власти и так далее. Для этого не нужно ни с кем советоваться, надо просто делать никого не спрашивая и ни на кого не оглядываясь.
Авторы петиции также ведут канал в телеграме @openregistry [3] где можно узнать о её продвижении и результатах общения с городскими властями.
Я со своей стороны напомню что когда-то, 10 лет назад, Москва была лидером по открытости данных в России. Первый государственный портал открытых данных был сделан властями Москвы, они же публиковали наибольшие объёмы данных и сейчас уровень раскрытия данных довольно высок.
Может быть пора сделать московским властям следующий шаг и начать публиковать данные о качестве жизни? За это не осудят, а вот жители города точно оценят.
Ссылки:
[1] www.change.org/p/защити-деревья-в-городе-подпиши-петицию-за-открытый-реестр-зелёных-насаждений-mos-mossobyanin-ditmos-depmospriroda-dpioosmos-ivan-drobotov
[2] https://www.facebook.com/groups/za.travu/permalink/3670269526319188/?app=fbl
[3] https://t.iss.one/openregistry
#opendata #petitions #moscow #ecology #lifequality
Change.org
Подпишите петицию
Опубликуйте реестр зелёных насаждений Москвы!
В блоге Datahub, open source продукта каталога корпоративных данных пост про то как составлять бизнес глоссарии [1] в привязке к данным. То что в Datahub называется бизнес глоссарием - это просто другой взгляд на те же semantic types, смысловые категории данных. В Datahub всё решают через самостоятельное составление этого глоссария и через тэгирование данных что тоже вполне себе подход для многих задач.
Я же могу сказать что это та область которая хорошо поддаётся автоматизации и алгоритмизации и я над ней думаю уже наверное с 10 лет, в разных направлениях, но основное - это всегда data undestanding, понимание данных, в том числе когда до этого никакой информации именно об этой базе данных или наборе данных не было.
В каталогах данных вроде Datahub другой подход, в том что есть ручная разметка и ручное документирование и в дополнение к ним кое что может автоматизироваться, выявление некоторых типов персональных данных к примеру.
Вообще же могу сказать что мне лично в этом всём нехватает большого числа разных данных. Всё основное что можно было собрать по российским порталам открытых данных уже или загружено в DataCrafter [2], или лежит большими слепками вроде слепка данных в data.gov.ru или, ещё, с крупных зарубежных порталов данных. В общей сложности около 75 тысяч наборов данных по которым не менее 300 тысяч полей/метаданных доступны. Но это всё общедоступные данные, там почти нет чувствительных персональных данных (кроме некоторых исключений).
Для задач распознавания типов данных всегда нехватает данных предметных областей: финансовой, коммерческой, транспорта, медицины и тд. В общем и целом постоянное ощущение что данных мало сколько бы их не было;)
В ситуации дефицита данных для обучения алгоритмов альтернативный способ всегда остаётся тем же, наличием возможности пользователю самому создавать бизнес глоссарии.
Ссылки:
[1] https://medium.com/datahub-project/creating-a-business-glossary-and-putting-it-to-use-in-datahub-43a088323c12
[2] https://data.apicrafter.ru
#datacatalogs #metadata
Я же могу сказать что это та область которая хорошо поддаётся автоматизации и алгоритмизации и я над ней думаю уже наверное с 10 лет, в разных направлениях, но основное - это всегда data undestanding, понимание данных, в том числе когда до этого никакой информации именно об этой базе данных или наборе данных не было.
В каталогах данных вроде Datahub другой подход, в том что есть ручная разметка и ручное документирование и в дополнение к ним кое что может автоматизироваться, выявление некоторых типов персональных данных к примеру.
Вообще же могу сказать что мне лично в этом всём нехватает большого числа разных данных. Всё основное что можно было собрать по российским порталам открытых данных уже или загружено в DataCrafter [2], или лежит большими слепками вроде слепка данных в data.gov.ru или, ещё, с крупных зарубежных порталов данных. В общей сложности около 75 тысяч наборов данных по которым не менее 300 тысяч полей/метаданных доступны. Но это всё общедоступные данные, там почти нет чувствительных персональных данных (кроме некоторых исключений).
Для задач распознавания типов данных всегда нехватает данных предметных областей: финансовой, коммерческой, транспорта, медицины и тд. В общем и целом постоянное ощущение что данных мало сколько бы их не было;)
В ситуации дефицита данных для обучения алгоритмов альтернативный способ всегда остаётся тем же, наличием возможности пользователю самому создавать бизнес глоссарии.
Ссылки:
[1] https://medium.com/datahub-project/creating-a-business-glossary-and-putting-it-to-use-in-datahub-43a088323c12
[2] https://data.apicrafter.ru
#datacatalogs #metadata
Medium
Creating a Business Glossary and Putting it to use in DataHub
In a previous post, we covered the high-level differences between Tags and Glossary Terms, two powerful labeling methods in DataHub.
Полезное чтение о данных и их регулировании:
- Data saves lives: reshaping health and social care with data (draft) [1] черновик регулирования в Великобритании, с примерами и целеполаганием на использование данных в целях спасения жизни и здоровья граждан. Четко и внятно написанный документ,стоит почитать чтобы понимать как развивается регулирование в UK. Можно обратить внимание на то что кроме данных планируется и раскрытие кода под лицензиями MIT and OGLv3
- Public bodies’ access to private sector data [2] научная статья о том как в 12 европейских локальных юрисдикциях органы власти взаимодействуют с бизнесом для получения данных частного сектора
- Open Data Governance and Its Actors [3] свежая книга о регулировании открытых данных от Max Kassen. Я её ещё не читал, но планирую. Судя по содержанию, похоже книга про систематизацию того как устроено раскрытие данных и кто за это отвечает
- Data Federalism [4] очень систематизирующий и длинный лонгрид о взаимодействии властей между собой через призму данных. Автор юрист, очень много конституционных аспектов и особенностей связанных с работой с данными в госорганах США.
- The Political Philosophy of AI: An Introduction [5] политические аспекты применения ИИ. Любопытная книга, я её также пока не читал, и также планирую прочитать.
Ссылки:
[1] https://www.gov.uk/government/publications/data-saves-lives-reshaping-health-and-social-care-with-data-draft/data-saves-lives-reshaping-health-and-social-care-with-data-draft
[2] https://firstmonday.org/ojs/index.php/fm/article/view/11720
[3] https://link.springer.com/book/10.1007/978-3-030-92065-4
[4] https://harvardlawreview.org/2022/02/data-federalism/
[5] https://www.politybooks.com/bookdetail?book_slug=the-political-philosophy-of-ai-an-introduction--9781509548538
#ai #data #policy #books #reading
- Data saves lives: reshaping health and social care with data (draft) [1] черновик регулирования в Великобритании, с примерами и целеполаганием на использование данных в целях спасения жизни и здоровья граждан. Четко и внятно написанный документ,стоит почитать чтобы понимать как развивается регулирование в UK. Можно обратить внимание на то что кроме данных планируется и раскрытие кода под лицензиями MIT and OGLv3
- Public bodies’ access to private sector data [2] научная статья о том как в 12 европейских локальных юрисдикциях органы власти взаимодействуют с бизнесом для получения данных частного сектора
- Open Data Governance and Its Actors [3] свежая книга о регулировании открытых данных от Max Kassen. Я её ещё не читал, но планирую. Судя по содержанию, похоже книга про систематизацию того как устроено раскрытие данных и кто за это отвечает
- Data Federalism [4] очень систематизирующий и длинный лонгрид о взаимодействии властей между собой через призму данных. Автор юрист, очень много конституционных аспектов и особенностей связанных с работой с данными в госорганах США.
- The Political Philosophy of AI: An Introduction [5] политические аспекты применения ИИ. Любопытная книга, я её также пока не читал, и также планирую прочитать.
Ссылки:
[1] https://www.gov.uk/government/publications/data-saves-lives-reshaping-health-and-social-care-with-data-draft/data-saves-lives-reshaping-health-and-social-care-with-data-draft
[2] https://firstmonday.org/ojs/index.php/fm/article/view/11720
[3] https://link.springer.com/book/10.1007/978-3-030-92065-4
[4] https://harvardlawreview.org/2022/02/data-federalism/
[5] https://www.politybooks.com/bookdetail?book_slug=the-political-philosophy-of-ai-an-introduction--9781509548538
#ai #data #policy #books #reading
GOV.UK
[Withdrawn] [Withdrawn] Data saves lives: reshaping health and social care with data (draft)
Стартапы по работе с данными о которых мало кто знает
Hanzo [1] компания с изначальной специализацией на ведении корпоративных веб-архивов с акцентом на рынок complience, регуляторных требований, в первую очередь от SEC и FINRA, финансовых регуляторов. Кроме архивов специализируются на архивации данных из корпоративных систем коммуникации и совместной работы таких как Slack и Google Workspace. В целом этот рынок называется eDiscovery. Привлекли венчурных инвестиций на $3.3M
Open Data Blend [2] проект частной компании NumbleLearn по представлению аналитики по фармацевтическому рынку в Великобритании. Используют данные о рецептах публикуемые Агентством здравоохранения Великобритании и предоставляют рынку подробные инсайты и иные формы представления понимания этого рынка. Сведений о инвестициях в них нет, но похоже что проект живой и приносит деньги.
Ссылки:
[1] https://www.hanzo.co
[2] https://www.opendatablend.io/
#opendata #data #startups
Hanzo [1] компания с изначальной специализацией на ведении корпоративных веб-архивов с акцентом на рынок complience, регуляторных требований, в первую очередь от SEC и FINRA, финансовых регуляторов. Кроме архивов специализируются на архивации данных из корпоративных систем коммуникации и совместной работы таких как Slack и Google Workspace. В целом этот рынок называется eDiscovery. Привлекли венчурных инвестиций на $3.3M
Open Data Blend [2] проект частной компании NumbleLearn по представлению аналитики по фармацевтическому рынку в Великобритании. Используют данные о рецептах публикуемые Агентством здравоохранения Великобритании и предоставляют рынку подробные инсайты и иные формы представления понимания этого рынка. Сведений о инвестициях в них нет, но похоже что проект живой и приносит деньги.
Ссылки:
[1] https://www.hanzo.co
[2] https://www.opendatablend.io/
#opendata #data #startups
www.opendatablend.io
Faster Insights from UK Open Data | Open Data Blend
Less prep. More insights. Empower your analytics team to deliver faster data insights today. We provide analysis-ready UK open datasets.
Ivan Begtin
Для тех кто интересуется реакцией правительств на COVID-19 через мобильные приложения для отслеживания, вышел финальный отчет Tracing The Tracers 2021 report: Automating COVID responses [1] от Algrorithm Watch, германской исследовательской группы в области…
Я ранее много раз упоминал стандарт публикации Frictionless Data [1] созданный командой Rufus Pollock, основателя Open Knowledge Foundation. Это стандарт контейнера для обмена данными и включающего специальный манифест с описанием состава данных. Самое очевидное и декларируемое его применение - это распространение данных в форматах CSV при которых в манифесте указаны параметры для открытия такого файла.
Идея эта не новая, например, библиотека конгресса США когда-то разработала стандарт Bagit [2] для обмена архивными данными. Но важным достоинством именно Frictionless Data является возможность расширения и создания своих стандартов на его основе. Так появился стандарт WACZ [3] для публикации веб-архивы внутри ZIP контейнера.
Веб архивы - это слепки сайтов создаваемые краулерами, такими как Internet Archive. Они создаются в международном стандарте WARC, а их метаданные в формате CDX, у которых есть множество достоинств и важный недостаток - они довольно сильно устарели. С метаданными есть потребность работать в машиночитаемом виде, сразу в JSON, а WARC файлы держать сжатыми, отсюда и появилась эта спецификация.
При этом не могу сказать что спецификация решает многие или все задачи веб-архивации.
У нас в Национальном цифровом архиве пока используется только формат WARC для архивации сайтов и складывание файлов в ZIP архивы для архивации API и каталогов данных. Так вот у WARC главное достоинство - это некоторая, хоть и не самая большая, но экосистема и совместимость в виде статуса стандарта и множество недостатков таких как: плохое сжатие файлов, поддержка инструментами только сжатия в форматах .warc.gz (GZIP плохо жмёт и вообще и такие данные), отсутствие встроенного механизма индекса содержания или поддержка внешних индексов и, в целом, возможность быстрой навигации с разделением метаданных и содержания - сейчас в WARC файле хранятся одновременно заголовки файлов и сами данные, в результате надо листать весь архив.
В целом же область веб-архивации очень консервативна, там нет такой жизни и гиперактивности как в работе с корпоративными данными, к примеру, да и денег там тоже на много порядков меньше, а вот интересные данные есть и использовать их может быть интересно многим.
Ссылки:
[1] https://frictionlessdata.io
[2] https://datatracker.ietf.org/doc/html/draft-kunze-bagit
[3] https://webrecorder.github.io/wacz-spec/1.2.0/
#opendata #datastandards
Идея эта не новая, например, библиотека конгресса США когда-то разработала стандарт Bagit [2] для обмена архивными данными. Но важным достоинством именно Frictionless Data является возможность расширения и создания своих стандартов на его основе. Так появился стандарт WACZ [3] для публикации веб-архивы внутри ZIP контейнера.
Веб архивы - это слепки сайтов создаваемые краулерами, такими как Internet Archive. Они создаются в международном стандарте WARC, а их метаданные в формате CDX, у которых есть множество достоинств и важный недостаток - они довольно сильно устарели. С метаданными есть потребность работать в машиночитаемом виде, сразу в JSON, а WARC файлы держать сжатыми, отсюда и появилась эта спецификация.
При этом не могу сказать что спецификация решает многие или все задачи веб-архивации.
У нас в Национальном цифровом архиве пока используется только формат WARC для архивации сайтов и складывание файлов в ZIP архивы для архивации API и каталогов данных. Так вот у WARC главное достоинство - это некоторая, хоть и не самая большая, но экосистема и совместимость в виде статуса стандарта и множество недостатков таких как: плохое сжатие файлов, поддержка инструментами только сжатия в форматах .warc.gz (GZIP плохо жмёт и вообще и такие данные), отсутствие встроенного механизма индекса содержания или поддержка внешних индексов и, в целом, возможность быстрой навигации с разделением метаданных и содержания - сейчас в WARC файле хранятся одновременно заголовки файлов и сами данные, в результате надо листать весь архив.
В целом же область веб-архивации очень консервативна, там нет такой жизни и гиперактивности как в работе с корпоративными данными, к примеру, да и денег там тоже на много порядков меньше, а вот интересные данные есть и использовать их может быть интересно многим.
Ссылки:
[1] https://frictionlessdata.io
[2] https://datatracker.ietf.org/doc/html/draft-kunze-bagit
[3] https://webrecorder.github.io/wacz-spec/1.2.0/
#opendata #datastandards
Frictionless Data
Data software and standards
В блоге Fivetran весьма интересные размышления [1] о популярности dbt, инструмента по преобразованию данных с помощью SQL, с акцентом на то что dbt решает одну из главных системных проблем SQL - невозможность использования библиотек и шаблонов. В dbt это решается через их менеджер пакетов куда входят многочисленные рецепты работы с данными.
Авторы также ссылаются на статью середины прошлого года Against SQL [3] где как раз проблемы SQL четко актикулировались.
Я, кстати, также совершенно не в восторге от языка SQL, слишком много разных реализаций значительно меняющих/расширяющих SQL стандарт и сам по себе текст стандарта SQL 2016 составляет 1732 страницы. В целом то критика в адрес SQL идёт давно, многие NoSQL продукты появлялись как раз как замена SQL и, по ощущениям, как раз с появлением dbt происходит какое-то экспоненциальное перерождение подходов к работу с этим языком.
Ссылки:
[1] https://www.fivetran.com/blog/can-sql-be-a-library-language
[2] https://hub.getdbt.com/
[3] https://www.scattered-thoughts.net/writing/against-sql
[4] https://blog.ansi.org/2018/10/sql-standard-iso-iec-9075-2016-ansi-x3-135/
#reading #sql #data
Авторы также ссылаются на статью середины прошлого года Against SQL [3] где как раз проблемы SQL четко актикулировались.
Я, кстати, также совершенно не в восторге от языка SQL, слишком много разных реализаций значительно меняющих/расширяющих SQL стандарт и сам по себе текст стандарта SQL 2016 составляет 1732 страницы. В целом то критика в адрес SQL идёт давно, многие NoSQL продукты появлялись как раз как замена SQL и, по ощущениям, как раз с появлением dbt происходит какое-то экспоненциальное перерождение подходов к работу с этим языком.
Ссылки:
[1] https://www.fivetran.com/blog/can-sql-be-a-library-language
[2] https://hub.getdbt.com/
[3] https://www.scattered-thoughts.net/writing/against-sql
[4] https://blog.ansi.org/2018/10/sql-standard-iso-iec-9075-2016-ansi-x3-135/
#reading #sql #data
Fivetran
Can SQL be a library language? | Blog | Fivetran
The time has come for the open-source software revolution to reach SQL.
Свежее европейское исследование Study on mapping data flows [1] о том как корпоративные данные хостятся и передаются в странах Европы. Используют данные Евростата, ITU и Cisco, а по итогам публикуют визуализацию на карте ЕС [2].
Визуализация, если честно, так себе, а вот исследование полезно для понимания в каких странах ЕС идёт рост строительства ЦОДов и развития облачных сервисов, а в каких их скорее нет. В лидерах, конечно, Германия, но там немало и других инсайтов.
Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/study-mapping-data-flows
[2] https://digital-strategy.ec.europa.eu/en/policies/european-data-flow-monitoring
#data #datalofw #europe #policy #research
Визуализация, если честно, так себе, а вот исследование полезно для понимания в каких странах ЕС идёт рост строительства ЦОДов и развития облачных сервисов, а в каких их скорее нет. В лидерах, конечно, Германия, но там немало и других инсайтов.
Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/study-mapping-data-flows
[2] https://digital-strategy.ec.europa.eu/en/policies/european-data-flow-monitoring
#data #datalofw #europe #policy #research
Shaping Europe’s digital future
Study on mapping data flows
The final report of the study provides a new and self-sustained methodology to estimate and monitor the volume and types of enterprise data flowing between cloud infrastructures within Europe and for investigating where data is flowing geographically across…
Voltron Data, стартап со-основанный создателем Apache Arrow, Wes McKinney, привлек $110M инвестиций [1]. Подробности стартапа не раскрывают, но он точно будет основан на базе Apache Arrow и ориентирован на обработку больших объёмов данных и, учитывая что в основателях как минимум 2 человека вовлечённых в создание продуктов на данных использующих графические процессоры [2], почти наверняка в нем будет что-то с оптимизацией обработки данных с помощью GPU.
Ссылки:
[1] https://techcrunch.com/2022/02/17/voltron-data-grabs-110m-to-build-startup-based-on-apache-arrow-project/
[2] https://voltrondata.com/news/fundinglaunch/
#startups #data #opensource
Ссылки:
[1] https://techcrunch.com/2022/02/17/voltron-data-grabs-110m-to-build-startup-based-on-apache-arrow-project/
[2] https://voltrondata.com/news/fundinglaunch/
#startups #data #opensource
TechCrunch
Voltron Data grabs $110M to build startup based on Apache Arrow project
Voltron Data was launched last year by former employees from NVidia, Ursa Computing, BlazingSQL and the co-founder of Apache Arrow. The group came together to build a company on top of Arrow to help companies that don’t want to deal with the headaches of…
Культура работы с данными, она в немелочных мелочах. Её иногда можно понять по тому в каких форматах публикуются данные или по тому насколько полно заполнено представляемые данные и как оперативно они обновляются, но то что значительно сложнее проверить и требует отраслевых знаний - это то _чего нет в опубликованных данных_, но что необходимо для аналитического и практического применения данных.
Например, во Франции Национальный институт здоровья публикует не только суммы грантов на исследования, но и ФИО основного исследователя и его ORCID [1].
Почему это важно? Потому что ORCID, в отличие от ФИО, позволяет однозначно идентифицировать человека.
А многие данные внутри государственных и муниципальных систем уже линкуют с OSM, Geonames и Wikidata. Например, Территории с надписью " Город и страна искусства и истории» региона Ile de France [2].
Если посмотреть на европейские госданные то в них много интеграции с международными авторитетными источниками. Не только с Wikidata, но и с WorldCat и др. гораздо больше ссылок на международные справочники и гораздо больше данных. Например, только данных в портале агрегаторе data.opendatasoft.com, аккумулирующего данные публикуемые органами власти Франции, около 1ТБ данных и это по предварительной оценки выкачки 75% наборов данных с этого портала.
Ссылки:
[1] https://nihr.opendatasoft.com/.../nihr-summary.../table/...
[2] https://data.iledefrance.fr/explore/dataset/vpah_idf/table/
#opendata #data #dataportals
Например, во Франции Национальный институт здоровья публикует не только суммы грантов на исследования, но и ФИО основного исследователя и его ORCID [1].
Почему это важно? Потому что ORCID, в отличие от ФИО, позволяет однозначно идентифицировать человека.
А многие данные внутри государственных и муниципальных систем уже линкуют с OSM, Geonames и Wikidata. Например, Территории с надписью " Город и страна искусства и истории» региона Ile de France [2].
Если посмотреть на европейские госданные то в них много интеграции с международными авторитетными источниками. Не только с Wikidata, но и с WorldCat и др. гораздо больше ссылок на международные справочники и гораздо больше данных. Например, только данных в портале агрегаторе data.opendatasoft.com, аккумулирующего данные публикуемые органами власти Франции, около 1ТБ данных и это по предварительной оценки выкачки 75% наборов данных с этого портала.
Ссылки:
[1] https://nihr.opendatasoft.com/.../nihr-summary.../table/...
[2] https://data.iledefrance.fr/explore/dataset/vpah_idf/table/
#opendata #data #dataportals
data.iledefrance.fr
Territoires labellisés « Ville et Pays d'art et d'histoire »
Le label « Ville et Pays d’art et d’histoire » qualifie des territoires qui, conscients des enjeux que représente l’appropriation de leur architecture et de leur patrimoine par les habitants, s’engagent dans une démarche active de connaissance, de conservation…
О том как устроена классификация данных, семантические типы, бизнес глоссарии у меня накопилось уже на большой лонгрид. Типизация данных сильно заточена под их понимание.
Пока вот такая картинка/схема того как будет устроен реестр идентификаторов/сементических типов Metacrafter registry [1].
Главная особенность описания данных в том что многие данные не могут идентифицироваться без ошибок, это принципиально невозможно в виду частой повторяемости одних и тех же форматов идентификаторов.
Частично это можно исправить задавая категории правил, зная язык (разговорный) текстов в данных и зная привязку к стране. Чтобы составить хорошие правила нужна хорошая модель идентификаторов/семантических типов с которыми они связаны, а таких моделей нет, только практики и несколько научных публикаций.
Ссылки:
[1] https://github.com/apicrafter/metacrafter-registry
#data #reading #dataunderstanding
Пока вот такая картинка/схема того как будет устроен реестр идентификаторов/сементических типов Metacrafter registry [1].
Главная особенность описания данных в том что многие данные не могут идентифицироваться без ошибок, это принципиально невозможно в виду частой повторяемости одних и тех же форматов идентификаторов.
Частично это можно исправить задавая категории правил, зная язык (разговорный) текстов в данных и зная привязку к стране. Чтобы составить хорошие правила нужна хорошая модель идентификаторов/семантических типов с которыми они связаны, а таких моделей нет, только практики и несколько научных публикаций.
Ссылки:
[1] https://github.com/apicrafter/metacrafter-registry
#data #reading #dataunderstanding
Я чувствую мне скоро придётся завести поджанр на канале "критика ГосТех". Вот например слайд из их презентации на семинаре Минспорта. Проблемы всегда не в том о чём сказано, а то о чём упущено. Классические схемы ОЭСР и Мирового банка перехода от аналога к цифре выглядит иначе, можно увидеть на картинках.
Чем отличается российский гостех? Выбрасыванием направлений "Greater transparency" и "Open by default".
Для общества это полный тупик, переход в эпоху цифрового патернализма в его плохой форме.
#data #transparency #govtech
Чем отличается российский гостех? Выбрасыванием направлений "Greater transparency" и "Open by default".
Для общества это полный тупик, переход в эпоху цифрового патернализма в его плохой форме.
#data #transparency #govtech
Для тех кто работает с данными и кому нужно регулярно кто-либо архивировать из социальных сетей, продвинутый инструмент для этой задачи - snscrape [1]. Поддерживает Faceboo, VK, Twitter, Instagram, Reddit и ещё много чего. Лучше всего архивирует данные твиттера.
Когда надо сохранить/регулярно сохранять чьи-то социальные сети - вещь незаменимая.
Работает с командной строки, написан на языке Python.
Ссылки:
[1] https://github.com/JustAnotherArchivist/snscrape
#datatools #opensource #digitalpreservation
Когда надо сохранить/регулярно сохранять чьи-то социальные сети - вещь незаменимая.
Работает с командной строки, написан на языке Python.
Ссылки:
[1] https://github.com/JustAnotherArchivist/snscrape
#datatools #opensource #digitalpreservation
GitHub
GitHub - JustAnotherArchivist/snscrape: A social networking service scraper in Python
A social networking service scraper in Python. Contribute to JustAnotherArchivist/snscrape development by creating an account on GitHub.
В блоге Pinterest история про то как они выбирали и в итоге настроили оркестратор задач на базе Airflow [1]. Пост интересный, про сложную архитектуру, реально большие данные, сложные процессы и тд.
А также там же много интересных цифр про Pinterest:
- 500 петабайт данных всего
- 600 терабайт данных ежесуточно
- 4000 workflows
- 10 000 data flows
- 38 000 ежесуточных задач в среднем
Достоинство больших проектов и крупных команд как раз в таких масштабах и решениях возникающих от сложностей подобного объема данных.
А в случае Pinterest'а ещё и интересна их архитектура связки потоков данных, развертывания кода и кластеров Kubernetes.
Ссылки:
[1] https://medium.com/pinterest-engineering/spinner-pinterests-workflow-platform-c5bbe190ba5
#opensource #bigdata #datarchitecture #datapipelines
А также там же много интересных цифр про Pinterest:
- 500 петабайт данных всего
- 600 терабайт данных ежесуточно
- 4000 workflows
- 10 000 data flows
- 38 000 ежесуточных задач в среднем
Достоинство больших проектов и крупных команд как раз в таких масштабах и решениях возникающих от сложностей подобного объема данных.
А в случае Pinterest'а ещё и интересна их архитектура связки потоков данных, развертывания кода и кластеров Kubernetes.
Ссылки:
[1] https://medium.com/pinterest-engineering/spinner-pinterests-workflow-platform-c5bbe190ba5
#opensource #bigdata #datarchitecture #datapipelines
Medium
Spinner: Pinterest’s Workflow Platform
Ace Haidrey | Software Engineer, Workflow; Ashim Shrestha | Site Reliability Engineer, Workflow; Dinghang Yu | Software Engineer, Workflow…
В рубрике большие наборы открытых данных открытые данные о химических элементах, формулах, веществах и тд.
- PubChem [1] одна из крупнейших в мире баз данных по химическим веществам с параметрами веществ и идентификаторами и описаниями из десятков источников данных. Несколько десятков гигабайт архивов экспортированных в XML файлов.
-HMDB [2] The Human Metabolome Database (HMDB) - база молекул метаболитов в человеческом теле. Общий объём, включая спектральные данные, более 20GB архива с XML файлами
- MassBank Europe [3] база спектральных масс высокого качества. Данных относительно немного, сотни мегабайт выложенных на Github
А также многие другие. В PubChem перечислено 844 источника данных [4] многие из которых включают полные дампы открытых данных.
Ссылки:
[1] https://pubchemdocs.ncbi.nlm.nih.gov/downloads
[2] https://hmdb.ca/downloads
[3] https://massbank.eu/MassBank/
[4] https://pubchem.ncbi.nlm.nih.gov/sources
#opendata #chemistry #openaccess #data #datasets
- PubChem [1] одна из крупнейших в мире баз данных по химическим веществам с параметрами веществ и идентификаторами и описаниями из десятков источников данных. Несколько десятков гигабайт архивов экспортированных в XML файлов.
-HMDB [2] The Human Metabolome Database (HMDB) - база молекул метаболитов в человеческом теле. Общий объём, включая спектральные данные, более 20GB архива с XML файлами
- MassBank Europe [3] база спектральных масс высокого качества. Данных относительно немного, сотни мегабайт выложенных на Github
А также многие другие. В PubChem перечислено 844 источника данных [4] многие из которых включают полные дампы открытых данных.
Ссылки:
[1] https://pubchemdocs.ncbi.nlm.nih.gov/downloads
[2] https://hmdb.ca/downloads
[3] https://massbank.eu/MassBank/
[4] https://pubchem.ncbi.nlm.nih.gov/sources
#opendata #chemistry #openaccess #data #datasets
massbank.eu
MassBank | MassBank Europe Mass Spectral DataBase
Для всех кто учится работать с данными и работать с SQL я рекомендую сразу начинать изучать dbt, например, по ссылкам из awesome-dbt [1] и начиная с бесплатного официального курса [2]. Пройдёт год-два максимум и dbt в России начнут повсеместно использовать, а для работы инженера-аналитика (analytics engineer) дистанционно на проект/компанию в любой стране - это будет одна из наиболее востребованных технологий.
Почему dbt? Потому что пока это наиболее развитый инструмент преобразования данных. Если в областях ETL/ELT, data orchestration, data visualization, BI и других есть масштабная конкуренция и авторы и создатели проектов регулярно пишут о том как заменить одно на другое или как отказаться от чего-либо, например, как отказаться от Airflow [3], то про dbt все пишут только о том как они заменили свои механизмы трансформации данных на dbt.
Продукт получился просто таки попаданием в яблочко, в России он мало применяется только по причине малой применимости тут других зарубежных облачных продуктов. Но важная особенность dbt что он, и облачный, и как изначальный open source продукт.
Ссылки:
[1] https://github.com/Hiflylabs/awesome-dbt
[2] https://courses.getdbt.com/collections
[3] https://blog.fal.ai/the-unbundling-of-airflow-2/
#datatools #studies #learning #sql #dbt
Почему dbt? Потому что пока это наиболее развитый инструмент преобразования данных. Если в областях ETL/ELT, data orchestration, data visualization, BI и других есть масштабная конкуренция и авторы и создатели проектов регулярно пишут о том как заменить одно на другое или как отказаться от чего-либо, например, как отказаться от Airflow [3], то про dbt все пишут только о том как они заменили свои механизмы трансформации данных на dbt.
Продукт получился просто таки попаданием в яблочко, в России он мало применяется только по причине малой применимости тут других зарубежных облачных продуктов. Но важная особенность dbt что он, и облачный, и как изначальный open source продукт.
Ссылки:
[1] https://github.com/Hiflylabs/awesome-dbt
[2] https://courses.getdbt.com/collections
[3] https://blog.fal.ai/the-unbundling-of-airflow-2/
#datatools #studies #learning #sql #dbt
GitHub
GitHub - Hiflylabs/awesome-dbt: A curated list of awesome dbt resources
A curated list of awesome dbt resources . Contribute to Hiflylabs/awesome-dbt development by creating an account on GitHub.
По итогам просмотра многих тех материалов ГосТех'а что были в открытом доступе я, пожалуй, могу сформулировать ряд конкретных проблем связанных не только с ним самим, но скорее с тем кто ставит/должен ставить задачи той команде которая им занимается:
- отсутствие стратегии. Это первая и фундаментальная проблема, заключается она в том что по многим государственным информационным системам гораздо меньшего масштаба есть как минимум концепции и стратегии, а в данном случае нет ни одного фундаментального документа к которым можно отнести стратегию, концепцию, глобальную архитектуру и так далее.
- непонимание разницы между корпорацией и государством. Ключевое отличие между корпорацией и государством в том что у государства и органов власти в частности нет клиентов, только пользователи, партнеры и стейкхолдеры. Государственные услуги - это не, то за что "клиент платит", а то что является государственной функцией и, соответственно, обязательством и невыполнение обязательств приводит к юридическим, а в демократических странах, и политическим последствиям.
- "непонимание" принципов разделения власти. Если вчитаться в Конституцию РФ то там четко расписано разделение полномочий между федеральными, региональными и муниципальными властями. При этом в России последние лет 15 как минимум, а может и дольше уже идёт ползучая технологическая унитаризация, когда федеральные власти создают информационные системы с которыми обязаны работать региональные и муниципальные власти. Всё что сейчас рассказывается в Гостех и сама идея Гостеха активно продолжается в этом направлении.
- усиление цифрового патернализма. Это вопрос уже не глупости или незнания, это вопрос идеологии. Гостех продолжается в форме услуг для граждан где в восприятии его авторов граждане - это такие ранимые субъекты государственной опеки о которых надо заботиться, холить и лелеять, по крайней мере в публичной риторике. В этом смысле Гостех мало отличается от Госуслуг, основная идея выморачивании услуг гражданам только к услугам по жизненным ситуациям, а каналы обратной связи только к жалобам. Эта модель не предполагает существования активных граждан или НКО или, даже, бизнеса взаимодействующего с органами власти в части их работы. Граждане только получают то что лица принимающие решения считают для них важным.
- отказ от усиления граждан. Вот это такой важный, а кто-то скажет что политический момент, идущий в сочетании с усилением цифрового патернализма. Усиление гражданина - это снижение информационного неравенства между ним и более сильным контрагентом. Например, для усиления гражданина как потребителя ЦБ РФ требует от банков и других финансовых организаций раскрывать довольно много информации о себе. Помогает это в финансовой грамотности? Да, помогает. А вот при госинформатизации нет требований к органам власти раскрывать сведения о том как информационные системы работают, какие данные там содержатся и многое другое. Гостех в этом смысле ничем не отличается. Несмотря на декларируемое развитие "цифрового правительства", из международного термина взяты лишь госуслуги, а большая прозрачность, открытые данные, открытые данные по умолчанию и т.д. просто игнорируются.
- отсутствие актикуляции бизнесу. Это продолжение отсутствие стратегии внедрения Гостеха. Вместо четко сформулированных тезисов о роли Гостеха в государственном ИТ, есть какие-то довольно маловнятные утверждения и выступления о его важности и ни одного четкого плана его внедрения. Я напомню что большая часть государственных информационных систем делается примерно 20-30 крупнейшими системными интеграторами и они все очень разные. Их перевод на другую платформу - это долго, дорого, сложно и малореалистично. А самое главное - даже не декларируется.
В качестве резюме, я ещё раз подчеркну что хвалить ГосТех в его текущей форме очень сложно. Можно игнорировать, можно критиковать, вопрос лишь в том кого ругать. Авторов этой затеи или тех кто должен был бы выступать их заказчиками?
#government #govtech #technology #data #transparency
- отсутствие стратегии. Это первая и фундаментальная проблема, заключается она в том что по многим государственным информационным системам гораздо меньшего масштаба есть как минимум концепции и стратегии, а в данном случае нет ни одного фундаментального документа к которым можно отнести стратегию, концепцию, глобальную архитектуру и так далее.
- непонимание разницы между корпорацией и государством. Ключевое отличие между корпорацией и государством в том что у государства и органов власти в частности нет клиентов, только пользователи, партнеры и стейкхолдеры. Государственные услуги - это не, то за что "клиент платит", а то что является государственной функцией и, соответственно, обязательством и невыполнение обязательств приводит к юридическим, а в демократических странах, и политическим последствиям.
- "непонимание" принципов разделения власти. Если вчитаться в Конституцию РФ то там четко расписано разделение полномочий между федеральными, региональными и муниципальными властями. При этом в России последние лет 15 как минимум, а может и дольше уже идёт ползучая технологическая унитаризация, когда федеральные власти создают информационные системы с которыми обязаны работать региональные и муниципальные власти. Всё что сейчас рассказывается в Гостех и сама идея Гостеха активно продолжается в этом направлении.
- усиление цифрового патернализма. Это вопрос уже не глупости или незнания, это вопрос идеологии. Гостех продолжается в форме услуг для граждан где в восприятии его авторов граждане - это такие ранимые субъекты государственной опеки о которых надо заботиться, холить и лелеять, по крайней мере в публичной риторике. В этом смысле Гостех мало отличается от Госуслуг, основная идея выморачивании услуг гражданам только к услугам по жизненным ситуациям, а каналы обратной связи только к жалобам. Эта модель не предполагает существования активных граждан или НКО или, даже, бизнеса взаимодействующего с органами власти в части их работы. Граждане только получают то что лица принимающие решения считают для них важным.
- отказ от усиления граждан. Вот это такой важный, а кто-то скажет что политический момент, идущий в сочетании с усилением цифрового патернализма. Усиление гражданина - это снижение информационного неравенства между ним и более сильным контрагентом. Например, для усиления гражданина как потребителя ЦБ РФ требует от банков и других финансовых организаций раскрывать довольно много информации о себе. Помогает это в финансовой грамотности? Да, помогает. А вот при госинформатизации нет требований к органам власти раскрывать сведения о том как информационные системы работают, какие данные там содержатся и многое другое. Гостех в этом смысле ничем не отличается. Несмотря на декларируемое развитие "цифрового правительства", из международного термина взяты лишь госуслуги, а большая прозрачность, открытые данные, открытые данные по умолчанию и т.д. просто игнорируются.
- отсутствие актикуляции бизнесу. Это продолжение отсутствие стратегии внедрения Гостеха. Вместо четко сформулированных тезисов о роли Гостеха в государственном ИТ, есть какие-то довольно маловнятные утверждения и выступления о его важности и ни одного четкого плана его внедрения. Я напомню что большая часть государственных информационных систем делается примерно 20-30 крупнейшими системными интеграторами и они все очень разные. Их перевод на другую платформу - это долго, дорого, сложно и малореалистично. А самое главное - даже не декларируется.
В качестве резюме, я ещё раз подчеркну что хвалить ГосТех в его текущей форме очень сложно. Можно игнорировать, можно критиковать, вопрос лишь в том кого ругать. Авторов этой затеи или тех кто должен был бы выступать их заказчиками?
#government #govtech #technology #data #transparency
Одна из этически спорных тем вокруг автоматизированных алгоритмов - это персонализированные цены, когда компания/сервис предоставляют конкретному пользователю цену за услугу или продукт и эта цена формируется, в том числе, на основе информации о пользователе. Это нельзя назвать алгоритмами ИИ, но это очень близко к алгоритмам скоринга по смыслу и реализации.
Mozilla и Consumers International с мая по сентябрь 2021 года проводили исследование персонализированных цен в Tinder и выяснили что в сервисе средняя цена за Tinder Plus имеет вариации в зависимости от возраста, пола и местонахождения клиента. В исследовании [1] подробно разобрано какие критерии алгоритм использует и страны в которых оно проводилось: США, Бразилия, Нидерланды, Республика Корея, Индия, Новая Зеландия.
По итогам исследователи предлагают подписать петицию [2] и усилить регулирование за подобными сервисами.
Проблема с переменными/персональными ценами уже не нова и, действительно, почти наверняка будет подвергаться регулированию во многих странах. В случае с Tinder претензия понятна - одна и та же услуга от одного и того же продавца.
Ссылки:
[1] https://assets.mofoprod.net/network/documents/Personalized_Pricing.pdf
[2] https://foundation.mozilla.org/en/blog/new-research-tinders-opaque-unfair-pricing-algorithm-can-charge-users-up-to-five-times-more-for-same-service/
#privacy #data #bigdata #ai #algorithms #mozilla
Mozilla и Consumers International с мая по сентябрь 2021 года проводили исследование персонализированных цен в Tinder и выяснили что в сервисе средняя цена за Tinder Plus имеет вариации в зависимости от возраста, пола и местонахождения клиента. В исследовании [1] подробно разобрано какие критерии алгоритм использует и страны в которых оно проводилось: США, Бразилия, Нидерланды, Республика Корея, Индия, Новая Зеландия.
По итогам исследователи предлагают подписать петицию [2] и усилить регулирование за подобными сервисами.
Проблема с переменными/персональными ценами уже не нова и, действительно, почти наверняка будет подвергаться регулированию во многих странах. В случае с Tinder претензия понятна - одна и та же услуга от одного и того же продавца.
Ссылки:
[1] https://assets.mofoprod.net/network/documents/Personalized_Pricing.pdf
[2] https://foundation.mozilla.org/en/blog/new-research-tinders-opaque-unfair-pricing-algorithm-can-charge-users-up-to-five-times-more-for-same-service/
#privacy #data #bigdata #ai #algorithms #mozilla
Должны ли историки программировать? А писатели или литературные критики? В мире довольно многое происходит в направлениях Digital Humanities и Computational Humanities, Цифровых гуманитарных наук.
В последние годы быть гуманитарием не означает что нельзя быть программистом, например, такие проекты как Programming Historian [1] помогает историкам использовать инструменты для работы с данными, подключаться к цифровым онлайн библиотекам через API, развертывать продукты по визуализации исторических данных, анализировать и распознавать тексты и многое другое.
Многие публикуют результаты своих работ как открытый код или исполнимые статьи (executable papers), например, статья Forgotten Books [2] о выживании культуры.
Digital Humanities есть и в России, есть несколько университетов с этими направлениями в обучении.
Чтобы цифровые гуманитарные науки развивались - также нужны открытые данные. Открытые данные музеев, галерей, библиотек и, в первую очередь, архивов. При этом нельзя сказать что этих данных нет, но можно говорить о том что они не публикуются.
Например, Росархив публикует исключительно административные данные [3] которые никому не нужны и не публикует даже реестры архивного фонда. А самое главное что ведомство даже не пытается выступать регулятором обеспечивающим открытость подведомственных ему государственных архивов.
Министерство культуры в России до сих пор лидер по открытию данных [4], но все мы тревожимся как долго это сохранится, учитывая смену руководства и отсутствие планов по будущему открытию данных.
Но данных много, их много в частных, общественных проектах, много в открытом доступе и возможность делать интересные проекты в этой области в России есть. Главное желание и немного технических навыков.
Ссылки:
[1] https://programminghistorian.org/
[2] https://forgotten-books.netlify.app
[3] https://archives.gov.ru/opendata
[4] https://opendata.mkrf.ru/
#opendata #digitalhumanities
В последние годы быть гуманитарием не означает что нельзя быть программистом, например, такие проекты как Programming Historian [1] помогает историкам использовать инструменты для работы с данными, подключаться к цифровым онлайн библиотекам через API, развертывать продукты по визуализации исторических данных, анализировать и распознавать тексты и многое другое.
Многие публикуют результаты своих работ как открытый код или исполнимые статьи (executable papers), например, статья Forgotten Books [2] о выживании культуры.
Digital Humanities есть и в России, есть несколько университетов с этими направлениями в обучении.
Чтобы цифровые гуманитарные науки развивались - также нужны открытые данные. Открытые данные музеев, галерей, библиотек и, в первую очередь, архивов. При этом нельзя сказать что этих данных нет, но можно говорить о том что они не публикуются.
Например, Росархив публикует исключительно административные данные [3] которые никому не нужны и не публикует даже реестры архивного фонда. А самое главное что ведомство даже не пытается выступать регулятором обеспечивающим открытость подведомственных ему государственных архивов.
Министерство культуры в России до сих пор лидер по открытию данных [4], но все мы тревожимся как долго это сохранится, учитывая смену руководства и отсутствие планов по будущему открытию данных.
Но данных много, их много в частных, общественных проектах, много в открытом доступе и возможность делать интересные проекты в этой области в России есть. Главное желание и немного технических навыков.
Ссылки:
[1] https://programminghistorian.org/
[2] https://forgotten-books.netlify.app
[3] https://archives.gov.ru/opendata
[4] https://opendata.mkrf.ru/
#opendata #digitalhumanities
opendata.mkrf.ru
Открытые данные Министерства культуры России
Открытые данные Минкультуры России
В Румынии приняли закон об открытии данных [1] в котором реализуют директиву Евросоюза (EU) 2019/1024. При том что в стране уже публикуется более 2600+ наборов данных на национальном портале открытых данных [2], теперь можно ожидать что данных будет больше.
Напомню что открытые данные Евросоюза агрегируются на портале data.europa.eu [3] и там уже почти 1.4 миллиона наборов данных, из которых не менее 3/4 - это геоданные в форматах WFS и WMS.
Ссылки:
[1] https://www.thediplomat.ro/2022/01/27/romanian-government-approved-the-law-on-open-data-and-reuse-of-public-sector-information-initiated-by-adr-and-mcid/
[2] https://data.gov.ro
[3] https://data.europa.eu/en
#opendata #datasets #eu #romania
Напомню что открытые данные Евросоюза агрегируются на портале data.europa.eu [3] и там уже почти 1.4 миллиона наборов данных, из которых не менее 3/4 - это геоданные в форматах WFS и WMS.
Ссылки:
[1] https://www.thediplomat.ro/2022/01/27/romanian-government-approved-the-law-on-open-data-and-reuse-of-public-sector-information-initiated-by-adr-and-mcid/
[2] https://data.gov.ro
[3] https://data.europa.eu/en
#opendata #datasets #eu #romania
www.thediplomat.ro
Romanian Government approved the Law on open data and reuse of public sector information, initiated by ADR and MCID