Я посмотрел свежее выступление Максута Шадаева (главы Минцифры РФ) на Tadviser Summit где он упоминал, в том числе, о том что Гостех это, в первую очередь, для регионов и муниципалитетов поскольку у них дублируются функции и услуги и о том что логично им всем на Гостех переходить, а с федеральными структурами работа по более сложным схемам совместных предприятий поставщиков для федеральных ИТ с Ростелекомом.
И вспомнил что это мне напоминает. Текущая российская система государственного управления построена на 3-х принципах: централизация, контроль и патернализм. Эти принципы очень заметны и в российской технологической политике. За последние 20 лет я лично наблюдал исключительно процессы их подтверждающие, с небольшими отклонениями, но в пределах погрешности.
—
Централизация всё это время заключалась в постепенном отъёме полномочий у регионов и муниципалитетов. Федеральные органы вначале всё больше забирали на себя полномочия совместного ведения, а далее и те полномочия к которым формально (по конституции) отношения они не имели. В основе этого было множество причин, но основным инструментом были многочисленные законы которые принимались в ГД в форме рамочных документов передавших регулирование исполнительной власти. Почти все крупные государственные информационные системы создавались по такой модели.
Контроль это, можно сказать, базовая ментальная модель, но и многих граждан, заключающаяся в том что если есть какая-то деятельность в котором нет государственного вмешательства, то обязательно надо как можно скорее туда вмешаться. Создав регистрацию, реестр, виды деятельности, учёт, отчётность, передав кому-то (федеральному, конечно госоргану) полномочия по надзору. Я лично не знаю ни одной страны мира в котором было бы такое количество административных реестров как в России. Буквально на каждый чих.
Патернализм это когда, если говорить простыми словами, люди во власти смотрят на простых граждан как на глупых опекаемых субъектов, а на бизнес (если он в доску не свой) как на притесняющих их упырей. Патернализм - это и есть основа существующей централизованной модели госуслуг в России, по сути отношение к малому и среднему бизнесу исключительно как к попрошайкам, а к крупному как, или встроенному в систему госуправления (коррупционными, личными или иными отношениями) или как к объектам бюджетного доения.
—
Вот эти вот три принципа и есть основная управленческая модель, через них гораздо проще и понятнее смотреть на любые речи, документы и новости связанные с гос-вом.
Например:
1. Почему Гостех хотят масштабировать на регионы и муниципалитеты? Потому что централизация. У региональных властей, кроме Москвы, значительно меньший административный вес. Конституционное право на отличия де-факто заменяется на то что "вы же все одинаковые", даже если это не только не так, но и не должно быть так в принципе.
2. Почему нацпроект "Экономика данных" скроен таким образом? Потому что: Госуслуги - патернализм, Гостех - централизация, большая часть всего остального - де-факто контроль. С исключением в виде мероприятий по развитию ИИ, которые реально к экономике данных относятся, где надо учить и развивать.
3. Почему долгое время открытые данные присутствовали в стране? Они же противоречат этим принципам. Они противоречили принципу патернализма, но использовались в принципах централизации и контроля как довод того что "граждане не имеет достаточного контроля за деятельностью местных и региональных властей". Это более-менее работало долгое время, но стало сжиматься когда заигрывание с общественным мнение стало сходить на нет. Сейчас оно тоже есть именно в связке с этими двумя принципами, но с всё большим усилением в сторону контроля за оборотом данных, потребителями, доступом к данным и так далее.
#it #government #policy #thoughts
И вспомнил что это мне напоминает. Текущая российская система государственного управления построена на 3-х принципах: централизация, контроль и патернализм. Эти принципы очень заметны и в российской технологической политике. За последние 20 лет я лично наблюдал исключительно процессы их подтверждающие, с небольшими отклонениями, но в пределах погрешности.
—
Централизация всё это время заключалась в постепенном отъёме полномочий у регионов и муниципалитетов. Федеральные органы вначале всё больше забирали на себя полномочия совместного ведения, а далее и те полномочия к которым формально (по конституции) отношения они не имели. В основе этого было множество причин, но основным инструментом были многочисленные законы которые принимались в ГД в форме рамочных документов передавших регулирование исполнительной власти. Почти все крупные государственные информационные системы создавались по такой модели.
Контроль это, можно сказать, базовая ментальная модель, но и многих граждан, заключающаяся в том что если есть какая-то деятельность в котором нет государственного вмешательства, то обязательно надо как можно скорее туда вмешаться. Создав регистрацию, реестр, виды деятельности, учёт, отчётность, передав кому-то (федеральному, конечно госоргану) полномочия по надзору. Я лично не знаю ни одной страны мира в котором было бы такое количество административных реестров как в России. Буквально на каждый чих.
Патернализм это когда, если говорить простыми словами, люди во власти смотрят на простых граждан как на глупых опекаемых субъектов, а на бизнес (если он в доску не свой) как на притесняющих их упырей. Патернализм - это и есть основа существующей централизованной модели госуслуг в России, по сути отношение к малому и среднему бизнесу исключительно как к попрошайкам, а к крупному как, или встроенному в систему госуправления (коррупционными, личными или иными отношениями) или как к объектам бюджетного доения.
—
Вот эти вот три принципа и есть основная управленческая модель, через них гораздо проще и понятнее смотреть на любые речи, документы и новости связанные с гос-вом.
Например:
1. Почему Гостех хотят масштабировать на регионы и муниципалитеты? Потому что централизация. У региональных властей, кроме Москвы, значительно меньший административный вес. Конституционное право на отличия де-факто заменяется на то что "вы же все одинаковые", даже если это не только не так, но и не должно быть так в принципе.
2. Почему нацпроект "Экономика данных" скроен таким образом? Потому что: Госуслуги - патернализм, Гостех - централизация, большая часть всего остального - де-факто контроль. С исключением в виде мероприятий по развитию ИИ, которые реально к экономике данных относятся, где надо учить и развивать.
3. Почему долгое время открытые данные присутствовали в стране? Они же противоречат этим принципам. Они противоречили принципу патернализма, но использовались в принципах централизации и контроля как довод того что "граждане не имеет достаточного контроля за деятельностью местных и региональных властей". Это более-менее работало долгое время, но стало сжиматься когда заигрывание с общественным мнение стало сходить на нет. Сейчас оно тоже есть именно в связке с этими двумя принципами, но с всё большим усилением в сторону контроля за оборотом данных, потребителями, доступом к данным и так далее.
#it #government #policy #thoughts
В рубрике как это работает у них реестр исследовательской инфраструктуры в Австрии [1]. Всего 2300 объектов среди которых десятки банков данных, порталов данных, научных репозиториев (статей, данных и тд.), тестовых лабораторий, специализированных лабораторий и устройств, обсерваторий и другой инфраструктуры.
Во многих странах такая инфраструктура существует, не во всех это столь тщательно систематизировано.
С точки зрения данных интересен список из 127 научных дата архивов, репозиториев и баз данных.
Из любопытного, по каждому объекту научной инфраструктуры присутствуют:
- условия использования
- ссылки на проводимые проекты
- ссылки на научные публикации с упоминанием.
Ссылки:
[1] https://forschungsinfrastruktur.bmbwf.gv.at/en
#openscience #openaccess #austria
Во многих странах такая инфраструктура существует, не во всех это столь тщательно систематизировано.
С точки зрения данных интересен список из 127 научных дата архивов, репозиториев и баз данных.
Из любопытного, по каждому объекту научной инфраструктуры присутствуют:
- условия использования
- ссылки на проводимые проекты
- ссылки на научные публикации с упоминанием.
Ссылки:
[1] https://forschungsinfrastruktur.bmbwf.gv.at/en
#openscience #openaccess #austria
Как Вы думаете сколько Excel файлов опубликовано на сайте российского ЦБ ? Более 18 тысяч, в форматах XLS и XLSX, даже если предположить что большая часть из них это ежемесячные файлы в повторяющейся структуре - это будет сотни-тысячи наборов данных. Сколько Excel файлов публикуется другими органами власти - сотни тысяч, причём в развитых странах, как правило, большая их часть - это не продукт ручной работы, а экспорт из внутренних систем органов власти.
Ещё когда только-только появлялись первые порталы открытых данных я говорил что собрать десятки тысяч, сотни тысяч файлов наборы данных не является сложной задачей. Сложности не в том чтобы собрать, а в том чтобы собрать полезное и поддерживать сообщество вокруг. В мире, по моим наблюдениям, это лучше всего получается во Франции и в Испании, но не только, просто везде разные акценты. В США на бесконечном объёме научных и геоданных, в Европе на геоданных и на high-value datasets и так далее.
Всё проще когда данных много в общедоступных государственных информационных системах и когда открытые данные худо-бедно существуют. Поэтому на российских общественных порталах открытых данных вроде Хаба открытых данных (hubofdata.ru) мы не стали собирать бесконечное количество Excel файлов, хотя они в наличии всегда были.
Сложнее когда этих систем мало или когда они устаревают и получить структурированные данные из них сложно. Поэтому, к примеру, портал открытых данных Армении (data.opendata.am) который мы создали включает те немногие данные что были доступны онлайн, но многие источники не в стране, а порталы вроде WorldPop или Humanitarian Data Exchange. Внутри страны открытые данные как открытые данные органами власти практически не публикуют. Мы сейчас собрали 810 наборов данных, что немало для страны с населением чуть менее 3 миллионов человек, но есть ещё много других данных
Что возвращает нас к всего лишь нескольким способам их создания:
1. Попросить у госорганов. Написать в госорганы в Армении запрос на публикацию существующих данных как открытых. Скорее всего займёт много времени и ответы в стиле "спасибо что написали, но у нас на это денег нет", что во, многом, правда.
2. Извлечь из существующих информационных систем и дата-каталогов. Их список известен (https://registry.commondata.io/country/AM) и частично это уже сделано, но данных там не так много как хотелось бы.
3. Вернуться к идее сбора Excel файлов по госсайтам и не просто парсить HTML таблицы, а собрать и систематизировать опубликованные реестры и иные данные с официальных госсайтов: правительства, министерств, служб, региональных правительств (марзов) и так далее. Это даст возможность собрать ещё несколько тысяч наборов данных.
4. Самоограничить себя до сбора high-value datasets и их размещения в открытом доступе, а то есть тех данных которые:
- обладают большим объёмом
- имеют множественное практическое применение
- хорошо визуализирутся
- весьма востребованы
Такие данные тоже есть, например, все законы в РА из системы ARLIS.
Как бы то ни было, идея в автоматизации сбора Excel файлов с сайтов органов власти меня до конца не покинула, она не то чтобы совсем проста, но не слишком сложна в реализации.
#opendata #opengov #armenia
Ещё когда только-только появлялись первые порталы открытых данных я говорил что собрать десятки тысяч, сотни тысяч файлов наборы данных не является сложной задачей. Сложности не в том чтобы собрать, а в том чтобы собрать полезное и поддерживать сообщество вокруг. В мире, по моим наблюдениям, это лучше всего получается во Франции и в Испании, но не только, просто везде разные акценты. В США на бесконечном объёме научных и геоданных, в Европе на геоданных и на high-value datasets и так далее.
Всё проще когда данных много в общедоступных государственных информационных системах и когда открытые данные худо-бедно существуют. Поэтому на российских общественных порталах открытых данных вроде Хаба открытых данных (hubofdata.ru) мы не стали собирать бесконечное количество Excel файлов, хотя они в наличии всегда были.
Сложнее когда этих систем мало или когда они устаревают и получить структурированные данные из них сложно. Поэтому, к примеру, портал открытых данных Армении (data.opendata.am) который мы создали включает те немногие данные что были доступны онлайн, но многие источники не в стране, а порталы вроде WorldPop или Humanitarian Data Exchange. Внутри страны открытые данные как открытые данные органами власти практически не публикуют. Мы сейчас собрали 810 наборов данных, что немало для страны с населением чуть менее 3 миллионов человек, но есть ещё много других данных
Что возвращает нас к всего лишь нескольким способам их создания:
1. Попросить у госорганов. Написать в госорганы в Армении запрос на публикацию существующих данных как открытых. Скорее всего займёт много времени и ответы в стиле "спасибо что написали, но у нас на это денег нет", что во, многом, правда.
2. Извлечь из существующих информационных систем и дата-каталогов. Их список известен (https://registry.commondata.io/country/AM) и частично это уже сделано, но данных там не так много как хотелось бы.
3. Вернуться к идее сбора Excel файлов по госсайтам и не просто парсить HTML таблицы, а собрать и систематизировать опубликованные реестры и иные данные с официальных госсайтов: правительства, министерств, служб, региональных правительств (марзов) и так далее. Это даст возможность собрать ещё несколько тысяч наборов данных.
4. Самоограничить себя до сбора high-value datasets и их размещения в открытом доступе, а то есть тех данных которые:
- обладают большим объёмом
- имеют множественное практическое применение
- хорошо визуализирутся
- весьма востребованы
Такие данные тоже есть, например, все законы в РА из системы ARLIS.
Как бы то ни было, идея в автоматизации сбора Excel файлов с сайтов органов власти меня до конца не покинула, она не то чтобы совсем проста, но не слишком сложна в реализации.
#opendata #opengov #armenia
В рубрике интересных наборов данных коллекция 30222 уникальных названий цветов [1]. Не тех цветов которые растут и благоухают, а тех что являются качественной субъективной характеристикой электромагнитного излучения оптического диапазона. Авторы вложили много усилий чтобы собрать названия цветов из многообразия источников и 30222 цвета - это всего лишь ~0,18% от общего пространства RGB.
Весь набор данных доступен в форматах CSV, JSON, YML, JS, HTML, SCSS, CSS и через API, всё под лицензией MIT.
Ссылки:
[1] https://github.com/meodai/color-names
#opendata #datasets #colors
Весь набор данных доступен в форматах CSV, JSON, YML, JS, HTML, SCSS, CSS и через API, всё под лицензией MIT.
Ссылки:
[1] https://github.com/meodai/color-names
#opendata #datasets #colors
Для тех кто интересуется моими регулярными постами про семантические типы данных, я выложил в открытый доступ расширенный набор правил metacrafter-rules [1] для утилиты metacrafter [2].
В расширенном наборе правил присутствуют:
- правила для идентификации интернет кодов, частых идентификаторов и дат
- множество правил для данных специфичных для России/русского языка по идентификации геолокаций, адресов, справочных кодов, разного рода госидентификаторов и так далее.
Всего правил, включая эти, расширенные, 245 из которых 143 идентифицируют по наименованию поля, а 105 по значениям в этом поле/колонке. Ещё 312 правил есть для идентификации дат во всех популярных видах и языках их написания.
Напомню что metacrafter из коробки поддерживает NoSQL и с его помощью можно идентифицировать семантические типы данных в MongoDB, а также файлах JSON, XML, JSONL, BSON. При этом табличные файлы и SQL базы данных также поддерживаются.
Ссылки:
[1] https://github.com/apicrafter/metacrafter-rules
[2] https://github.com/apicrafter/metacrafter
#opensource #datatools #data #semanticdatatypes #understandingdata
В расширенном наборе правил присутствуют:
- правила для идентификации интернет кодов, частых идентификаторов и дат
- множество правил для данных специфичных для России/русского языка по идентификации геолокаций, адресов, справочных кодов, разного рода госидентификаторов и так далее.
Всего правил, включая эти, расширенные, 245 из которых 143 идентифицируют по наименованию поля, а 105 по значениям в этом поле/колонке. Ещё 312 правил есть для идентификации дат во всех популярных видах и языках их написания.
Напомню что metacrafter из коробки поддерживает NoSQL и с его помощью можно идентифицировать семантические типы данных в MongoDB, а также файлах JSON, XML, JSONL, BSON. При этом табличные файлы и SQL базы данных также поддерживаются.
Ссылки:
[1] https://github.com/apicrafter/metacrafter-rules
[2] https://github.com/apicrafter/metacrafter
#opensource #datatools #data #semanticdatatypes #understandingdata
GitHub
GitHub - apicrafter/metacrafter-rules: Rules for metacrafter metadata identification and classfication tool
Rules for metacrafter metadata identification and classfication tool - GitHub - apicrafter/metacrafter-rules: Rules for metacrafter metadata identification and classfication tool
В том что касается всеобщей сдачи бизнесом персональных данных государству всё идет по пессимистичному сценарию, в Ведомостях статья (жаль под пэйволом) [1], о том что крупный бизнес будет обезличивать данные сам, малый бизнес будет обязан сдавать данные о клиентах на обезличивание в принудительном порядке, а заниматься всем этим обезличивание будет НИИ Восход (подвед Минцифры РФ). Я не удивлюсь что после этого сам НИИ Восход переведут какой-то из закрытых городов или ядерных бункеров, сотрудникам запретят выезд за пределы места проживания и работы и запретят доступ в интернет плюс ещё что-то из этого. Потому что такая сверхконцентрация персональных данных - это, ммм, просто вкусняшка для всех хакеров, инсайдеров и пробивщиков. В общем я ребятам не завидую вообще ни в каком виде.
Но дело не только в этом. Хотя всё пока и выглядит так что крупный бизнес смог увернуться от принудительной сдачи данных, радоваться не стоит.
Во первых история знает слишком много случаев когда поправки в законы ужесточающие нормы принимаются быстро и почти скрыто, будучи спрятанными в совершенно не связанные законопроекты.
Во вторых ничто не помешает регуляторам вводить ограничения и против крупняка, обосновав, например, крупной утечкой данных. Особенно если компания негосударственная и регулятору её надо о чём то просить, а не просто приказать.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2023/12/05/1009333-mintsifri-predusmotrelo-dva-varianta-dlya-obezlichivaniya-personalnih-dannih
#privacy #data #regulation #laws #russia
Но дело не только в этом. Хотя всё пока и выглядит так что крупный бизнес смог увернуться от принудительной сдачи данных, радоваться не стоит.
Во первых история знает слишком много случаев когда поправки в законы ужесточающие нормы принимаются быстро и почти скрыто, будучи спрятанными в совершенно не связанные законопроекты.
Во вторых ничто не помешает регуляторам вводить ограничения и против крупняка, обосновав, например, крупной утечкой данных. Особенно если компания негосударственная и регулятору её надо о чём то просить, а не просто приказать.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2023/12/05/1009333-mintsifri-predusmotrelo-dva-varianta-dlya-obezlichivaniya-personalnih-dannih
#privacy #data #regulation #laws #russia
Ведомости
Минцифры предусмотрело два варианта для обезличивания персональных данных
Крупный бизнес сможет делать это сам, малому разрешат сдавать необезличенные данные
В рубрике любопытных инструментов по работе с данными GQL [1] утилита/оболочка по доступу к Git репозиторию через SQL-подобные запросы.
Запросы могут выглядеть, например, вот так:
- SELECT name, email FROM commits WHERE name LIKE "%gmail%" ORDER BY name
- SELECT * FROM branches
Автор явно перфекционист и вложил много усилий в SQL подобный парсер и сам инструмент, который полностью на написан Rust.
Почему я обращаю внимание на подобное, потому что это один из многих примеров восприятия мира как "всё данные" в форме "со всем можно работать через SQL".
Ссылки:
[1] https://github.com/AmrDeveloper/GQL
#opensource #datatools #git
Запросы могут выглядеть, например, вот так:
- SELECT name, email FROM commits WHERE name LIKE "%gmail%" ORDER BY name
- SELECT * FROM branches
Автор явно перфекционист и вложил много усилий в SQL подобный парсер и сам инструмент, который полностью на написан Rust.
Почему я обращаю внимание на подобное, потому что это один из многих примеров восприятия мира как "всё данные" в форме "со всем можно работать через SQL".
Ссылки:
[1] https://github.com/AmrDeveloper/GQL
#opensource #datatools #git
Так уж сложилось что я уже лет десять мониторю и иногда выкладываю [1] цифры по legislative burden нормативной нагрузке нарастающей с ростом принимаемых законов и других НПА ежегодно. Так в 2022 году в России было принято 645 федеральных законов из которых 180 было принято в декабре 2022 года, а 55 было принято в ноябре 2022 года. Все эти цифры это абсолютные рекорды. Последний номер закона подписанного в ноябре 2022 года был 465-ФЗ. А вот в 2023 году за ноябрь уже принято 57 законов и номер последнего 564-ФЗ. А то есть есть хорошие шансы что до конца декабря общее число принятых законов составит 750, а это +16% к аналогичному периоду прошлого года (простите что срываюсь на этот бюрократический язык). А ещё можно и нужно замерить число указов Президента РФ, распоряжений и постановлений Правительства РФ и так далее.
Подводить итоги этого бюрократического забега и выбирать победителей по доле прироста макулатуры можно будет в январе 2024 года. Так что ожидайте, примерно в середине января всё прояснится.
P.S. Для сравнения: в Казахстане нумерация законов не внутри года, а от начала работы созывов депутатов. Например, VII созыв меджлиса принимал законы с 1 февраля 2021 года по 20 апреля 2023 года и успел принять всего 227 законов, это примерно по 8.4 закона в месяц, примерно по по 101 закон в год.
Ссылки:
[1] https://t.iss.one/begtin/3511
#laws #lawburden #data #statistics
Подводить итоги этого бюрократического забега и выбирать победителей по доле прироста макулатуры можно будет в январе 2024 года. Так что ожидайте, примерно в середине января всё прояснится.
P.S. Для сравнения: в Казахстане нумерация законов не внутри года, а от начала работы созывов депутатов. Например, VII созыв меджлиса принимал законы с 1 февраля 2021 года по 20 апреля 2023 года и успел принять всего 227 законов, это примерно по 8.4 закона в месяц, примерно по по 101 закон в год.
Ссылки:
[1] https://t.iss.one/begtin/3511
#laws #lawburden #data #statistics
Telegram
Ivan Begtin
Я каждый год подсчитываю и обновляю полуавтоматически цифры по числу постановлений и распоряжений Правительства РФ, они измеряют legislative burden, нормативную нагрузку. Неприятный факт - она растёт и усложняется. Каждый год приходится читать всё больше…
В рубрике интересных наборов данных WikiTables [1] набор данных из 1.6 миллионов таблиц извлечённых из английской Википедии и сопровождающий его набор состоящих из записей в этих таблицах слинкованными с объектами в DBPedia. Помимо того что это само по себе интересная и важная задача при создании связанного графа знаний, это ещё и огромная база для обучения разного рода алгоритмом.
Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.
Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.
Ссылки:
[1] https://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df
#readings #data #datasets #research #understandingdata #datadiscovery
Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.
Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.
Ссылки:
[1] https://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df
#readings #data #datasets #research #understandingdata #datadiscovery
www.semanticscholar.org
[PDF] TabEL: Entity Linking in Web Tables | Semantic Scholar
TabEL differs from previous work by weakening the assumption that the semantics of a table can be mapped to pre-defined types and relations found in the target KB, and enforces soft constraints in the form of a graphical model that assigns higher likelihood…
Про интересные данные в геополитике, исследование Belt and Road Reboot: Beijing’s Bid to De-Risk Its Global Infrastructure Initiative [1] с результатами анализа чуть менее 21 тысячи проектов профинансированных и поддержанных Китаем за 2000-2021 годы в 165 развивающихся странах и странах со средними доходами. К этому же отчёту набор данных AidData's Global Chinese Development Finance Dataset, Version 3.0 [2] со всеми этими данными.
Данные они распространяют в Excel, и они по формату ближе к академическим датасетам, разве что DOI нехватает.
Сами данные более чем интересные, можно найти проекты которые Китай реализует практически в любой стране мира, в Армении, Уругвае, России, Иране и так далее.
Ссылки:
[1] https://www.aiddata.org/publications/belt-and-road-reboot
[2] https://www.aiddata.org/data/aiddatas-global-chinese-development-finance-dataset-version-3-0
#opendata #international #china #readings #datasets
Данные они распространяют в Excel, и они по формату ближе к академическим датасетам, разве что DOI нехватает.
Сами данные более чем интересные, можно найти проекты которые Китай реализует практически в любой стране мира, в Армении, Уругвае, России, Иране и так далее.
Ссылки:
[1] https://www.aiddata.org/publications/belt-and-road-reboot
[2] https://www.aiddata.org/data/aiddatas-global-chinese-development-finance-dataset-version-3-0
#opendata #international #china #readings #datasets
Не могу не поделиться свежим наблюдением что большая часть тех кто занимался когда-либо открытостью данных в какой-то момент, если не меняют вид деятельности, перестают создавать сами данные и создают инструменты с помощью которых их можно готовить, публиковать, обрабатывать, анализировать и так далее. И у этого есть одно важнейшее объяснение, создавать хорошие данные дорого, если ты только не занимаешься этим постоянно или это не встроено в твой рабочий процесс (с). В более короткой версии этот тезис звучит как "создавать хорошие данные дорого" (с).
Почему так? Потому что создание любого более-менее качественного набора данных требует одновременно отраслевой и технической экспертизы. Например, разбираясь в кулинарии и аналитике можно создать датасет с ингредиентами, но без одного из этих навыков техническое или смысловое качество пострадает.
Поэтому открытость встраивают в процесс. Например, в научной среде открытые данные - это, в первую очередь, один из результатов научной деятельности наравне со статьями, тезисами, презентациями, кодом и так далее. Или открытые данные - это естественная производная от создаваемых банков данных. Аналогично для многих общественных проектов, открытые данные это дополнительный канал коммуникации с разработчиками. Данные публикуются как часть проекта или выделяются в отдельный, но во всех случаях они встроены в производственный процесс.
Собственно и большая часть усилий по убеждению правительств в публикации открытых данных всегда была не про выдумывание новых несуществующих ещё данных, а "давайте поменяем процессы так чтобы данные из государственных систем автоматически публиковались".
В общем создание хороших данных работает только если Вы создаёте данные непрерывно и можете их открыть.
Есть ли способы сделать данные более доступными? Можно пытаться снизить стоимость их производства. Например, я много экспериментировал с автоматическим созданием датасетов из бесконечного числа Excel файлов, DOCX и PDF файлов, типовых API и так далее. Извлечь данные таким образом можно, рассматривать их как качественные - нет. Часто невозможно собрать таким образом даже метаданные, описание и указание первоисточника.
Другие ищут уже опубликованные дата-файлы и пытаются интерпретировать эти находки. Как, например, в той статье о которой я упоминал и в которой авторы прошерстили Github и нашли там сотни миллионов файлов с данными.
Как бы то ни было, это известная и нерешённая проблема. И я вижу как многие уперевшиеся в неё переходят к созданию инструментов, а не датасетов.
#opendata #opensource #thoughts
Почему так? Потому что создание любого более-менее качественного набора данных требует одновременно отраслевой и технической экспертизы. Например, разбираясь в кулинарии и аналитике можно создать датасет с ингредиентами, но без одного из этих навыков техническое или смысловое качество пострадает.
Поэтому открытость встраивают в процесс. Например, в научной среде открытые данные - это, в первую очередь, один из результатов научной деятельности наравне со статьями, тезисами, презентациями, кодом и так далее. Или открытые данные - это естественная производная от создаваемых банков данных. Аналогично для многих общественных проектов, открытые данные это дополнительный канал коммуникации с разработчиками. Данные публикуются как часть проекта или выделяются в отдельный, но во всех случаях они встроены в производственный процесс.
Собственно и большая часть усилий по убеждению правительств в публикации открытых данных всегда была не про выдумывание новых несуществующих ещё данных, а "давайте поменяем процессы так чтобы данные из государственных систем автоматически публиковались".
В общем создание хороших данных работает только если Вы создаёте данные непрерывно и можете их открыть.
Есть ли способы сделать данные более доступными? Можно пытаться снизить стоимость их производства. Например, я много экспериментировал с автоматическим созданием датасетов из бесконечного числа Excel файлов, DOCX и PDF файлов, типовых API и так далее. Извлечь данные таким образом можно, рассматривать их как качественные - нет. Часто невозможно собрать таким образом даже метаданные, описание и указание первоисточника.
Другие ищут уже опубликованные дата-файлы и пытаются интерпретировать эти находки. Как, например, в той статье о которой я упоминал и в которой авторы прошерстили Github и нашли там сотни миллионов файлов с данными.
Как бы то ни было, это известная и нерешённая проблема. И я вижу как многие уперевшиеся в неё переходят к созданию инструментов, а не датасетов.
#opendata #opensource #thoughts
Свежий стандарт по публикации результатов научной деятельности в открытом доступе Cross Domain Interoperability Framework (CDIF): Discovery Module [1] создан в рамках проекта WorldFAIR [2] и охватывает самые разнообразные объекты, но, что важнее, он описывает их публикацию используя schema.org что существенно повышает их находимость для поисковиков, в первую очередь, Google, но не только. Существенная часть стандарта про публикацию наборов данных, с отсылками в другим стандартам, включая DCAT, DataCite, ISO19115, EML, FGDC CSDGM, CERIF и DDI. Странно разве что отсутствие упоминания OAI-PHM. Как бы то ни было, потенциально это новый стандарт, который может быть вскоре одобрен в ЕС.
Ссылки:
[1] https://zenodo.org/records/10252564
[2] https://worldfair-project.eu/2023/12/05/cross-domain-interoperability-framework-cdif-discovery-module-v01-draft-for-public-consultation/
#opendata #datastandards #eu #standards #data #openaccess
Ссылки:
[1] https://zenodo.org/records/10252564
[2] https://worldfair-project.eu/2023/12/05/cross-domain-interoperability-framework-cdif-discovery-module-v01-draft-for-public-consultation/
#opendata #datastandards #eu #standards #data #openaccess
Zenodo
Cross Domain Interoperability Framework (CDIF): Discovery Module (v01 draft for public consultation)
In support of the WorldFAIR project and other activities to improve the implementation of the FAIR principles, the Cross-Domain Interoperability Framework (CDIF) Working Group is producing a suite of recommendations and guidelines. The CDIF will include…
Про то как происходит постепенное принуждение к установке корневого сертификата Портала госуслуг. Картинка с сайта Федерального Казначейства.
Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.
В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.
#internet #connectivity #digitalpreservation #archives
Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.
В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.
#internet #connectivity #digitalpreservation #archives
В рубрике закрытых данных в России, из открытого доступа убрали сведения о расположении кораблей в портах [1] [2], похоже во всех, поскольку мне пока не удалось найти порт в котором бы эта информация раскрывалась на официальном сайте. А также закрыли систему "Судозаходы в РФ" [3]. Ранее сведения из "Табло портов" [4] в этой системе были общедоступны, теперь доступны только для зарегистрированных пользователей. Не могу сказать когда именно эти сведения стали скрывать, но точно в последние 2 года, поскольку ещё в октябре 2021 года они были доступны.
Хотя эти данные и не были открытыми и машиночитаемыми, в машиночитаемую форму они легко превращались.
Ссылки:
[1] https://www.mapm.ru/Port/View_TrafficShip
[2] https://bsamp.ru/port-novorossiysk-vessels.php
[3] https://portcall.marinet.ru/index.php
[4] https://portcalltable.marinet.ru/
#opendata #closeddata #russia #transport #ships #ports
Хотя эти данные и не были открытыми и машиночитаемыми, в машиночитаемую форму они легко превращались.
Ссылки:
[1] https://www.mapm.ru/Port/View_TrafficShip
[2] https://bsamp.ru/port-novorossiysk-vessels.php
[3] https://portcall.marinet.ru/index.php
[4] https://portcalltable.marinet.ru/
#opendata #closeddata #russia #transport #ships #ports
bsamp.ru
Морской порт Новороссийск - Расстановка судов в порту- Федеральное государственное бюджетное учреждение «Администрация морских…
Морской порт Новороссийск - Расстановка судов в порту - Федеральное государственное бюджетное учреждение «Администрация морских портов Черного моря».
С некоторым удивлением и лёгким ужасом я убеждаюсь что в России из НКО с активной позицией в сторону защиты граждан в отношении ИИ в РФ осталась только РПЦ. Не могу даже описать как это контрастирует с развитой частью мира. Как думаете сможет РПЦ представлять интересы общества или, всё таки, это аномалия и должны появится/возродиться правозащитные организации в этой области?
Защита прав человека в применении к ИИ в России. Кто будет этим заниматься?
Anonymous Poll
23%
РПЦ, конечно же, кто ещё
16%
Верните правозащитников инагентов, снимите с них этот статус
17%
Главная правозащитная организация в РФ - Генеральнай прокуратура!
12%
Найдутся какие-нибудь карманные болтуны из сами-знаете какой палаты, они то никуда не убежали
20%
Ещё чуть-чуть и Пр-во создаст какое-нибудь новое учреждение под такое дело
11%
Как кто?! Ашманов же!
9%
Бизнес как-нибудь сам саморегулируется, главное не мешайте...
14%
Какие права? Зачем права? У нас власть миролюбивая и человеколюбивая...
20%
Я зашёл сюда, случайно, просто посмотреть ответы
Неожиданная новость, Университет Парижа (Сорбонна) с 2024 года отказывается от подписки на проприетарный библиометрический продукт Web of Science и библиометрических продуктов от компании Clarivate в пользу открытого OpenAlex [1].
Это очень хорошая новость для проекта OpenAlex в котором собрано уже более 247 миллионов научных работ [2], а теперь и подключаются ведущие университеты.
А я не могу не напомнить что это одна из крупнейших открытых баз данных научных исследований, доступная в виде полных дампов.
Ссылки:
[1] https://www.sorbonne-universite.fr/en/news/sorbonne-university-unsubscribes-web-science
[2] https://openalex.org/stats
#openaccess #opendata #biblography
Это очень хорошая новость для проекта OpenAlex в котором собрано уже более 247 миллионов научных работ [2], а теперь и подключаются ведущие университеты.
А я не могу не напомнить что это одна из крупнейших открытых баз данных научных исследований, доступная в виде полных дампов.
Ссылки:
[1] https://www.sorbonne-universite.fr/en/news/sorbonne-university-unsubscribes-web-science
[2] https://openalex.org/stats
#openaccess #opendata #biblography
Тем временем в Евросоюзе чиновники и законодатели согласовали свежий "Закон о ИИ" [1] который уже скоро примут и туда войдут многие положения по весьма жёсткому регулированию создания, применения и эксплуатации ИИ.
В частности будет запрещена эксплуатация ИИ следующих категорий:
- системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
- нецелевое извлечение изображений лиц из Интернета или записей с камер видеонаблюдения для создания баз данных для распознавания лиц;
- распознавание эмоций на рабочем месте и в учебных заведениях;
- социальный рейтинг, основанный на социальном поведении или личных характеристиках;
- системы искусственного интеллекта, которые манипулируют поведением людей, чтобы обойти их свободную волю;
- ИИ используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).
За исключением таких задач как:
- целевые поиски жертв (похищение, торговля людьми, сексуальная эксплуатация),
- предотвращение конкретной и существующей террористической угрозы или
- локализация или идентификация лица, подозреваемого в совершении одного из конкретных преступлений
А также будут установлены требования к прозрачности ИИ продуктов и создание "песочниц" по контролем национальных властей для разработки ИИ малым и средним бизнесом без влияния глобальных корпораций.
Штрафы за нарушение могут достигать 7% от глобального оборота компании, так что последствия нарушений будут серьёзными, для многих компаний на кону может стоять принципиальное решение присутствовать или нет на рынке ЕС. Многое будет зависеть от того когда те или иные требования закона будут запланированы к исполнению.
Надо сказать что европейское регулирование резко контрастирует с отсутствием регулирования во многих странах или, к примеру, с российским регулированием в котором нет даже намёка на публичное раскрытие информации за исключением регулирования рекомендательных систем.
Ссылки:
[1] https://www.europarl.europa.eu/news/en/press-room/20231206IPR15699/artificial-intelligence-act-deal-on-comprehensive-rules-for-trustworthy-ai
#ai #eu #legislation #regulation
В частности будет запрещена эксплуатация ИИ следующих категорий:
- системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
- нецелевое извлечение изображений лиц из Интернета или записей с камер видеонаблюдения для создания баз данных для распознавания лиц;
- распознавание эмоций на рабочем месте и в учебных заведениях;
- социальный рейтинг, основанный на социальном поведении или личных характеристиках;
- системы искусственного интеллекта, которые манипулируют поведением людей, чтобы обойти их свободную волю;
- ИИ используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).
За исключением таких задач как:
- целевые поиски жертв (похищение, торговля людьми, сексуальная эксплуатация),
- предотвращение конкретной и существующей террористической угрозы или
- локализация или идентификация лица, подозреваемого в совершении одного из конкретных преступлений
А также будут установлены требования к прозрачности ИИ продуктов и создание "песочниц" по контролем национальных властей для разработки ИИ малым и средним бизнесом без влияния глобальных корпораций.
Штрафы за нарушение могут достигать 7% от глобального оборота компании, так что последствия нарушений будут серьёзными, для многих компаний на кону может стоять принципиальное решение присутствовать или нет на рынке ЕС. Многое будет зависеть от того когда те или иные требования закона будут запланированы к исполнению.
Надо сказать что европейское регулирование резко контрастирует с отсутствием регулирования во многих странах или, к примеру, с российским регулированием в котором нет даже намёка на публичное раскрытие информации за исключением регулирования рекомендательных систем.
Ссылки:
[1] https://www.europarl.europa.eu/news/en/press-room/20231206IPR15699/artificial-intelligence-act-deal-on-comprehensive-rules-for-trustworthy-ai
#ai #eu #legislation #regulation
European Parliament
Artificial Intelligence Act: deal on comprehensive rules for trustworthy AI
MEPs reached a political deal with the Council on a bill to ensure AI in Europe is safe, respects fundamental rights and democracy, while businesses can thrive and expand.
В качестве регулярного напоминания, портал открытых данных РФ (data.gov.ru) закрыт уже почти 8 месяцев, вероятность что на его месте создадут что-то другое ненулевая, вероятность что новый портал будет содержать все данные с предыдущего - нулевая.
Мы сделали дамп портала в рамках проекта Национального цифрового архива (ruarxive.org) и, хотя, большая часть данных на портале были скорее бесполезными чем необходимыми, среди опубликованных там датасетов могло быть и что-то нужное.
Полную архивную копию портала можно скачать по ссылке [1], общим объёмом в 14Gb.
Ссылки:
[1] https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
#opendata #digitalpreservation #datacatalogs #russia #data #datasets
Мы сделали дамп портала в рамках проекта Национального цифрового архива (ruarxive.org) и, хотя, большая часть данных на портале были скорее бесполезными чем необходимыми, среди опубликованных там датасетов могло быть и что-то нужное.
Полную архивную копию портала можно скачать по ссылке [1], общим объёмом в 14Gb.
Ссылки:
[1] https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
#opendata #digitalpreservation #datacatalogs #russia #data #datasets
IBM, Meta и ещё более 50 компаний и исследовательских центров создали AI Alliance [1] как Международное сообщество ведущих разработчиков, исследователей и адептов технологий, сотрудничающих вместе для продвижения открытого, безопасного и ответственного искусственного интеллекта. Туда же входят RedHat, Linux Foundation, Oracle, Intel и ещё много и много кто. Например, там есть Hugging Face, но, например, нет Kaggle, если мы говорим про крупные платформы/сообщества исследователей. Зато присутствуют Национальный научный фонд США (NSF) и NASA, единственные государственные организации на текущий момент.
Пока на сайте самого альянса мало информации [2], но явно будет больше интересного и полезного.
А самое главное что фокус усилий и действий альянса будет вокруг ИИ с открытым кодом.
Ссылки:
[1] https://newsroom.ibm.com/AI-Alliance-Launches-as-an-International-Community-of-Leading-Technology-Developers,-Researchers,-and-Adopters-Collaborating-Together-to-Advance-Open,-Safe,-Responsible-AI
[2] https://thealliance.ai
#opensource #ai
Пока на сайте самого альянса мало информации [2], но явно будет больше интересного и полезного.
А самое главное что фокус усилий и действий альянса будет вокруг ИИ с открытым кодом.
Ссылки:
[1] https://newsroom.ibm.com/AI-Alliance-Launches-as-an-International-Community-of-Leading-Technology-Developers,-Researchers,-and-Adopters-Collaborating-Together-to-Advance-Open,-Safe,-Responsible-AI
[2] https://thealliance.ai
#opensource #ai
IBM Newsroom
AI Alliance Launches as an International Community of Leading Technology Developers, Researchers, and Adopters Collaborating Together…
The AI Alliance is action oriented & decidedly international, designed to create opportunities everywhere through a diverse range of institutions that can shape the evolution of AI in ways that better reflect the needs & the complexity of our societies.