Ivan Begtin
7.99K subscribers
1.86K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Можно дискутировать остались ли в России открытые данные или нет. Многие, включая меня, считают что открытость сейчас под большим вопросом, другие удивляются что вообще хоть какие-то данные доступны.

Тем временем у федерального портала открытых данных data.gov.ru просрочен сертификат. Удивительно ли это ? Нет, Минэкономразвития РФ довольно сильно запустило портал, сейчас он забит бесконечным объёмом микро-файлов. Но тут важнее то что на портал просто забили, даже не отслеживая протухание сертификата.

Впрочем это не единственная проблема с этим сайтом. Например, поломался экспорт реестра наборов данных [1].

Впрочем, как я уже говорил ранее, даже если сертификат исправят и экспорт данных вылечат, фундаментальной проблемы плохой работы этого портала это не решит.

Ссылки:
[1] https://data.gov.ru/opendata/export/csv

#opendata #russia #government #opengov #closeddata
Недавно я писал про подход к переосмыслению работы с любыми унаследованными продуктами/протоколами как "всё SQL" [1]. Иногда такой подход осуществлять сложно, иногда очевидно, а вот подборка примеров когда это работает и работает успешно․

- textql [2] - утилита и библиотека на Go по работе с файлами CSV и TSV так словно это SQL таблицы. Поддерживает практически полностью синтаксис SELECT запросов.
- gitql [3] - инструмент на Go для работы с Git как с базой данных SQL. Поддерживает все хранимые в Git объекты, лог и работает в режиме только для чтения.
- q - Text as Data [4] - инструмент работы с CSV и TSV как с SQL, но написанный на Python. Также поддерживает сразу множество sqlite баз данных.
- dockersql [5] - база контейнеров для Docker как SQL, тоже на Go написано, не обновлялось уже 9 лет, но как proof-of-concept интересно. Работает поверх API Docker'а
- Yahoo! Query Language (YQL) [6] универсальный SQL-подобный язык запросов к API и CSV, RSS и другим файлам. На сайте Yahoo! его более нет, осталась только страница в Википедии и рассеянные по интернету примеры

Наверняка есть и больше примеров. В некоторых случаях это оказывается совершенно оправдано, textql, к примеру, удобный инструмент для тех кто работает с CSV файлами часто и сложным образом. Можно ли через призму этого сделать инструменты SQL для IMAP4 или SQL для FTP или SQL для файловой системы (уже есть, кстати) и иначе? Конечно возможно!

Ссылки։
[1] https://t.iss.one/begtin/4613
[2] https://github.com/dinedal/textql
[3] https://github.com/filhodanuvem/gitql
[4] https://github.com/harelba/q
[5] https://github.com/crosbymichael/dockersql
[6] https://en.wikipedia.org/wiki/Yahoo!_Query_Language

#opensource #datatools #queryengines #sql
В рубрике интересных открытых проектов Civitai [1] сообщество в котором пользователи делятся предобученными моделями для Stable Diffusion по генерации изображений самого разного типа։ людей, природы, предметов и многого другого.

Жанров много, но, что неудивительно, более всего моделей по генерации самой разнообразной эротики (на примеры ссылки давать не буду), что подталкивает к мысли что самое перспективное направление развития генеративного ИИ сейчас будет персонализированные услуги генерации изображений и видео для индустрии эротики и порнографии.

Впрочем, более невинного применения этому тоже немало и примеров подобного также немало.

Всего более 11 тысяч моделей, пока каждой из которых есть примеры изображений и файлы данных самой модели.

Проект с открытым кодом [2] и открытым API [3]


Ссылки։
[1] https://civitai.com
[2] https://github.com/civitai/civitai
[3] https://github.com/civitai/civitai/wiki/REST-API-Reference

#opendata #openapi #opensource #ai #generativeai
Свежая схема THE 2023 MAD (MACHINE LEARNING, ARTIFICIAL INTELLIGENCE & DATA) LANDSCAPE [1] в виде PDF файла и в интерактивном режиме. Выглядит любопытно, особенно интерактивная версия [2] поскольку в ней есть ссылки и дополнительная информация о продуктах.

При этом, скажу честно, я лично уже порядком устал смотреть на такие картинки, они пухнут год от года, реальной картины не дают, а скорее создают некий визуальный антураж структуре рынка.

Можно ли делать похожее по смыслу, но приятнее визуально? вот в чём вопрос.

Ссылки։
[1] https://mattturck.com/mad2023/
[2] https://mad.firstmarkcap.com/

#datamarket #datatools #dataproducts #visual
В рубрике как это работает у них портал открытых данных Шанхая (Китай) data.sa.gov.cn [1]. Я ранее уже рассказывал об открытых данных в Китае, но не рассказывал именно про этот портал.

Первая особенность портала в большом объёме данных. На нём опубликовано 4490 наборов данных. Это довольно много даже для национальных порталов открытых данных, а тут портал только города. Впрочем города с 25 миллионами населения, что немало.

Почти все данные публикуются в форме данных для структурированного хранилища и экспортируются сразу в форматах XML, XLS, JSON, CSV и RDF. По поводу RDF сразу те же сомнения что с порталом открытых данных Узбекистана, никакой привязки к онтологиям нет - это, конечно, минус.

Плюс - объём данных и частота обновления. 929 наборов данных предоставляются через API и обновляются ежесуточно.

Для полноты картины осталось посмотреть на их инструкции для разработчиков.

Ссылки:
[1] https://data.sh.gov.cn
[2] https://t.iss.one/begtin/4470

#opendata #dataportals #china #shanghai
Свежие изменения в статистическом учёте в России, депутаты внесли поправки в законопроект 285554-8 [1] и сразу приняли его во 2-м и 3-м чтении. Теперь, дословно, «Решениями Правительства Российской Федерации об актуализации (о корректировке) федерального плана статистических работ могут устанавливаться особенности доступа к официальной статистической информации, в том числе в части временного приостановления ее предоставления и распространения.».

Что это значит? Почти 100% часть статпоказателей раскрываемых в системе ЕМИСС и на сайте Росстата исчезнут и/или перестанут обновляться в открытом доступе.

Я не могу не напомнить что существует множество альтернативных способов смотреть на экономику, социальное развитие и многое другое. Для разведок доступны принципиально иные данные, для них официальная статистика будет вторична. Получается что скрывают данные не от тех кто за пределами страны, а тех кто внутри.

Хорошо ли это? Нет. Оправдано ли? Тоже нет.

Ссылки։
[1] https://sozd.duma.gov.ru/bill/285554-8

#opendata #closeddata #russia #statistics
В рубрике интересных и актуальных наборов данных, ежесуточные данные по импорту природного газа странами Евросоюза [1] публикуются исследователями из Bruegel [2] на основе данных портала прозрачности [3] от European Network of Transmission System Operators for Gas [4].
Также исследователи агрегируют данные по заполненности европейских хранилищ газа [5] природного газа. Эти данные доступны для выгрузки в CSV, JSON и XLSX и через API. Данные, также, ежесуточные.



Ссылки։
[1] https://www.bruegel.org/dataset/european-natural-gas-imports
[2] https://www.bruegel.org/
[3] https://transparency.entsog.eu/
[4] https://www.entsog.eu/
[5] https://agsi.gie.eu/

#opendata #dataset #data #eu #gas
Рекомендую последние две публикации в канале Ивана Стерлигова про то что CrossRef перестаёт работать с российскими журналами и о последствиях этого шага [1] [2]. Последствия для российских научных организаций и учёных весьма неприятные, поскольку DOI выдают, в основном, два агентства в мире, это CrossRef и DataCite. CrossRef находится в США, DataCite в Германии, и там, и там будут соблюдать санкционные требования. Понятно что некоторые российские журналы будут напрямую публиковать все материалы на Zenodo, Arxive.org и ряде других, но если это будут журналы которые будут аффилированы так или иначе с научными учреждениями или лицами под санкциями, то, вопрос только времени, когда и некоммерческие проекты могут ввести свои ограничения в виду своей юрисдикции.

Это же к вопросу о наукометрии в России, которая во многом сейчас построена на открытых базах цитирования. Много ли будет толку от этих баз если измеримость научных публикаций будет сильно ограничена? Вопрос, этот, конечно, риторический.

Я, кстати, считаю что китайские сервисы выдачи DOI тут не помогут по одной простой причине. Китайские научные власти уже давно выстраивают партнерство с большинством зарубежных агрегаторов научных публикаций и создают собственную инфраструктуру. У них, например, есть свой аналог DOI, называется CSTR, Common Science and Technology Resource Identification [3]. Он используется не только для научных статей, но и для идентификации наборов данных, диссертаций, препринтов, патентов, инструментов, проектов, научных институтов и исследователей. Огромная база с открытым API и с интеграцией с Google Scholar, Semantic Scholar, CrossRef, ORCID и другими. В Китае есть проект Science Data Bank [4] для публикации открытых наборов научных данных, это китайский аналог Zenodo, так вот он интегрирован с десятками наукометрических проектов в США и в Европе. Проект уже интегрирован с OpenAIRE, Schoolix, Google Dataset Search, Data Citation Index, DataCite и другими. И это далеко не вся китайская научная инфраструктура, она, в принципе, весьма велика и интегрирована и интегрируется в мировую научную инфраструктуру очень тесно.

Будут ли китайские власти рисковать этим всем ради взаимодействия с российскими научными организациями? Лично я буду в этом сдержанно скептичен.

Ссылки:
[1] https://t.iss.one/science_policy/833
[2] https://t.iss.one/science_policy/834
[3] https://www.cstr.cn
[4] https://www.scidb.cn/en

#opendata #openaccess #openscience #science #china #crossref #sanctions
Интересное чтение про данные, технологии и не только։
- iasql [1] инструмент с открытым кодом позволяющим из PostgreSQL работать с облачными аккаунтами как с базами данных. Забавная штука подпадающая под категорию продуктов "всё SQL", интересно они могут быть только с открытым кодом или кто-то найдёт им бизнес модель тоже?

- Introduction to Data-Centric AI [2] курс по дата-центричному ИИ, зайдёт для тех кто приходит к мысли что "наши данные для обучения ИИ дерьмо и с этим надо что-то делать", про то как разрабатывать алгоритмы от данных, а не от моделей.

- The State of Data Journalism 2023 [3] обзор состояния дата-журналистики в мире от Европейского центра журналистики. Не понимаю как они смогли сделать его таким скучным, но крупицы любопытного там тоже есть. Например, что большая часть дата-журналистов 35+, что женщины в дата-журналистике моложе мужчин, что большинство фрилансеры, что большинство самообучались, зарабатывают мало, большинство работают с открытыми данными и тд.

- SQLake [4] ещё один, на сей раз коммерческий, сервис в стиле "всё SQL", на сей раз с его помощью создаются трубы данных (data pipelines). Лично мне это кажется слегка извращённым, но любопытным как минимум. Кстати, это и часть ответа на вопрос монетизируется ли такой подход. Похоже на то что да.

- Catalog of ETL and EL-T tools [5] каталог ELT и ETL инструментов от стартапа Castor. Неплохой обзор для понимания этого рынка. Тоже стратегия, выносить внутреннюю аналитику рынка наружу как медийный бесплатный продукт, полезных ссылок там немало.

- JXC [6] структурный язык для разметки данных как развитие JSON. Выглядит интересно, хотя и не достиг даже версии 1.0. По моему опыту у JSON есть две системные проблемы։ отсутствие типа дата и время и отсутствие других типов данных. JXC частично это решает.

- tbls [7] утилита по документированию баз данных сразу в формате Github Markup. Написано на Go, с открытым кодом, выглядит любопытно, поддерживает и NoSQL тоже.


Ссылки:
[1] https://github.com/iasql/iasql
[2] https://dcai.csail.mit.edu/
[3] https://datajournalism.com/survey/2022/
[4] https://www.upsolver.com/
[5] https://notion.castordoc.com/catalog-of-etl-tools
[6] https://github.com/juddc/jxc
[7] https://github.com/k1LoW/tbls

#opensource #data #datatools #sql #ai #datajournalism
В Mozilla провели исследование приватности политик приватности мобильных приложений и сравнили с данными которые разработчики заполнили в формах в магазине приложений Google, это то что выводится как Google Data Safety labels [1].

Выводы абсолютно неутешительны, врут почти все, вот основные тезисы результатов։
- в примерно 80% рассмотренных приложений Mozilla нашли отличия между политиками приватности приложения и в той информации что была заполнена через Google’s Data Safety Form
- 16 из 40 приложений получили "Низкую" оценку, включая Minecraft, Twitter и Facebook
- 15 приложений получили среднюю оценку, "Требуются улучшения", включая YouTube, Google Maps, Gmail, WhatsApp Messenger и Instagram.
- только 6 из 40 приложений, или 15% получили оценку "Ok". Эти приложения։ Candy Crush Saga, Google Play Games, Subway Surfers, Stickman Legends Offline Games, Power Amp Full Version Unlocker и League of Stickman: 2020 Ninja.
- по трём приложениям UC Browser - Safe, Fast, Private; League of Stickman Acti и Terraria эту форму разработчики даже не заполняли

В Mozilla рекомендуют Google и Apple разработать универсальную форму для заполнения и опубликовать чёткие правила ответственности за нарушения разработчиками требований приватности.

Я бы был тут скептичен, поскольку достаточно очевидно что не так уж платформы заинтересованы в давлении на разработчиков приложений и в самоограничении собственных приложений.

Эти результаты могут, во первых дать пищу для возможных исков со стороны организаций защиты прав потребителей, поскольку здесь могут усмотреть случаи сознательного введения потребителей в заблуждение, а во вторых они демонстрируют весь спектр недостатков даже активного саморегулирования со стороны крупных платформ.

Даже когда саморегулирование не является декларативным, оно не даёт достаточной защиты потребителям/гражданам и я бы предполагал почти неизбежное ужесточение позиций регуляторов в Евросоюзе, США и ряде других стран (не в России) за предоставление недостоверной информации о реальном уровне приватности мобильных приложений.

Ссылки։
[1] https://foundation.mozilla.org/en/privacynotincluded/articles/mozilla-study-data-privacy-labels-for-most-top-apps-in-google-play-store-are-false-or-misleading/

#privacy #mobileapps #tracking
В рубрике как это работает у них, государственный портал открытых данных Чехии data.gov.cz [1].

Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.

Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.

В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много

Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/

#opendata #czech #dataportals #linkeddata #datacatalogs #europe
Можно сказать что новая концепция оценки полезности госполитик по открытости данных - это AI-Ready Open Data [1] о чём пишут исследователи из Bipartisan Policy Center․ Если кратко, то это наличие стратегии по публикации данных которые учёные и дата-сайентисты могут использовать для обучения моделей искусственного интеллекта. Например, в задачах биомедицины, распознавания образов, предсказания погоды, поиска полезных ископаемых и ещё много чего другого.

Что важно, при публикации таких данных критерии качества (зрелости) несколько иные. Например, агентство метеорологии США определяет оптимальным уровнем доступность данных одновременно для выгрузки, через API, в облаке и в виде данных-как-сервис.

Для пользователей в этом случае важна не только доступность данных, но и качество и документация.

Ссылки։
[1] https://bipartisanpolicy.org/explainer/ai-ready-open-data/
[2] https://www.star.nesdis.noaa.gov/star/documents/meetings/2020AI/presentations/202010/20201022_Christensen.pdf

#opendata #data #ai #government
Полезное чтение про данные, технологи и не только։
- ODI Fellow Report: Data institutions in China [1] обзор институтов регулирования данных и открытых данных в Китае. Любопытно хотя бы самим фактом такого обзора

- Data Institutions Register [2] в продолжение к первой ссылке, реестр институтов регулирования данных в мире собранный на сайте Open Data Institute. Правда там явный перекос в сторону UK и US, остальные страны и международные институты охвачены очень фрагментарно

- Researchers will get access to TikTok data — pending company approval [3] в ТикТок открывают API, но не для всех, а только для исследователей которых в компании одобрят. Это, конечно, уже прогресс, по сравнению с тем что ранее ТикТок был одной из наиболее закрытых соцсетей

- Measuring everything [4] практическая статья о том что понятие корпорация основанная на данных означает измерять вообще всё. А далее уже отделять какие измерения полезны, а какие нет, какие пойдут в дело, а от каких можно отказаться.

Ссылки:
[1] https://www.theodi.org/article/odi-fellow-report-data-institutions-in-china/
[2] https://www.theodi.org/article/the-data-institutions-register/
[3] https://www.theverge.com/2023/2/21/23604737/tiktok-research-api-expansion-public-user-data-transparency
[4] https://eventuallycoding.com/en/2023/02/measuring-everything

#data #readings #opendata
Ещё одна неприятная новость по открытости данных в России, с 1 января 2023 года Генеральная прокуратура перестала публиковать ежемесячную статистику преступности на портале crimestat.ru [1]. Официальная причина звучит так։ В связи с доработкой функциональности портала правовой статистики размещение статистических данных с 01.01.2023 приостановлено.

Но, при этом, дата продолжения публикация не обозначена, а других общедоступных ресурсов с хотя бы даже ежемесячным обновлением этой статистики - нет.

Для сравнения аналитика и статистика на сайте МВД всегда публиковалась в виде кратких сводок в формате PDF [2]. Причём это, конечно, не случайность, МВД вполне осознанно публиковали эти данные только в самом неудобном виде и их цифры могут (всегда?) отличаться от цифр на портале правовой статистики.

Ссылки։
[1] https://crimestat.ru
[2] https://мвд.рф/reports/item/35396677/

#opendata #datasets #closeddata #russia
Совсем свежий портал открытых данных публикуемых по стандарту Open Contracting - data.open-contracting.org [1]

Всего 103 набора данных о контрактах, закупках, планах закупок, документах к закупкам, этапах и изменениях.

Охватывает много стран, из стран постсоветского пространства это Эстония, Киргизия, Грузия, Молдавия, Латвия и Литва.

Интерфейс сайта на английском, испанском и что, немного, удивительно на русском языке. Странно также что нет данных из Украины, из системы Prozorro, как я помню это была одна из наиболее продвинутых систем по раскрытию данных в этом стандарте.

Для полного счастья не хватает только API к этому реестру, но и эти данные выглядят весьма неплохо для тематического структурированного каталога данных.

Ссылки։
[1] https://data.open-contracting.org/

#opendata #spending #contracts #datasets
В рубрике любопытных стартапов на данных и не только, Spellbook.legal [1] обещают ИИ помогающий составлять контракты, соглашения, NDA и другие юридические документы. Они не одни такие, таких стартапов сейчас всё больше. Они добывают в открытом доступе и другими способами базы таких документов и обучают ИИ писать по их подобию.

Я подозреваю что найдутся юристы кто возразит что ИИ может написать что угодно, но кому-то надо будет пойти в суд, заниматься досудебным разбирательством и тд. Поэтому всю работу корпоративных юристов это не убьёт, но может сильно сократить рынок внешних услуг написания таких текстов, и обрушить рынок труда начинающих юристов.

А что вы думаете от каких профессий нужно не то чтобы избавиться, но сильно автоматизировать и сократить?

Ссылки։
[1] https://www.spellbook.legal

#ai #legal #data #startups
Совсем забыл о том что ещё в прошлом году поучаствовал в выпуске об открытых исследовательских данных [1] подкаста «Всегда открыты» Управления научно-информационного развития и библиотечного обеспечения РАНХиГС.

Я, насколько мог, рассказывал о том как публикуются открытые научные данные в мире, какие есть проекты, какая создаётся инфраструктура, в мире конечно, не в России. Про открытость исследовательских данных я пишу тут регулярно, тема огромная, практически полностью выпавшая из российского "домена Наука" (даже язык не поворачивается назвать его госпроектом).

Ссылки։
[1] https://music.yandex.ru/album/23939131/track/110800285

#opendata #openaccess #openscience
В продолжение истории про Slack и о том что Slack добровольно урезал функциональность своего продукта российским НКО

Деятельность НКО и телекоммуникации были исключены из санкций США ещё в апреле [1], поэтому у Slack нет обязанности понижать или отключать рабочие пространства российских организаций. И действия, подобные тем, что они совершают, осудили эксперты ООН [2].

Организация Access Now [3] готова помочь российским НКО. Они уже помогают с восстановлением доступа к услугам Mailchimp. Но для разбирательства so Slack им нужно знать о как можно большем количестве случаев урезания функциональности или отключения рабочих пространств российским НКО.

Если вы представитель одной из пострадавших НКО и хотели бы восстановить утраченное и/или помочь в этом другим российским организациям, сообщите о своём случае на линию поддержки Access Now по адресу
accessnow.org/help-ru [4]

Спасибо Дмитрию Цветкову из российской организации НКО «Голоса за животных», за то что он заморочился этой темой и подготовил этот текст.

Лично я от себя добавлю что даже если ложки найти, осадок останется. Проще развернуть открытый код или создавать сообщества в Telegram/Matrix чем пользоваться Slack'ом, очень мало доверия им теперь. Но у каких-то организаций там были довольно большие сообщества и у них, можно сказать, выбора нет.

Ссылки։
[1] https://home.treasury.gov/news/press-releases/jy0722
[2] https://www.ohchr.org/en/press-releases/2022/07/russia-un-experts-condemn-civil-society-shutdown
[3] https://accessnow.org/
[4] https://accessnow.org/help-ru

#sanctions #russia #slack
Открытость - это не только данные, например, пишут что РЖД сжали все изображения в фотобанке у себя на сайте [1] до 800x533 и теперь журналисты не могут использовать оттуда изображения и вынуждены покупать другие в фотобанках или использовать какое-то одно постоянно. Вопрос тогда, а зачем РЖД фотобанк ведёт? А самое главное, почему вместо того чтобы публиковать изображения, например, под свободными лицензиями вроде Creative Commons, они наоборот превращают свою фотогалерею в бессмысленное явление на которое ещё и деньги тратят, как я полагаю. В фотобанке более 22 тысяч фотографий, так что это не маленькое изменение, а довольно существенное.

Не последний вопрос в том зачем они это делают. Это такая военная цензура по сокрытию информации об объектах критической инфраструктуры? Личная неприязнь к журналистам ? Глупость? Интенция продавать фотографии в будущем ? Как бы то ни было, идёт в копилку развития закрытости в России.

Ссылки։
[1] https://t.iss.one/today1520/3978

#russia #closeddata #photo #rzd