Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Инфокультура
В каталог каталогов открытых данных Datacatalogs.ru добавлены новые 9 новых каталогов. Из них 8 - это геопорталы региональных правительств, городов и научных центров, а один - это пропущенный ранее портал открытых данных Амурской области.


- Геопортал Республики Саха-Якутия https://sakhagis.ru/
- Геопортал МГИС г. Череповец МАУ "ЦМИРиТ" https://map.cmirit.ru/portal-gorod/
- Геопортал ИВМ СО РАН https://gis.krasn.ru/
- Геопортал Челябинской области https://gis.inf74.ru
- Геопортал города Выборг https://map.vbglenobl.ru/
- Геопортал города Калининграда https://geoportal.klgd.ru
- Геоинформационный портал города Владивостока https://gorod.vlc.ru
- ГИСОГД Нижегородской области https://gisogdno.ru/
- Открытые данные Амурской области https://opendata.amurobl.ru

Если Вы знаете порталы открытых данных, а также каталоги данных и геопорталы с публикацией слоёв геоданных, добавляйте их в форме на сайте или пишите нам в чате.

#opendata #datacatalogs #datasets
В рубрике интересных наборов данных данные World Values Survey [1] глобального опроса о ценностях проводимого среди жителей десятков стран. Опросы проводятся 5 летними периодами и последняя 7я волна проходила с 2017 по 2022 года. Например, опрос в России проводился в 2017 году, а в Нидерландах в 2022 году. Это делает такой анализ довольно необычным по сравнению с ежегодными исследованиями и рейтингами, а с другой стороны измеряются же фундаментальные ценности, поэтому такие периоды вполне оправданы.

Что не менее интересно и важно, все данные публикуются в машиночитаемых форматах [2] которые включают данные в CSV, SPSS, STATA и пакетами для языка R. Причём за все волны исследований, начиная с 1981 года.

Фактически основной результат исследований - это данные, их хорошо знают социологи работающие с подобными данными во многих странах.

Последнее обновление с актуальными временными рядами были опубликованы в декабре 2022 года и теперь можно визуализировать изменения в ценностях с 1981 по 2022 годы.

Ссылки:
[1] https://www.worldvaluessurvey.org
[2] https://www.worldvaluessurvey.org/WVSContents.jsp

#opendata #datasets #data
Полезное чтение про данные, технологии и не только։

Why I moved my dbt workloads to GitHub and saved over $65,000 [1] автор пишет о том что заменил облако dbt (продукт dbt cloud) на Github Actions и сэкономил много денег. Правда в комментариях ему пишут что мол автор, это же очевидно. Но про несколько важных выводом можно вспомнить։
1) Github - это теперь в первую очередь система управления разработкой и автоматизации задач и лишь во вторую хранилище кода. Как минимум с точки зрения бизнес модели.
2) Крупные инфраструктурные игроки могут достаточно легко подорвать бизнес open source сервисов вроде dbt, просто предлагая то же сильно дешевле. Кстати, пример с конфликтом лицензий Elastic тоже был из той же природы, когда Amazon давали аналогичный сервис значительно дешевле

The State of Data Testing [2] обзор состояния задач и подходов к тестированию данных. Автор сотрудник компании Datafold и текст в их блоге. Поскольку компания как раз на тестировании данных специализируется, то и акценты на их компетенциях. С другой стороны все перечисленные подходы действительно есть, а их data-diff [3] полезный продукт с открытым кодом для сравнения таблиц. Почему подходы не полны? Это всё та же ситуация с управляемыми и неуправляемыми источниками данных. Задачи корпоративной дата-инженерии чаще всего сводятся к работе с управляемыми источниками или в возможности воздействия на них в случаях ошибок в данных. Работа с общедоступными данными слишком часто означает ненадёжность источника, невозможность повлиять на качество данных привычными методами.

Ссылки:
[1] https://medium.com/@datajuls/why-i-moved-my-dbt-workloads-to-github-and-saved-over-65-000-759b37486001
[2] https://www.datafold.com/blog/the-state-of-data-testing
[3] https://github.com/datafold/data-diff

#data #readings #dataengineering #dataquality
В начале 2007 года пропала посылка, отправленная с севера Англии в Национальное контрольно-ревизионное управление (NAO) в Лондоне. В нем находились два диска с личными записями двадцати пяти миллионов человек, включая их адреса, дни рождения и номера национальной страховки, необходимые для работы в Соединенном Королевстве, которые NAO намеревалась использовать для «независимого исследования» база данных детских пособий для проверки на предполагаемое мошенничество. Вместо этого эта информация так и не была восстановлена, последовал национальный скандал, а младший чиновник, отправивший посылку, был уволен...

Познавательная статья Database States от Sanjana Varghese вышла в Baffler [1] и автор пишет о том как Великобритания превратилась в страну баз данных где собирается неимоверное число баз данных. Автор там же ссылается на доклад 2009 года с похожим названием Database State [2] подготовленную группой исследователей из Joseph Rowntree Reform Trust Ltd.

Ключевая тема в статье Sanjana Varghese о том что работа с базами данных все эти годы только нарастала, данных становится больше, они лучшего качества и они не нейтральны, иначе говоря их владельцы могут применять и специальные службы их не только по прямому назначению и этот тренд только нарастает.

Здесь я не могу не оговориться что такая ситуация не только в Великобритании, обзор нарушения приватности с помощью государственных баз данных будет актуален и для России и для многих других не только постсоветских стран.

Ссылки:
[1] https://thebaffler.com/latest/database-states-varghese
[2] https://www.cl.cam.ac.uk/~rja14/Papers/database-state.pdf

#privacy #data #government
Минцифры РФ через Гостех разродили документ МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ОРГАНИЗАЦИИ ПРОИЗВОДСТВЕННОГО ПРОЦЕССА РАЗРАБОТКИ ГОСУДАРСТВЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ С УЧЕТОМ ПРИМЕНЕНИЯ ИТЕРАЦИОННОГО ПОДХОДА К РАЗРАБОТКЕ

Он легко гуглится на Tadviser'е и других ресурсах [1].

Я о нём подробно напишу позже, чтобы бить в одну воронку надо долго прицеливаться (с). А пока вопрос с ходу - не превышает ли Минцифры свои полномочия распространяя методические рекомендации на все госконтракты и уровни государственной власти, напоминаю, они могут быть федеральные и субъектов федерации. Муниципальная власть, пока, отдельно.

Ссылки։
[1] https://www.tadviser.ru/images/1/1c/%D0%9C%D0%A0_%D0%98%D1%82%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81_%D0%93%D0%98%D0%A1.pdf

#government #tech #readings
Методические рекомендации по организации Agile/Scrum в госпроектах от команды ГосТеха и с привязкой к платформе ГосТеха — это значит что ... (можно несколько вариантов ответа)
Anonymous Poll
13%
Отличная штука! Больше эджайла и ГосТеха в жизнь госслужащих
22%
Бессмыленна, эджайл и скрум невозможны в госухе
16%
Коррупционно. Ну, мы же понимаем, там весь Гостех это лишь один вендор и мы его знаем...
6%
Хорошо бы больше, но без Гостеха, само по себе
2%
Гостех - хорошо, а методические рекомендации так себе.
12%
Минцифры много на себя берёт распространяя на других пусть с себя и начнут
16%
Нет никакого ГосТеха кроме как на бумаге и в презентациях отдельных людей
7%
Прочитал. Людей с записью "Гостех" в резюме на работу брать не буду. Поделитесь списком, кстати
11%
Да ладно Вам. Люди профессионально саботирует госинформатизацию. Молодцы же! Работают с огоньком
43%
У меня тут пиво и попкорн, так что я ничего не знаю, хочу посмотреть что другие думают
The State of Open Data Policy Repository [1] коллекция регуляторных документов в отношении открытых данных в мире собираемая Open Data Policy Lab. Плюс - мало где такие коллекции есть, я припоминаю разве что коллекции ОЭСР и OGP, минус - пока документов мало, в виде набора данных не публикуют. Совсем нет уровней Sub-national и Local, по-русски - региональные и муниципальные уровни власти. Совсем нет про открытый доступ. Но полезно даже то что там есть, а это 60 документов в общей сложности.

Ссылки։
[1] https://repository.opendatapolicylab.org/

#opendata #policies #regulation
Для тех кто находится в развивающихся странах и интересуется открытыми данными Global Data Barometer раздаёт мини гранты до $5000 [1] для проектов в странах Глобального Юга (Global South). Для тех кто не знает - это модель разделения развитых и развивающихся стран по критерию их местонахождения [2]. Термин довольно давний, часто используемый для разделения развитых и развивающихся стран. При том что есть исключения в виде Австралии которая находится в Южном Полушарии, но относится к Глобальному Северу из-за высокого уровня жизни. А также сейчас сложно относить Китай к развивающимся странам.

Тем не менее термин существует, кооперация между этими странами есть, глобальная международная помощь также присутствует, а GDB раздаёт гранты на проекты в этих странах. Из постсоветских стран к Глобальному Югу относятся։ Узбекистан, Таджикистан, Киргизия, Туркменистан. Все остальные включая Россию, Казахстан, Армению, Азербайджан, Беларусь, Украину и балтийские республики к ним отнести уже давно нельзя.

Гранты небольшие, скорее под личные просветительские проекты. Требуют знания английского языка и даются на 3 месяца с февраля по май 2023 г.


Ссылки։
[1] https://globaldatabarometer.org/2023/01/call-for-proposals-supporting-uses-of-gdb-data-to-advance-the-knowledge-on-data-for-public-good/
[2] https://en.wikipedia.org/wiki/Global_North_and_Global_South

#opendata #grants #opengov
У CitizenLab, канадской лаборатории при Университете Торонто специализирующейся на приватности вышло большое исследование-лонгрид You Move, They Follow Uncovering Iran’s Mobile Legal Intercept System [1] на основе документов электронной переписки которые им передал источник связанный с Иранским телеком-регулятором Communications Regulatory Authority of Iran (CRA).

Исследование/расследование длинное, с большим числом ссылок и подробностей, с важным акцентом на их канадского вендора PortaOne и с упоминанием ещё и британского Telinsor и российского Protei (догадаться несложно оригинальное название в кириллице).

Применительно к вендорам одна из ключевых тем исследования что "все врут", а то есть нигде не указывают сотрудничество с Иранскими компаниями, хотя, как утверждается, его осуществляют.

Другая интересная часть там - это про то как в Иране регулятор буквально встраивает своё API в системы операторов и знает о всех учётных действиях пользователя, а некоторые даже согласуются только через него, например, смена мобильного оператора.

Российской системе слежки за абонентами есть куда стремиться, хотя, может мы просто о ней недостаточно знаем.

Ссылки։
[1] https://citizenlab.ca/2023/01/uncovering-irans-mobile-legal-intercept-system/

#privacy #security #iran #surveillance
⚡️Новый сервис «Поиск по архивам» от Яндекса

Сервис помогает находить рукописные документы по ключевым словам, используя имена, фамилии, названия населённых пунктов и любые другие слова.

Сейчас в базе более 2,5 миллионов архивных документов XVIII — начала XX века из хранилищ Москвы, Оренбурга и Великого Новгорода. Чаще всего это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения.

В основе сервиса используются нейросети, способные расшифровывать архивные записи с дореволюционной орфографией.

Попробовать поиск по архивам: https://yandex.ru/archive
The State of European Tech 2022 [1] большой обзор венчурного рынка в Евросоюзе от Atomico. Тем кто интересуется привлечением и раздачей инвестиций там много интересного, тем что следит за отраслями и регулированием тоже. Например, полезно будет узнать что большинство респондентов этого обзора из числа инвесторов негативно оценивают европейские законы о защите данных и приватности, а представители академических структур и наёмные работники позитивно. Это всё к тому что европейские регуляторы явно действуют в интересах электората, а не рынка.

Но в целом там ещё много интересного, особенно про различия в восприятии инвесторов и фаундеров компаний и том как фаундеры и инвесторы меняют стратегии в ситуации сжимания объёма доступных инвестиционных средств.

Ссылки:
[1] https://stateofeuropeantech.com/

#startups
Напоминаю что в пятницу будет проходить Privacy Day 2023, на сайте доступен перечень спикеров и программа. А само мероприятие будет транслироваться на Youtube.
Мероприятие ранее проходило ежегодно в Москве, теперь организаторы сделали его международным и проходящим полностью онлайн. Так что будет интересно всем для погружения в повестку приватности не только в России.

#events #privacy
В 1 февраля 2023 года должен начаться большой глобальный проект Open Global Data Citation Corpus [1]. Это большой корпус по данным научного цитирования включающий публикации с DOI и без DOI и реализуемый в партнерстве Wellcome Trust, Chan Zuckerberg Initiative и DataCite. А также я так понимаю что туда вовлечены участники из проектов EMBL-EBI, COKI, OpenAIRE, and OpenCitations․ Это может быть весьма большим и интересным набором данных поскольку до сих пор никто такую глобальную базу не собирал. Лично мне правда интересно почему не взяли за основу OpenCitations [2], а может как раз и взяли и просто ещё не рассказали нам об этом до анонса. Главным недостатком OpenCitations как раз и было то что их база охватывала только документы с DOI, которых много, но они не все.

Ссылки։
[1] https://blog.datacite.org/data-citation-corpus-announcement-2023/
[2] https://opencitations.net/

#opendata #datasets #openaccess #openscience
У ОЭСР вышла свежая публикация по теме регионального развития Using private sector geospatial data to inform policy [1] с обзором государственно-частных партнерств по созданию продуктов на основе геоданных поставляемых и государственной геоинфраструктуры и частных поставщиков и партнеров. Документ любопытный большим числом ссылок, форматов партнерства и конкретных рассмотренных примеров из Евросоюза, Южной Кореи, Индии, Канады и других стран.

Впрочем главное в документе это не только примеры, но и институциональная рамка таких партнерств, а это Data Partnership [2], а это сотрудничество между международными организациями и технологическими компаниями, способствующее эффективному и ответственному использованию данных третьих лиц в международном развитии.

Организованное под эгидой Мирового Банка и в партнерстве со всем крупным биг тех сектором и крупнейшими "игроками рынка" международного развития.

Я об этих партнерствах писал довольно мало, хотя это важное изменение с политике крупных межгосударственных структур и по масштабам оно гораздо больше чем политика работы с открытыми данными.

Однако, возвращаясь к конкретно этому документу, геоданные являются одним из наиболее приоритетных источников партнерств потому как органы власти слишком часто не обладают ресурсами условных Google или Meta по сбору данных о каждом жителе. А для бигтеха - это возможность иметь про запасы аргументы в разговорах с регуляторами почему они не такие плохие и что слежка за всеми оправдана.

Ссылки:
[1] https://www.oecd-ilibrary.org/urban-rural-and-regional-development/using-private-sector-geospatial-data-to-inform-policy_242f51b8-en
[2] https://datapartnership.org/

#data #regulation #policies #oecd #datapartnership
В рубрике как это работает у них, шведский портал данных о COVID-19 The Swedish COVID-19 & Pandemic Preparedness Data Portal [1]. Создан командой проекта SciLifeLab [2] который, в свою очередь, создан консорциумом 4-х государственных университетов, как проект по работе с данными о науках о жизни.

На сайте одновременно есть наборы данных, результаты исследований, публикации, научные статьи и информация о идущих исследованиях и их планировании. В итоге это не только геномные данные, но и все остальные данные связанные с пандемией прямо или косвенно.

Ссылки։
[1] https://covid19dataportal.se/
[2] https://www.scilifelab.se/

#opendata #covid19 #datasets
В Open Government Partnership опубликовали доклад Broken Links: Open Data to Advance Accountability and Combat Corruption [1] где на основе результатов Global Data Barometer подсветили практики открытости по всему миру, в первую очередь в странах входящих в OGP, на постсоветском пространстве - это Латвия, Литва, Эстония, Украина, Киргизия, Грузия, Армения и Азербайджан. В данном случае у них акцент на открытости и прозрачности в контексте борьбы с коррупцией и подотчетности власти. Обзор хорош конкретными примерами, вроде украинской системы системы закупок Prozorro, или Латвийского реестра лоббистов, или изменения в регулировании Армении с раскрытием бенефициаров в реестре владельцев компаний.

В российских реалиях обзор применим только с точки зрения понимания "как всё развивается у них", Россия не входит в OGP, а для многих постсоветских и не только стран увидеть пробелы в собственной открытости.

Ссылки։
[1] https://www.opengovpartnership.org/broken-links

#opendata #opengov
Разное полезное чтение про данные, технологии и не только։

- How Misused Terminology is Damaging the Data Field - заголовок слегка провокационный, а по сути там разбор того как связаны и пересекаются термины вроде Business Intelligence, Data engineering, Data science и другие. Ценность в наглядности

- Fivetran free plan - для тех кто не знает, Fivetran - это крупнейший облачный ETL сервис, популярный среди тех кто пользуется крупнейшими облачными хранилищами, не в России в общем, и в обновлении прайс-листа они обнародовали бесплатный тариф с ограничением до 500 тысяч строк. Конкуренция среди продуктов такого типа растёт, так что шаг больше похож на вынужденный

- Whalesync: Announcing Our $1.8M Pre-Seed Round - стартап в виде ETL для контента, упоминают кучу коннекторов и интеграцию с Webflow и Wordpress. Анонсируют раунд в $1.8M что, в целом, немного для этого рынка, с одной стороны, а с другой - это pre-seed раунд.

- A Major App Flaw Exposed the Data of Millions of Indian Students - разработчики государственного индийского приложения для дистанционного обучения, Diksha, держали большие объёмы персональных данных на открытом, незащищённом сервере в облаке Azure. Этот сервер нашли исследователи безопасности, неизвестно сколько успели найти и забрать хакеры.

- 2023 Edelman Trust Barometer Reveals Business is the Only Institution Viewed as Ethical and Competent; Emerges as Ethical Force for Good in a Polarized World - это довольно интересное явление, ежегодный индекс доверия граждан к разным общественным институтам, государству, СМИ, бизнесу и др. В 2023 году резко вырос уровень доверия бизнесу причём связывают это с исходом более чем 1000 зарубежных компаний из России. Там ещё много интересного, например, растущий кризис доверия к государству. В 16 из 28 стран уровень доверия госорганам ниже 51%

- Global Renewables Watch - проект по мониторингу установок на солнечной энергии и ветровых турбин, делается Microsoft, Planet и The Nature Conservancy. Пока в private beta, интересно что будет когда откроется.

#readings
Интересная свежая научная статья The Semantic Scholar Open Data Platform [1] как видно из названия посвящена Semantic Scholar [2], огромной базе данных научных статей и научного цитирования созданная и развиваемая Allen Institute for Artificial Intelligence.

Очень интересно для всех кто занимается наукометрией и, также, в статье много подробностей о том как проект устроен внутри, исходном коде отдельных компонентов и многое другое.

Ещё интересны цифры и сравнение с другими проектами. Крупнейшая база статей на сегодняшний день Aminer [3], с оговоркой что реальный объём базы Google Scholar неизвестен.

Интересно, кстати, что такие проекты - это проекты с большой частью дата-инженерии. И, хотя там нет сверхплотных потоков ежесекундных транзакций, но решаемые задачи весьма непросты как в части сбора, так и в части обогащения данных.

Ссылки։
[1] https://www.semanticscholar.org/reader/cb92a7f9d9dbcf9145e32fdfa0e70e2a6b828eb1
[2] https://www.semanticscholar.org
[3] https://aminer.org

#readings #articles #opendata #openscience #openaccess