Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Ещё один шаг в сторону от открытости гос-ва в России - Госдума прекратила трансляции своей работы [1]. Казалось бы, там одни лишь не секретные темы обсуждения, казалось бы и судя по риторике депутатов работы они своей не стыдятся, казалось бы вообще-то законотворчество в принципе должно бы максимально прозрачным, казалось бы члены ГД и так все под санкциями так чего им бояться.

Хорошо ещё не закрыли систему АСОЗД с законопроектами и базы НПА, а то, вдруг ещё и окажется что и законы граждане знать будут должны только когда их по этим законам будут штрафовать или сажать.

Откручивать назад все инициативы по открытости власти - это каждый раз говорить обществу о движении к Северо-корейской модели государства.

Собственно все проблемы с открытостью гос-ва в России не в уровне открытости здесь и сейчас, а в уверенном движении по закрытию. В этом смысле многие постсоветские страны обладают куда меньшей открытостью гос-ва, данных и тд., но двигаются не против, а наоборот, в сторону большей открытости.

А я не могу не напомнить про пример того куда должна двигаться парламентская открытость в мире, проект OpenParliament.tv [2] с трансляцией заседаний парламента Германии (Бундестага) с построчной расшифровкой, поиском по тексту, открытыми данными, API и тд.

P.S. произошло это ещё в прошлом году, но как бы в этом году не закрыли ещё больше

Ссылки։
[1] https://www.vedomosti.ru/politics/articles/2022/10/19/946242-ne-mesto-dlya-translyatsii
[2] https://de.openparliament.tv/

#government #parliament #russia #openness
Полезное для тех кто постоянно работает с Pandas в наборе заметок Modern Polars [1] написанных по мотивам Modern Pandas [2]. Основная идея в том что Polars существенно быстрее и более однозначно позволяет работать с теми же данными и миграция на Polars с Pandas не является чем-то реально очень сложным. Наоборот, это довольно просто.

А также несколько полезных обзоров Polars в Towards Data Science:
- Pandas vs. Polars: A Syntax and Speed Comparison [3]
- Tips and Tricks for Working with Strings in Polars [4]
- Polars: Pandas DataFrame but Much Faster [5]

Про Polars именно сейчас особенно много пишут и как продукт он полностью подпадает под категорию
давайте сделаем продукт совместимый с продуктом лидером, но значительно быстрее.

Кроме Polars, конечно, есть ещё modin, PandaPy, datatable, Dask, PySpark, Vaex и другие. Надеюсь однажды увидеть обзор со сравнением их всех.

Ссылки։
[1] https://kevinheavey.github.io/modern-polars/
[2] https://tomaugspurger.github.io/posts/modern-8-scaling/
[3] https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e
[4] https://towardsdatascience.com/tips-and-tricks-for-working-with-strings-in-polars-ec6bb74aeec2
[5] https://towardsdatascience.com/pandas-dataframe-but-much-faster-f475d6be4cd4

#opensource #datatools
База Government Open Source Software Policies [1] опубликована CSIS, Центром стратегий и международных исследований включает описание сотен нормативных документов и стратегий правительств большинства стран мира в части внедрения открытого кода. Данные можно скачать в CSV [2], посмотреть визуально в сервисе Datawrapper [3] и посмотреть версию на Github [4] вместе с документацией.

Данные включают, в том числе, многие постсоветские страны։ РФ, Казахстан, Армения, Киргизия

По России документы упоминаются довольно давние, последний за 2010 год. По другим странам всё куда актуальнее.

Ссылки։
[1] https://www.csis.org/programs/strategic-technologies-program/government-open-source-software-policies
[2] https://csis-website-prod.s3.amazonaws.com/s3fs-public/230105_Government_Open_Source.xlsx?3OPFGJtU3MnmeMLFqDFr0WVytCpiTkXC
[3] https://datawrapper.dwcdn.net/tIMj9/41/
[4] https://github.com/github/government-open-source-policies

#opendata #opensource #policies #regulation
Ребята из Digital Rights Center и Privacy Accelerator проводят международную конференцию Privacy Day [1]. Она пройдет 27 января этого года, буквально через неделю в пятницу. Пометьте себе в календаре, конференция интересная, выступления там живые и по делу.

Я также буду там участвовать в секции Приватность во время военных действий и глобальных катастроф. Пока не знаю с презентацией или в дискуссии, но постараюсь рассказать что-то интересное.

И напомню что после очень долгих размышлений и сомнений, мы всё таки проведем день открытых данных в Москве, в сокращённом, формате - в виде онлайн, а не большой оффлайн конференции. Тем не менее там тоже будут интересные доклады, примеры и кейсы работы с данными и инструментами. Подробности будут на сайте Opendataday.ru [2] и в телеграм канале Инфокультуры [3]. День открытых данных по всему миру будет проходить 5 марта.

Ссылки։
[1] https://2023.privacyday.net/
[2] https://opendataday.ru
[3] https://t.iss.one/infoculture

#privacy #opendata #events
В рубрике открытых научных данных в России система ЕСИМО (Единая государственная система информации об обстановке в Мировом океане) [1].

Систему создавали начиная, как минимум, с 1999 года и в неё включены данные собираемые различными подведомственными структурами Росгидромета. Система финансировалась из Федеральной целевой программы Мировой океан. Только на основном портале упомянуто 2305 наборов данных.

Далеко не все данные в этой системе являются открытыми, часто они являются коллекциями ресурсов со ссылками на закрытые порталы входящие в ЕСИМО, но часть данных опубликованы и являются полностью общедоступными.

В мире во многих странах есть похожие информационные системы. Например, Portail des données marines [2] во Франции и многочисленные международные проекты и порталы.

Конкретно ЕСИМО создано на довольно старых технологиях, с одной стороны, а с другой весьма детально проработано с точки зрения управления данными. Включает метаданные, связь типов данных с конкретными наборами данных.

Ссылки:
[1] https://portal.esimo.ru
[2] https://data.ifremer.fr/

#opendata #openaccess #russia
Я сегодня потратил несколько часов смотря брифинг Чернышенко и Шадаева по поводу цифровой трансформации государства в РФ в 2022 году. И, конечно же, как и всегда важно не то что говорят, а то о чём _не говорят_. Пока слушал я делал пометки, постараюсь изложить их тут в сжатом виде.

1. Практически окончательный переход от открытости государства к цифровому патернализму. Запомните этот термин и вспоминайте его слушая про проекты государства в цифре. Развитые госуслуги - это ровно про повышение качества патернализма, государства взаимодействие с которым происходит по строго проложенным рельсам. Всё что за пределами этого оказывается далеко в не столь прекрасно поданном состоянии.
2. Единственная форма открытости которая сейчас упоминается - это присутствие госорганов с соцсетях, что можно перевести как лоббирование VK гарантированным наполнением контентом их проектов, а пиарщиков контрактами на ведение этих пабликов. Всё это никак не отражает реальную открытость. Присутствие органа власти в соцсети не означает вменяемости того что там будут писать, гарантию ответа и вообще не имеет значимого юридического эффекта.
3. Слыша про упоминание Гостеха надо задавать себе лишь один вопрос а существует ли Гостех? Если бы брифинг был настоящие, а у журналистов была бы возможность/готовность/интерес задавать реальные вопросы то ключевые вопросы очень простые։
- почему Правительство Москвы отказалось от Гостеха?
- почему Правительство Казахстана отказалось от Гостеха?
- почему до сих пор нет стратегии, концепции, архитектуры Гостеха?
Ответы отчасти риторические, хотя было бы любопытно услышать Собянина о том почему Гостех "не взлетел в Москве".
4. При этом реклама/маркетинг которым продвигают Гостеха весьма агрессивны интенсивны. Фактически, Гостех продвигают так словно он в совсем хреновом состоянии. Потому что на хороший продукт столько маркетинга, с привлечением вице-премьера, не нужно. Хороший продукт "продаёт" себя сам. А вот такое административное давление на госорганы федеральные и региональные - это демонстрация давления на сомневающихся, потому что ответственные за ИТ люди в госорганах, помимо того что просто не хотят терять контроля за ИТ системами, но ещё и понимают что потеряют контроль за их разработкой, развитием, гарантией результата и тд.
5. Меры про удержание ИТшников в России я даже не комментирую.

В качестве резюме։ выглядит это всё весьма печально. Я более 10 лет изучаю того как устроены подходы государства к цифровой трансформации и внедрении технологий и чем дальше тем больше убеждаюсь что
наблюдать за происходящим в России довольно бессмысленно. Ну или полезно только для примеров того как делать не надо.

#government #policies
Forwarded from Инфокультура
В каталог каталогов открытых данных Datacatalogs.ru добавлены новые 9 новых каталогов. Из них 8 - это геопорталы региональных правительств, городов и научных центров, а один - это пропущенный ранее портал открытых данных Амурской области.


- Геопортал Республики Саха-Якутия https://sakhagis.ru/
- Геопортал МГИС г. Череповец МАУ "ЦМИРиТ" https://map.cmirit.ru/portal-gorod/
- Геопортал ИВМ СО РАН https://gis.krasn.ru/
- Геопортал Челябинской области https://gis.inf74.ru
- Геопортал города Выборг https://map.vbglenobl.ru/
- Геопортал города Калининграда https://geoportal.klgd.ru
- Геоинформационный портал города Владивостока https://gorod.vlc.ru
- ГИСОГД Нижегородской области https://gisogdno.ru/
- Открытые данные Амурской области https://opendata.amurobl.ru

Если Вы знаете порталы открытых данных, а также каталоги данных и геопорталы с публикацией слоёв геоданных, добавляйте их в форме на сайте или пишите нам в чате.

#opendata #datacatalogs #datasets
В рубрике интересных наборов данных данные World Values Survey [1] глобального опроса о ценностях проводимого среди жителей десятков стран. Опросы проводятся 5 летними периодами и последняя 7я волна проходила с 2017 по 2022 года. Например, опрос в России проводился в 2017 году, а в Нидерландах в 2022 году. Это делает такой анализ довольно необычным по сравнению с ежегодными исследованиями и рейтингами, а с другой стороны измеряются же фундаментальные ценности, поэтому такие периоды вполне оправданы.

Что не менее интересно и важно, все данные публикуются в машиночитаемых форматах [2] которые включают данные в CSV, SPSS, STATA и пакетами для языка R. Причём за все волны исследований, начиная с 1981 года.

Фактически основной результат исследований - это данные, их хорошо знают социологи работающие с подобными данными во многих странах.

Последнее обновление с актуальными временными рядами были опубликованы в декабре 2022 года и теперь можно визуализировать изменения в ценностях с 1981 по 2022 годы.

Ссылки:
[1] https://www.worldvaluessurvey.org
[2] https://www.worldvaluessurvey.org/WVSContents.jsp

#opendata #datasets #data
Полезное чтение про данные, технологии и не только։

Why I moved my dbt workloads to GitHub and saved over $65,000 [1] автор пишет о том что заменил облако dbt (продукт dbt cloud) на Github Actions и сэкономил много денег. Правда в комментариях ему пишут что мол автор, это же очевидно. Но про несколько важных выводом можно вспомнить։
1) Github - это теперь в первую очередь система управления разработкой и автоматизации задач и лишь во вторую хранилище кода. Как минимум с точки зрения бизнес модели.
2) Крупные инфраструктурные игроки могут достаточно легко подорвать бизнес open source сервисов вроде dbt, просто предлагая то же сильно дешевле. Кстати, пример с конфликтом лицензий Elastic тоже был из той же природы, когда Amazon давали аналогичный сервис значительно дешевле

The State of Data Testing [2] обзор состояния задач и подходов к тестированию данных. Автор сотрудник компании Datafold и текст в их блоге. Поскольку компания как раз на тестировании данных специализируется, то и акценты на их компетенциях. С другой стороны все перечисленные подходы действительно есть, а их data-diff [3] полезный продукт с открытым кодом для сравнения таблиц. Почему подходы не полны? Это всё та же ситуация с управляемыми и неуправляемыми источниками данных. Задачи корпоративной дата-инженерии чаще всего сводятся к работе с управляемыми источниками или в возможности воздействия на них в случаях ошибок в данных. Работа с общедоступными данными слишком часто означает ненадёжность источника, невозможность повлиять на качество данных привычными методами.

Ссылки:
[1] https://medium.com/@datajuls/why-i-moved-my-dbt-workloads-to-github-and-saved-over-65-000-759b37486001
[2] https://www.datafold.com/blog/the-state-of-data-testing
[3] https://github.com/datafold/data-diff

#data #readings #dataengineering #dataquality
В начале 2007 года пропала посылка, отправленная с севера Англии в Национальное контрольно-ревизионное управление (NAO) в Лондоне. В нем находились два диска с личными записями двадцати пяти миллионов человек, включая их адреса, дни рождения и номера национальной страховки, необходимые для работы в Соединенном Королевстве, которые NAO намеревалась использовать для «независимого исследования» база данных детских пособий для проверки на предполагаемое мошенничество. Вместо этого эта информация так и не была восстановлена, последовал национальный скандал, а младший чиновник, отправивший посылку, был уволен...

Познавательная статья Database States от Sanjana Varghese вышла в Baffler [1] и автор пишет о том как Великобритания превратилась в страну баз данных где собирается неимоверное число баз данных. Автор там же ссылается на доклад 2009 года с похожим названием Database State [2] подготовленную группой исследователей из Joseph Rowntree Reform Trust Ltd.

Ключевая тема в статье Sanjana Varghese о том что работа с базами данных все эти годы только нарастала, данных становится больше, они лучшего качества и они не нейтральны, иначе говоря их владельцы могут применять и специальные службы их не только по прямому назначению и этот тренд только нарастает.

Здесь я не могу не оговориться что такая ситуация не только в Великобритании, обзор нарушения приватности с помощью государственных баз данных будет актуален и для России и для многих других не только постсоветских стран.

Ссылки:
[1] https://thebaffler.com/latest/database-states-varghese
[2] https://www.cl.cam.ac.uk/~rja14/Papers/database-state.pdf

#privacy #data #government
Минцифры РФ через Гостех разродили документ МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ОРГАНИЗАЦИИ ПРОИЗВОДСТВЕННОГО ПРОЦЕССА РАЗРАБОТКИ ГОСУДАРСТВЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ С УЧЕТОМ ПРИМЕНЕНИЯ ИТЕРАЦИОННОГО ПОДХОДА К РАЗРАБОТКЕ

Он легко гуглится на Tadviser'е и других ресурсах [1].

Я о нём подробно напишу позже, чтобы бить в одну воронку надо долго прицеливаться (с). А пока вопрос с ходу - не превышает ли Минцифры свои полномочия распространяя методические рекомендации на все госконтракты и уровни государственной власти, напоминаю, они могут быть федеральные и субъектов федерации. Муниципальная власть, пока, отдельно.

Ссылки։
[1] https://www.tadviser.ru/images/1/1c/%D0%9C%D0%A0_%D0%98%D1%82%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81_%D0%93%D0%98%D0%A1.pdf

#government #tech #readings
Методические рекомендации по организации Agile/Scrum в госпроектах от команды ГосТеха и с привязкой к платформе ГосТеха — это значит что ... (можно несколько вариантов ответа)
Anonymous Poll
13%
Отличная штука! Больше эджайла и ГосТеха в жизнь госслужащих
22%
Бессмыленна, эджайл и скрум невозможны в госухе
16%
Коррупционно. Ну, мы же понимаем, там весь Гостех это лишь один вендор и мы его знаем...
6%
Хорошо бы больше, но без Гостеха, само по себе
2%
Гостех - хорошо, а методические рекомендации так себе.
12%
Минцифры много на себя берёт распространяя на других пусть с себя и начнут
16%
Нет никакого ГосТеха кроме как на бумаге и в презентациях отдельных людей
7%
Прочитал. Людей с записью "Гостех" в резюме на работу брать не буду. Поделитесь списком, кстати
11%
Да ладно Вам. Люди профессионально саботирует госинформатизацию. Молодцы же! Работают с огоньком
43%
У меня тут пиво и попкорн, так что я ничего не знаю, хочу посмотреть что другие думают
The State of Open Data Policy Repository [1] коллекция регуляторных документов в отношении открытых данных в мире собираемая Open Data Policy Lab. Плюс - мало где такие коллекции есть, я припоминаю разве что коллекции ОЭСР и OGP, минус - пока документов мало, в виде набора данных не публикуют. Совсем нет уровней Sub-national и Local, по-русски - региональные и муниципальные уровни власти. Совсем нет про открытый доступ. Но полезно даже то что там есть, а это 60 документов в общей сложности.

Ссылки։
[1] https://repository.opendatapolicylab.org/

#opendata #policies #regulation
Для тех кто находится в развивающихся странах и интересуется открытыми данными Global Data Barometer раздаёт мини гранты до $5000 [1] для проектов в странах Глобального Юга (Global South). Для тех кто не знает - это модель разделения развитых и развивающихся стран по критерию их местонахождения [2]. Термин довольно давний, часто используемый для разделения развитых и развивающихся стран. При том что есть исключения в виде Австралии которая находится в Южном Полушарии, но относится к Глобальному Северу из-за высокого уровня жизни. А также сейчас сложно относить Китай к развивающимся странам.

Тем не менее термин существует, кооперация между этими странами есть, глобальная международная помощь также присутствует, а GDB раздаёт гранты на проекты в этих странах. Из постсоветских стран к Глобальному Югу относятся։ Узбекистан, Таджикистан, Киргизия, Туркменистан. Все остальные включая Россию, Казахстан, Армению, Азербайджан, Беларусь, Украину и балтийские республики к ним отнести уже давно нельзя.

Гранты небольшие, скорее под личные просветительские проекты. Требуют знания английского языка и даются на 3 месяца с февраля по май 2023 г.


Ссылки։
[1] https://globaldatabarometer.org/2023/01/call-for-proposals-supporting-uses-of-gdb-data-to-advance-the-knowledge-on-data-for-public-good/
[2] https://en.wikipedia.org/wiki/Global_North_and_Global_South

#opendata #grants #opengov
У CitizenLab, канадской лаборатории при Университете Торонто специализирующейся на приватности вышло большое исследование-лонгрид You Move, They Follow Uncovering Iran’s Mobile Legal Intercept System [1] на основе документов электронной переписки которые им передал источник связанный с Иранским телеком-регулятором Communications Regulatory Authority of Iran (CRA).

Исследование/расследование длинное, с большим числом ссылок и подробностей, с важным акцентом на их канадского вендора PortaOne и с упоминанием ещё и британского Telinsor и российского Protei (догадаться несложно оригинальное название в кириллице).

Применительно к вендорам одна из ключевых тем исследования что "все врут", а то есть нигде не указывают сотрудничество с Иранскими компаниями, хотя, как утверждается, его осуществляют.

Другая интересная часть там - это про то как в Иране регулятор буквально встраивает своё API в системы операторов и знает о всех учётных действиях пользователя, а некоторые даже согласуются только через него, например, смена мобильного оператора.

Российской системе слежки за абонентами есть куда стремиться, хотя, может мы просто о ней недостаточно знаем.

Ссылки։
[1] https://citizenlab.ca/2023/01/uncovering-irans-mobile-legal-intercept-system/

#privacy #security #iran #surveillance
⚡️Новый сервис «Поиск по архивам» от Яндекса

Сервис помогает находить рукописные документы по ключевым словам, используя имена, фамилии, названия населённых пунктов и любые другие слова.

Сейчас в базе более 2,5 миллионов архивных документов XVIII — начала XX века из хранилищ Москвы, Оренбурга и Великого Новгорода. Чаще всего это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения.

В основе сервиса используются нейросети, способные расшифровывать архивные записи с дореволюционной орфографией.

Попробовать поиск по архивам: https://yandex.ru/archive
The State of European Tech 2022 [1] большой обзор венчурного рынка в Евросоюзе от Atomico. Тем кто интересуется привлечением и раздачей инвестиций там много интересного, тем что следит за отраслями и регулированием тоже. Например, полезно будет узнать что большинство респондентов этого обзора из числа инвесторов негативно оценивают европейские законы о защите данных и приватности, а представители академических структур и наёмные работники позитивно. Это всё к тому что европейские регуляторы явно действуют в интересах электората, а не рынка.

Но в целом там ещё много интересного, особенно про различия в восприятии инвесторов и фаундеров компаний и том как фаундеры и инвесторы меняют стратегии в ситуации сжимания объёма доступных инвестиционных средств.

Ссылки:
[1] https://stateofeuropeantech.com/

#startups