Ivan Begtin
8.1K subscribers
2.02K photos
3 videos
102 files
4.75K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
July 4, 2022
На один из наших проектов связанных с работой с большими открытыми данными есть потребность в бэкенд разработчике на Python, работа в России, в Москве.

Работа не для джунов, нужен опыт с чистым Python, Postgres и MongoDB. Проект интересный и сложный. Если готовы работать сами или можете порекомендовать, то сделать это можно вот тут https://hh.ru/vacancy/66696558

#vacancies #projects
July 4, 2022
July 4, 2022
Полезное чтение про данные и госполитику в этой области
- Understanding Criminal Justice Innovations [1] за авторством Meghan J. Ryan о том как применение технологий меняет подходы к борьбе с преступностью и о "темной стороне" их применения. Ничего радикального нового, но хорошо систематизировано. В основном опыт США.

- Narrowing the data gap: World Bank and Microsoft commit to unlocking better development outcomes for persons with disabilities [2] в блоге Microsoft о их сотрудничестве с Мировым Банком для помощи людям с ограниченными возможностями в развивающихся странах. Про создание "disability data hub". Интересно почему тут нет ещё и UNDP, но может быть появятся на какой-то следующей стадии.

- Better Data Sharing for Benefits Delivery [3] о том как необходимо развивать практику обмена данными для лучшей помощи незащищённым социальным группам. В контексте регулирования в США и помощи пострадавшим от COVID-19

- We need smarter cities, not “smart cities” [4] о том что нужны более-умные города, а не умные города. Статья описывает разницу между человекоцентричным и пользовательско- / клиентско- центричным технократическим подходом. Статья рекламирует программу UNDP UrbanShift [5] в которой участвует много городов Глобального Юга.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4136813
[2] https://blogs.microsoft.com/blog/2022/06/15/narrowing-the-data-gap-world-bank-and-microsoft-commit-to-unlocking-better-development-outcomes-for-persons-with-disabilities/
[3] https://www.newamerica.org/oti/briefs/better-data-sharing-for-benefits-delivery/
[4] https://www.technologyreview.com/2022/06/27/1053896/we-need-smarter-cities/
[5] https://www.shiftcities.org/

#data #readings
July 4, 2022
Я, честно говоря, уже перестаю удивляться во что превратился реестр ИТ компаний. Теперь туда внесли ещё и Альфа-Банк [1].

Да внесите туда уже весь бизнес, ну право слово. В каждой компании есть хотя бы один "ИТшник". Хотя бы выглядеть будет не так странно, как внесение туда всех кого только можно.

Ссылки:
[1] https://tass.ru/ekonomika/15119991

#itmarket
July 4, 2022
Тут с 1-го июля pravo.gov.ru стал единственным официальным информационно-правовым ресурсом, потому что вступил в силу указ Пр-та РФ от 03.03.2022 № 90 [1].

Ключевое слово тут единственным поскольку ранее федеральные законы публиковались, также, в Российской Газете, видимо, РГ более не будет получать на это государственную субсидию и на сайте РГ более не будет обязательной публикации федеральных законов.

Другое изменение - это появление раздела "Тексты правовых актов с внесёнными изменениями" [2]. В остальном, на самом деле, в этой новости не так много хорошего потому что ФСО, управляющее pravo.gov.ru, это силовое, а не правовое ведомство, с высокой степенью закрытости даже в части их публичных полномочий.

Я напомню несколько важных фактов:
1. Наиболее актуальные тексты официально опубликованных документов на publication.pravo.gov.ru необосновано публикуются в виде сканов. У этого нет никаких обоснований, кроме нежелания публиковать их удобным образом для пользователей.
2. На pravo.gov.ru отсутствуют открытые данные. Когда-то, года 4 назад, они ещё были. Неудобные для работы, но хоть как-то. Потом все наборы данных убрали и оставили только API с существенными ограничениями на поиск и число запросов.
3. Мало кто знает, но власти субъектов федерации не обязаны публиковать свои НПА на pravo.gov.ru, они публикуют их только если заключили соглашение с ФСО России (вернее с их подведом). Например, НПА органов власти Москвы в publication.pravo.gov.ru отсутствуют [3]. Я писал об этом в марте 2021 года [4]

Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202203030006?index=0&rangeSize=1
[2] https://actual.pravo.gov.ru/
[3] https://publication.pravo.gov.ru/SignatoryAuthority/region77
[4] https://t.iss.one/begtin/2656

#opendata #laws #lawmaking
July 5, 2022
Тем временем в Казахстане, в отличие от России, продолжает развиваться повестка открытости гос-ва и сам факт открытости диалога власти - это хороший признак такого развития.

Но есть и то за кто можно коллег из Казахстана покритиковать. Портал открытых данных РК data.egov.kz хотя и называется порталом открытых данных, но по факту таким не является. Помимо того что нет чётко сформулированных условий использования для каждого набора данных, таких как Creative Commons или ODBl, важно то что данные невозможно скачать без регистрации через государственный портал требующий местного кода ИИН. Фактически данные доступны только жителям республики и только после однозначной идентификации. Это противоречит принципам доступности открытых данных.

#opendata #kazakhstan
July 5, 2022
July 5, 2022
Для тех кто следит за тем как развивается рынок данных в мире.

Полезные материалы с конференции Databricks AI, часть 1 и часть 2․ А также оттуда же разбор про Spark Connect.

Всё это весьма далеко, конечно, от российской реальности, но полезно всем тем кто продолжает работать с глобальными облачными провайдерами сервисов работы с данными.

#dataengineering #data #clouds
July 5, 2022
July 5, 2022
July 6, 2022
July 7, 2022
В продолжение предыдущего я ранее писал что разные части наших продуктов APICrafter и Datacrafter мы выложили с открытый доступ [1]

Сейчас они используются для сборки нескольких дата-продуктов и появилась возможность выложить несколько новых примеров и актуализировать код открытых репозиториев.

В репозитории datacrafter-examples [2] появились 3 новых примера:
- itbenef - реестр ИТ компаний получателей налоговых субсидий
- itregistry - реестр аккредитованных ИТ компаний
- softreg - реестр отечественного ПО

Вместо того чтобы размещать сами наборы данных, публикую код с помощью которого они создаются. Потому что первоисточники акцента на данных не делают, данные обычно в Excel форматах или не них нет прямой ссылки. Ну и, конечно, никакие новые полезные данные на госпорталах с открытыми данными вроде data.gov.ru не появляются.

Они все используют в качестве источников данные с сайта Минцифры РФ и их информационных систем.

Для запуска достаточно установить datacrafter [3] и выполнить команду 'datacrafter run' в директориях с файлами проектов "datacrafter.yml"

Причём надо использовать последний код из репозитория поскольку в нем как раз исправлены ошибки обработки Excel файлов.

datacrafter - это пока упрощённая, а далее усложняемая NoSQL утилита для задач ETL, по извлечению обработке и загрузке данных.

По умолчанию все данные там рассматриваются как JSON/JSON lines и сама утилита включает возможности преобразования плоских файлов в эти форматы.

Если найдете ошибки, пишите их в issues репозиториев.

Ссылки:
[1] https://github.com/apicrafter
[2] https://github.com/apicrafter/datacrafter-examples
[3] https://github.com/apicrafter/datacrafter

#opensource #datatools
July 7, 2022
July 8, 2022
image_2022-07-07_20-43-04.png
249.7 KB
July 8, 2022
Познавательная статья в Wired [1] о том что системы предсказаний преступлений не работают так как этого ожидают, поскольку объекты их измерений, люди и территории, меняются, а системы обучают на данных прошлого. В результате отдельные территории могут отмечаться как рискованные, а отдельные люди как склонные к преступной жизни, даже если социальные условия уже изменились.

Ответов в статье нет, впрочем у меня тоже нет. Более развитые алгоритмы могут нарушать приватность настолько насколько мы найдем это запредельным. Прекрасно поданные миры отражённые в Черном зеркале или Мире дикого запада - это примеры ИИ собирающих данные о всех в непрерывном режиме. К чему сейчас нет никакой социальной готовности, хотя всех и пугает готовность технологическая.

Ссылки:
[1] https://www.wired.com/story/crime-prediction-racist-history/

#privacy #crime #crimeprediction
July 8, 2022
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
July 8, 2022
July 8, 2022