Ivan Begtin
8.03K subscribers
1.94K photos
3 videos
102 files
4.65K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Data is good
The Perils of Predictive Policing
https://towardsdatascience.com/the-perils-of-predictive-policing-11928a9f1d60?source=rss----7f60cf5620c9---4

### Data Science gone wrong: Predictive Policing is a WMD

See the **interactive map** with the prediction results
[here.](https://orlandott.github.io/Predictive_Policing/)

![](https://cdn-images-1.medium.com/max/1024/1*VCh6gjUWHkFLnliQDQOR9w.png)
Click the link above to see the interactive map.

For the **code** , visit the repo for this project
[here](https://github.com/orlandott/Predictive_Policing).

When new technologies emerge, our ethics and our laws normally take some time
to adjust. As
Правительство Великобритании использует алгоритмы для выбора приоритета проверки школ [1]. Так в Великобритании тоже идут изменения в надзоре и контроле государства, хотя это и не называется реформой. Разработкой алгоритмов занимается команда Behavioural Insights Team [2] применяющая алгоритмы прогнозирования не только к инспекциям, но и к другой деятельности государства.

Чему уже сопротивляется союз учителей, призывающей к прозрачности работы алгоритмов и наличию четких критериев для проверяемых в том какая именно школа выбрана для проверки.

Не стоит рассчитывать что эта тенденция обойдет Россию стороной. Все что нужно для внедрения алгоритмического планирования проверок или прогнозирования - это смена поколений руководителей.

Ссылки:
[1] https://www.bbc.com/news/technology-42425959
[2] https://www.behaviouralinsights.co.uk/publications/using-data-science-in-policy/

#opendata #algorithms #bigdata
В открытый проект Open Ownership объединяющий базы владельцев бизнеса по всему миру добавили базу из 240 тысяч украинских компаний [1]. В самом реестре сейчас примерно 4.2 миллиона организаций [2] Великобритании, Словакии, Украины и раскрываемых по стандарту EITI. А все данные доступны как открытые данные.

4,2 миллиона организаций - это очень мало, в сравнении, например, с OpenCorporates и их базой в 138 миллионов юридических лиц [3], но важная особенность в том что Open Ownership дает информацию именно о конечных владельцах организации для тех реестров которые позволяют это сделать.

Ссылки:
[1] https://openownership.org/news/ukrainian-beneficial-ownership-data-now-available/
[2] https://register.openownership.org/
[3] https://opencorporates.com/

#opendata #opengov #transparency #ownership
Пока отдельные страны придумывают собственные механизмы идентификации граждан, в Гунджоу (Китай) используют WeChat для официальной цифровой идентификации и доступа к государственным услугам онлайн и оффлайн.
Forwarded from Open Government Digest
Guangzhou now uses WeChat for digital identity
https://govinsider.asia/security/guangzhou-wechat-digital-identity/

The app provides official identification for using both online and offline
government services.
Можно ли предсказать голосование по фотографии? А если это панорамная фотография?

Исследователи из Стенфордского университета проанализировали 50 миллионов фотографий из Google Street View [1]
и научились определять типы автомобилей и, соответственно, предсказывать голосования в местах где они сделаны.
Всего система умеет предсказывать с высокой точностью уровень доходов, расовые признаки, образование и привычки в голосовании с детальностью до почтового индекса (ZIP кода).

Все это социологам и в России на заметку, кроме Google Street View в России ещё есть Яндекс Панорамы и алгоритмы позволили бы провести реальные исследования устройства российского общества.

Подробнее об исследовании [2]

Ссылки:
[1] https://www.nytimes.com/2017/12/31/technology/google-images-voters.html
[2] https://www.pnas.org/content/114/50/13108.full.pdf

#opendata #data #algorithms
Об обратной стороне открытости и о том как в США еще в 80-х вводили ограничения на доступность персональных данных. Подобные примеры важны для понимания баланса открытости и ограничений доступа, в первую очередь помня о том что мы живем в мире где есть люди идущие на сознательные преступления.
Forwarded from Open Government Digest
Government data: How open is too open?
https://thegovlab.org/government-data-how-open-is-too-open/

Sharon Fisher at HPE: "The notion of "open government” appeals to both
citizens and IT professionals seeking access to freely available government
data. But is there such a thing as data access being too open? Governments may
want to be transparent, yet they need to avoid releasing personally
identifiable information. There's no question that open government […]

Full Post: [Government data: How open is too
open?](https://thegovlab.org/government-data-how-open-is-too-open/)
19 тихоокеанских стран создают совместную единую платформу для учета граждан. В первую очередь это касается регистрации рождения и смерти, но этим не ограничивается и в будущем система будет использоваться и для других целей - таких как регистрация прав на недвижимость, digital identity. И вот здесь важным аспектом является соглашение об обмене данными на которое идут все участники. Подробнее в статье на GovInsider
Forwarded from Open Government Digest
Exclusive: Why 19 Pacific countries are building a single civil registration platform
https://govinsider.asia/innovation/jeff-montgomery-pacific-civil-registrars-network-new-zealand/

Interview with Jeff Montgomery, New Zealand’s Registrar-General and GM of
Births, Deaths, Marriages, Citizenship and Translations. Innovation
О сборе новостей и переносе сборщиков RSS в телеграм на английском языке в Medium [1].
Напомню что большие тексты на английском языке я буду писать именно в блоге на Medium, а на русском языке на Яндекс.Дзен [2]

Ссылки:
[1] https://medium.com/@ibegtin/how-i-find-opendata-and-opengov-news-and-create-newsfeeds-with-telegram-814bd953cae9
[2] https://zen.yandex.ru/media/id/5a315e1300b3dd77beb64261

#opendata #opengov
Свежий документ Минфина с классификацией субъектов федерации по тому насколько они зависят от федерального бюджета.

Приведу оттуда лишь 2 списка, остальные Вы можете посмотреть сами.

Регионы не получавшие субсидии на выравние бюджетной обеспеченности:
- Республика Татарстан (Татарстан)
- Ленинградская область
- Московская область
- Самарская область
- Сахалинская область
- Свердловская область
- Тюменская область
- город федерального значения Москва
- город федерального значения Санкт-Петербург
- Ненецкий автономный округ
- Ханты-Мансийский автономный округ - Югра
- Ямало-Ненецкий автономный округ

Регионы у которых дефицит бюджета превышал 40% последние 3 года.
- Республика Алтай
- Республика Дагестан
- Республика Ингушетия
- Республика Крым
- Республика Тыва
- Чеченская Республика
- Камчатский край

Никаких невероятных открытий в этих списках нет, важно просто помнить, в том числе, это говоря о том как устроена наша страна.

#opendata #opengov
Forwarded from Госфинансы
Приказ Минфина России от 15.11.2017 № 1029 «Об утверждении перечней субъектов Российской Федерации в соответствии с положениями пункта 5 статьи 130 Бюджетного кодекса Российской Федерации»
https://minfin.ru/ru/document/?id_4=121666

© Официальный сайт Минфина России
Сложная, лично мне непонятная, но несомненно красивая визуализация данных OddityViz как мемориал Дэвиду Боуи[1].

Ссылки:
[1] https://medium.muz.li/oddityviz-a-tribute-to-david-bowie-with-data-3566d3bd6bd8

#opendata #opengov
Пока мы работаем с, в общем-то, скучными данными, активисты создают Open Cannabis Project [1] для защиты малых производителей каннабиса от патентов и монополий.

Кроме всего прочего этот проект про данные, о чём они и пишут в своем блоге [2] о том что собирают базу, в первую очередь, патентов.

Ссылки:
[1] https://opencannabisproject.org
[2] https://medium.com/opencannabisproject/2018-the-year-of-the-database-a5701eb66d6b

#opendata
Tableau версии 10.5 получил интегрированный движок Hyper. Пока на линуксе и обещают в 5 улучшение скорости отработки запросов.
Подробнее в их блоге [1]

Ссылки:
[1] https://www.tableau.com/about/blog/2018/1/hyper-and-linux-arrive-tableau-105-80538
Forwarded from Data is good
Tableau Launches Hyper — a Data Engine that Gives Faster Insights
https://medium.com/martech-advisor/tableau-launches-hyper-a-data-engine-that-gives-faster-insights-6941e1723b1a?source=rss------data-5

![](https://cdn-images-1.medium.com/max/786/0*K0MOUzByAA1c-r1i.jpg)

Data visualization company Tableau Software is all set to try and give its
business a major boost with a new data engine acquired from a startup in
Germany, almost eighteen months ago.

The company announced the availability of its new data engine, Hyper, on
Wednesday. The company says that Hyper will help breakdown large volumes of
data in seconds thereby even improving the speed of querying and building
reports off large data
В Великобритании начинает работать система "открытости банков" (Open Banking) которая обязывает банки предоставлять клиентам возможность подключать приложения других компаний к финансовым данным клиента в случае если клиент это разрешает. Подробнее об этом пишет BBC [1].

Это важное развитие банковского сектора - что не банку, а его клиенту принадлежать его финансовые данные. И клиент, а не банк имеет право на передачу этой информации третьим лицам.

Не буду загадывать возможно ли подобное в России, но изменение важное в части доступа малого и среднего бизнеса и стартапов к персональным данным.

Ссылки:
[1] https://www.bbc.com/news/business-42253051

#opendata #opengov #openbanking
На выходных я вспомнил что программирование - это не профессия, а призвание и доделал, вернее, подготовил к публикации 3 библиотеки и утилиты:
- qddate - https://github.com/ivbeg/qddate Quick and dirty date processing. Библиотека очень быстрого парсинга дат для Питона
- docx2csv - https://github.com/ivbeg/docx2csv - библиотека и утилита извлечения таблиц из docx файлов
- lazyscraper - https://github.com/ivbeg/lazyscraper- ленивый скрейпинг HTML. утилита командной строки и библиотека для превращения HTML таблиц и xpath запросов в CSV

Последние 2 я ранее публиковал, но к ним не было, ни документации, ни пакета в PyPi, ни чистого кода.
А теперь все есть, пакеты в PyPi и код в ReadTheDocs.org - https://qddate.readthedocs.io/en/latest/

qddate - это библиотека которая используется внутри бота https://t.iss.one/FeedRetranslatorBot который превращает HTML страницы в RSS. Собственно главной проблемой обработки огромного числа страниц всегда была обработка дат и qddate было заточено ровно под решение именно этой задачи - обработки сотен тысяч строк с датами в секунды.

Код очень старый, все время было потрачено, не на программирование, а на документирование.

Все это много лет использовалось для быстрого сбора и обработки данных в самых разных проектах связанных с обработкой данных и с открытыми данными.

Не могу обещать частой публикации кода, большая часть времени у меня сейчас в запуске и развитии больших проектов, но свой маленький вклад в open source обязательно должен быть

#opensource