Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Кто-то отдыхает в праздники, а я публикую заметку о том как проходит архивация сайтов на примере Общественной палаты - https://medium.com/@ibegtin/oprf-archival-209d9b09af3

#digitatalpresevation #opengovernment #archiving
Главный недостаток канала в Телеграм в том что можно промахнуться ведя с кем-то переписку. Всем подписчикам извинения и хороших праздников!
Относительно недавняя новость - оказывается администрация Трампа старательно игнорирует петиции публикуемые на портале петиций Белого дома [1]. Об этом пишут Sunlight Foundation у себя в твиттере [2] и подробнее в статье в Miami Herald "Transparency doesn’t seem to be among the Trump administration’s priorities" [3].

Администрация Барака Обамы обязалась отвечать в течении 30 дней на петиции собирающие более 100 тысяч подписчиков, а на сегодняшний день накопилось 9 петиций перешедших этот рубеж, но не отвеченных администрацией Трампа за 100 дней его правления.

Судьба проектов петиций давно оказывается незавидной. Попытки строить прямую демократию оказываются недолгими, вот и российский РОИ [4] давно уже не функционален.

Ссылки:
[1] https://petitions.whitehouse.gov/
[2] https://twitter.com/SunFoundation/status/857627423659233280
[3] https://www.miamiherald.com/news/politics-government/article146851974.html
[4] https://www.roi.ru/

#opendata #opengov #trump #petitions
Стала доступна бета версия портала USASpending [1] посвященного раскрытию информации о госрасходах в США. Не просто система публикации информации о контрактах, а полноценная система визуализации и предоставления открытых данных. Много лет я и команда Инфокультуры поддерживает похожий проект в России под названием Госзатраты - это проект Комитета гражданских инициатив [2] .

Мало кто знает его предысторию. Еще до того как этот проект стал проектом КГИ, он был создан на гораздо меньшем по объему данных проекте под названием Росгосзатраты созданным мной в Институте современного развития. Тогда у проекта был шанс стать официальным государственным порталом и "получить прописку" в виде портала spending.gov.ru, а теперь до смены текущего правительства на это и не стоит рассчитывать.

Госзатраты - это проект который я начинал проектировать 10 лет назад, сделал первый прототип 6 лет назад и за эти годы уже трижды переделывал его и вначале сам и вместе с командой по мере роста проекта.

Сейчас я могу сказать что для запуска любого подобного большого проекта нужна, в первую очередь, воля, а не деньги и даже не большая команда разработчиков. Нужно очень много желания его реализовать.

Не все также знают что проект USASPending изначально произошел от проекта FedSpending [3] созданного американской НКО "Project of government oversight" в 2006 году.

Именно глядя на него днем, тогда, в конце 2006 года и начале 2007 года я просыпался много месяцев с мыслью о том почему ничего подобного в России нет? Те кто знали госзакупки лучше чем я тогда отвечали мне - "Потому что они никому не нужен".

Сейчас, по истечении многих лет, я рад что нам удается сохранять наш проект и что в мире развиваются подобные проекты. Кроме USASpending их еще около десятка посвящено именно анализу контрактов и открытым данным о госрасходах.

Ссылки:
[1] https://beta.usaspending.gov/
[2] https://clearspending.ru
[3] https://fedspending.org/

#opendata #opengov #spending #clearspending
Более 200 терабайт государственных сайтов и данных США заархивировано в Интернет-архиве [1] в рамках проекта “End of Term Presidential Harvest 2016” [2].

Из этого проекта более 100 терабайт — это веб-архивы сайтов органов власти и около 100 терабайт — это данные с государственных FTP серверов.
Все ссылки на ресурсы были собраны 393 волонтерами и сохранены [3] в специальном инструменте Nomination Tool для последующего автоматического сохранения.
Сейчас Университет Техаса ведет следующий проект “Government Web & Data Archive” по постоянной архивации вебсайтов и данных правительства США [4].
Напомню что в России в рамках Национального цифрового архива мы ведем проект по архивации всех официальных сайтов. Подробнее о национальном архиве можно прочитать здесь https://archive.infoculture.ru, а также поддержать проект пожертвованиями или посильной помощью - https://archive.infoculture.ru/donate.

Ссылки:
[1] https://blog.archive.org/2017/05/09/over-200-terabytes-of-the-government-web-archived/
[2] https://digital2.library.unt.edu/nomination/eth2016/about/
[3] https://digital2.library.unt.edu/nomination/eth2016/reports/urls/
[4] https://digital2.library.unt.edu/nomination/GWDA/

#opendata #opengov #digitatalpresevation #webarchiving

P.S. Также эта заметка на Medium - https://medium.com/@ibegtin/government-archive-b43a0cde7f97
В качестве исключения я написал заметку про WannaCry, идущую сейчас эпидемию заражения компьютеров программой вымогателей - https://medium.com/@ibegtin/wannacry-e5626de68557
Apple купили компанию Lattice Data [1] специализирующуюся на "неструктурированных темных данных" (unstructured dark data). О компании очень мало известно, только то что они привлекли 20 миллионов долларов США инвестиций от GV, Madrona и InQTel

Компания была создана командой Christopher Ré, Michael Cafarella, Raphael Hoffmann и Feng Niu ранее создавшими DeepDrive [2] "a system to extract value from dark data".

Если "темные данные" - это развитие Deep Dive, выявление отношений и сущностей из неструктуированных текстов, то уже становится интересно какие же новые продукты готовил Apple. Бьюсь об заклад что это будет как-либо связано еще и с распознаванием речи.

Ссылки:
[1] https://techcrunch.com/2017/05/13/apple-acquires-ai-company-lattice-data-a-specialist-in-unstructured-dark-data/
[2] https://deepdive.stanford.edu/

#darkdata #deepdrive #apple
В Ведомостях вышла статья Алексея Кнорре и моим соучастием https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya о несознательной информатизации госорганов. На самом деле картина, как всегда, гораздо более комплексная, но основные принципы неизменны - сейчас государственные информационные системы создаются не для людей
Я давно не публиковал ссылок на то что я читаю в основном и что является источником того о чем я регулярно пишу.

Подборка рекомендаций того откуда лично я черпаю новости и более серьезные знания:
- https://architecht.io/ - журнал о ПО, сервисах и тд. на базе Medium.
- https://govinsider.asia/ - Government Insider, много интересного о цифровых преобразованиях в Азии
- https://www.opengovasia.com/ Open Gov Asia. Множество публикаций о цифровых правительствах в Азии. Скучнее чем GovInsider, но полезен
- https://opengovdaily.com - агрегатор новостей об открытых данных и открытости государства (дизклеймер - я его сделал на базе paper.li).
- https://dataelixir.com - лучшая рассылка о данных из мне известных
- https://thegovlab.org/blog/ - GovLab блог и их дайджест https://thegovlab.org/govlab-digest/ все вокруг государства и цифровых технологий
- https://datafloq.com/ - новости и рассылки и информация о компаниях по работе с данными

#data #opendata
Тем временем в США мода на микрогранты в ИТ и близких сферах.

Недавно Nadia Eghbal, сотрудник Github, анонсировала что раздает по $5000 без каких либо условий тем чье мотивационное письмо ей понравится - https://medium.com/@nayafia/how-to-give-away-5-000-on-the-internet-66cae906ab7e

С оглядкой на нее же такую же инициативу запустил Yurii Rashkovskii - https://medium.com/@yrashk/5-000-for-your-dream-project-c820494eadb4

А группа спонсоров организовали AI Grants - гранты на проекты по искусственному интеллекту - https://aigrant.org/

UPD1: Вот тут больше примеров подобных грантов https://github.com/nayafia/microgrants

Главные особенности:
1. Гранты маленькие, в рублях около 270 тысяч.
2. Часто их раздают физ лица
3. Никаких ограничений по местонахождению получателя
4. Нет последующего контроля, отслеживания и так далее.

No strings attached.

Я давно хочу раздавать гранты на проекты по открытому коду/открытым данным, так же без каких-либо ограничений и условий. Главное чтобы проект/дополнение к какому-то проекту и тд. был в общей экосистеме и обеспечивал открытые данные, был с открытым кодом и свободными лицензиями.

Кстати в России нет ни то что микрогрантов в этой области, нет даже институциональных фондов. Ни одного.

#opendata #opensource #grants #microgrants
Полезная и подробная история о том как один из крупнейших сервисов вопросов и ответов StackOverflow переходил на HTTPS по умолчанию для всех проектов - https://nickcraver.com/blog/2017/05/22/https-on-stack-overflow/

У перехода на HTTPS оказалось много нюансов о которых Nick Craver очень подробно пишет и для очень большого проекта - это не просто создать сертификаты, но и большая работа по обновлению кода и инфраструктуры.


#ssl #tls #https #privacy
ICANN запустили платформу для онлайн просвещения о том как Интернет управляется - https://learn.icann.org/
С большим числом курсов интересных для тех кто не погружен изначально деятельность ICANN и существующую интернет-инфраструктуру.

У курсов есть один недостаток, русский перевод оставляет желать лучшего - https://learn-ru.icann.org/, тексты еще более-менее, а вот кнопки совсем беда.

И тем не менее, вполне возможно что там будет нечто полезное для тех кто хочет знать как управляется выделение доменных имен, что такое WHOIS и так далее

#learning #icann
Open Data Barometer выпустили 4-й глобальный доклад об открытых данных по всему миру .

С текстом доклада и интерактивным навигатором можно ознакомиться по ссылке
https://opendatabarometer.org/4thedition/report/

Этот доклад охватывает 2016 год и большинство стран, за исключением многих африканских и части наименее развитых азиатских стран. Россия находится там на 25-м месте, что, не так уж плохо, но и далеко от стран лидеров.

Подробные профили:
- Россия, 25-е место: https://opendatabarometer.org/4thedition/detail-country/?_year=2016&indicator=ODB&detail=RUS
- Беларусь, 93 место: https://opendatabarometer.org/4thedition/detail-country/?_year=2016&indicator=ODB&detail=BLR
- Украина, 44 место: https://opendatabarometer.org/4thedition/detail-country/?_year=2016&indicator=ODB&detail=UKR
- Казахстан: 59 место: https://opendatabarometer.org/4thedition/detail-country/?_year=2016&indicator=ODB&detail=KAZ

Обратите внимание на большой вклад открытости криминальной статистики и раскрытия данных о госконтрактах в России на позицию в рейтинге.

Как и во многих подобных докладах и исследованиях всегда находятся вопросы почему те или иные данные классифицированы именно таким образом, как измерялась их доступность и так далее.

Тем не менее подобные рейтинги - это хороший ориентир для понимания того как обстоят дела с открытостью данных в разных странах.

#opendata #opengov
До чего же удивительно читать статью "Eliminating the humans" за авторством Дэвида Бирна
https://davidbyrne.com/journal/eliminating-the-human

А я только только хотел приобрести его обновленную книгу "How music works", а тут вижу статью больше про настоящее/будущее чем про музыку.

Для тех кто не знает, Дэвид Бирн - это известный музыкант, лауреат премии Оскар и автор немалого числа песен, саундтреков и автор книг о музыке (https://en.wikipedia.org/wiki/David_Byrne).

Статья, кстати, по делу и посвящена тому как новые технологии заменяют людей везде где только возможно.

#digitalfuture
Информационный комиссар Великобритании Elizabeth Denham начала официальное расследование по использованию данных о гражданах в политической рекламе. Об этом пишет NewScientist [1] и сама комиссар в своем блоге [2].

Это не первый и не последний голос о этике использования больших данных. Напомню что уже много лет идут публикации и дебаты о усилении неравенства благодаря большим данным.

Напомню лишь о некоторых:
- How Big Data Enables Economic Harm to Consumers, Especially to Low-Income and Other Vulnerable Sectors of the Population [3]. Документ федеральной торговой комиссии США о том как большие данные не помогают, а вредят наиболее уязвимым группам граждан
- BigData. A Tool for Inclusion or Exclusion? [4]. Отчет федеральной торговой комиссии США о плюсах и рисках использования больших данных
- Don’t trust that algorithm [5] интервью с Cathy O’Neil, автором книги "Cathy Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy" о предубежденности алгоритмов и их манипулятивной природе
- Is ‘Big Data’ Actually Reinforcing Social Inequalities? [6]

В последней статье приводится важный пример системы e-Verify [7] созданной правительством США для того чтобы работодатели могли проверять легальность труда текущих и потенциальных работников. Эту систему используют более 500 тысяч работодателей и о ней посвящен отдельный раздел [8] в отчете "Civil Rights, Big Data, and Our Algorithmic Future A September 2014 report on social justice and technology." [9]

Оборотной стороной технологий работы с данными является возможность злоупотребления новым информационным неравенством. Как я уже упоминал, в России сейчас нет "точек опоры", общественных или государственных и сфокусированных именно на правах граждан.

Ссылки:
[1] https://www.newscientist.com/article/2131660-uk-government-watchdog-examining-political-use-of-data-analytics
[2] https://iconewsblog.wordpress.com/2017/05/17/information-commissioner-elizabeth-denham-opens-a-formal-investigation-into-the-use-of-data-analytics-for-political-purposes/
[3] https://www.ftc.gov/system/files/documents/public_comments/2014/08/00015-92370.pdf
[4] https://www.ftc.gov/system/files/documents/reports/big-data-tool-inclusion-or-exclusion-understanding-issues/160106big-data-rpt.pdf
[5] https://news.harvard.edu/gazette/story/2016/10/dont-trust-that-algorithm/
[6] https://www.thenation.com/article/big-data-actually-reinforcing-social-inequalities/
[7] https://www.uscis.gov/e-verify
[8] https://bigdata.fairness.io/e-verify/
[9] https://bigdata.fairness.io

#bigdata #data #opendata

P.S. Также эта заметка не Medium: https://medium.com/@ibegtin/uk-data-investigation-85a4f4b7cefc
Подборка ссылок для тех кто думает о технологиях работы с данными:
- О том как устроена работы с данными в Airbnb - https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770 включая их удивительный инструмент Superset https://github.com/airbnb/superset позволяющий очень удобно визуализировать самые разные данные. И с открытым кодом

- Обзор 15 библиотек для работы с данными с помощью Python - https://medium.com/activewizards-machine-learning-company/top-15-python-libraries-for-data-science-in-in-2017-ab61b4f9b4a7

- Metabase. Возможность создания быстрой бизнес аналитики на данных - https://github.com/metabase/metabase с открытым кодом

- Cyclotron. Фреймворк для быстрого создания панелей управления с визуализацией данных - https://www.cyclotron.io/ с открытым кодом

- Bad Data Guide. Подробное руководство о том какими бывают плохие данные - https://github.com/Quartz/bad-data-guide

- Статья о том как использовать "темные данные. Dark analytics: Illuminating opportunities hidden within unstructured data https://dupress.deloitte.com/dup-us-en/focus/tech-trends/2017/dark-data-analyzing-unstructured-data.html

#data #datascience
В блоге Open Knowledge International важная и актуальная тема - Open data quality – the next shift in open data? [1] о том как качество данных с каждым годом становится все более актуальным вопросом.

Кроме постановки проблем, обратите внимание на большое число ссылок на материалы, руководства, инструменты и другие ресурсы по качеству данных. Во многих странах и межгосударственных организациях уже есть открытые методики измерения качества данных и шагов по улучшению этого качества.

У OKI есть набор инструментов, таких как GoodTables [2], помогающих оценивать качество данных. У ООН есть National Quality Assurance Frameworks [3] инструмент оценки качества данных национальных статистических служб.
Правительство Австралии использует Data Quality Framework [4] для публикуемых данных и много других примеров существует.

Из своего опыта я могу сказать что именно низкое качество данных причина отсутствия многих данных на сайтах федеральных органов власти, властей субъектов федерации и не только. Часто информационные системы, даже очень дорогие, не имеют форматно-логического контроля (элементарно не отслеживают неправильный ввод), не предусматривают контроль качества данных с самого начала.

Одной из причин этого я лично считаю недостаточное внимание и понимание значимости данных в работе. До сих пор я не знаю ни одной госструктуры в которых были бы должности CDO (Chief Data Officer).

Ссылки:
[1] https://blog.okfn.org/2017/05/31/open-data-quality-the-next-shift-in-open-data/
[2] https://github.com/frictionlessdata/goodtables-py
[3] https://unstats.un.org/unsd/dnss/QualityNQAF/nqaf.aspx
[4] https://blog.data.gov.au/news-media/blog/improving-data-quality-datagovau

#opendata #opengov #dataquality

P.S. Также эта публикация на Medium - https://medium.com/@ibegtin/data-quality-73ee02f956fb
Всяческие напоминания:
1. У нас есть списки баз знаний по темам в который через Github каждый может пополнить:
- Awesome list data journalism - https://github.com/infoculture/awesome-datajournalism
- Awesome list open data in Russian - https://github.com/infoculture/awesome-opendata-rus
- Awesome list open budgets - https://github.com/infoculture/awesome-openbudget
Участвуйте, дополняйте и создавайте похожие списки свои и присылайте мне!
Формат Awesome list очень удобен для ведения каталогов ссылок

2. Для тех кто еще не подписался - у Инфокультуры есть замечательная рассылка с новостями про открытые данные, открытость гос-ва и не только Подписаться можно по ссылке https://eepurl.com/cqen11
Там есть что-то о чем пишу я в блоге и много другого интересного.

3. Инфокультура публикует много открытого кода у нас в репозиториях на Github https://github.com/infoculture

#opendata #opengov #infoculture
В декабре 2016 года Правительство внесло в Госдуму "Законопроект № 53968-7" [1] О внесении изменений в статью 32 Федерального закона "О некоммерческих организациях" и признании утратившими силу отдельных положений законодательных актов Российской Федерации» (в части обеспечения открытости и доступности информации о деятельности государственных (муниципальных) учреждений)

Если переводить с законодательного русского на русский простой, то это законпроект по раскрытию информации бюджетными и автономными учреждениями, включая:
- бюджетная смета казенного учреждения, составляемая и утверждаемая в порядке, определенном органом, осуществляющим функции и полномочия учредителя казенного учреждения, в соответствии с общими требованиями, установленными федеральным органом исполнительной власти, осуществляющим функции по выработке государственной политики и нормативно-правовому регулированию в сфере бюджетной, налоговой, страховой, валютной, банковской деятельности
- решения органа, осуществляющего функции и полномочия учредителя автономного учреждения, о назначении членов наблюдательного совета автономного учреждения или досрочном прекращении их полномочии

Ключевое в документе то что информация будет публиковаться на едином портале bus.gov.ru и регулироваться приказом Министерства Финансов.

Данные из bus.gov.ru доступны как открытые данные, так что это хорошая новость для всех кто исследует структуру нашего государства и использует открытые данные.

Ссылки:
[1] https://asozd2.duma.gov.ru/main.nsf/(Spravka)?OpenAgent&RN=53968-7&02

#opendata #opengov
...
В последнее время я особенно часто слышу и читаю рассуждения о том, как технологии изменят наше общество. Среди них всевозможные дроны, коррекция генома, инструменты для больших данных, искусственный интеллект, блокчейн и многое другое. Что-то из этого уже является «осязаемым настоящим», а что-то пока «настойчивым будущим».

Рискну сделать свои прогнозы и предложить один из многих сценариев, которые могут нас ждать, — обозначить, с какими вызовами наше общество столкнется и как изменится система правонарушений и работы с ними.

Цифровая личность

Как убедиться, что вы это вы? Помимо предъявления паспорта и других документов. На расстоянии тысяч километров.
...
В РБК Вышла моя статья "Профилактика преступлений: какое будущее ждет правоохранительную систему"
https://www.rbc.ru/opinions/technology_and_media/08/06/2017/593911d19a7947bd6ab766ef?from=newsfeed

Обсудить ее можно в @begtinchat

#opendata #bigdata #digitalgovernment