Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Аэрофлот при входе запросил согласие на обработку персональных данных, а там полный спектр организаций
ООО Иннодата
ООО Базис
и ещё и Авиакомпания Победа

Причём запрашивают они это согласие безальтернативно, нельзя отказаться и не передавать персональные данные какой-либо компании, но хотя бы все хорошо подсчитаны и понятно кому слать запросы на отзыв согласия на обработку данных и кого проверять на предмет наличия права на такую обработку данных.

#privacy #personaldata
Я рассказывал ранее что госорганы крайне халатно относятся к персональным данным граждан, особенно граждан которые вступают с ними в любые взаимоотношения, например, трудовые или договорные. Ещё один наглядный пример федерального уровня, Минобороны России продаёт высвобождаемое имущество и публикует протоколы торгов включая паспортные данные представителей компаний. Их довольно легко "нагуглить" запросом 'паспорт серия site:mil.ru/files filetype:pdf' [1]

Удивительно что никто из граждан так и не засудил представителей Минобороны за такое.

И это один пример из тысяч и не все они находятся так просто, но пытливые умы могут найти многое.

Ссылки:
[1] https://www.google.com/search?q=паспорт+серия+site:mil.ru/files+filetype:pdf

#leaks #milru #government #privacy #personaldata
Дата журналистика - самое активно развивающееся направление журналистики в России.
Forwarded from Инфокультура
Дата-стрим «Как выгорает Россия»
📆 Четверг, 5 августа, в 20:00 (мск)

Где искать данные о лесных пожарах в России и как их исследовать, расскажут дата-журналистка «Новой Газеты» Катя Бонч-Осмоловская и дата-журналист Андрей Дорожный.

За один час они создадут прототип дата-материала: придумают тему, получат данные, найдут инсайт и сделают визуализацию. А также они расскажут об инструментах и приемах, которые используют практикующие дата-журналисты.

➡️ Регистрация: https://dorozhnij.com/firestream
На самом деле, главная проблема с проектами вроде Госключ и всём остальном сделанном государством по принципу G2B и G2C за рамками обязательных госфункций, так вот главная проблема в том что из опциональных они слишком легко переходят в обязательные.

Например, по такому сценарию:
1. Вначале появится Госключ
2. Через какое-то время его установят несколько сотен тысяч предпринимателей.
3. Потом окажется что что внедрение идёт не так активно и будет организовать госмониторинг использования.
4. Потом появятся публикации что Госключ это хорошо (может и будет где-то и кому-то с него польза) и без него плохо.
5. Потом появятся призывы сделать его обязательным в каких-то областях.
6. Потом его сделают обязательным, например, в какой-то области, где уже есть цифра, например, для подписания сделок с самозанятыми.
7. Потом обяжут к применению в каких-нибудь "социально значимых областях", например, для подписания договоров с турфирмами.
8. ... и так далее по цепочке.

Но важнее то что государство приходит на рынок который оно могло бы создать. Какими бы большими, тяжёлыми и неприятными не были бы грёбанные олигополии национальные цифровые чемпионы, лучше они чем государство. А ещё лучше нормальный конкурентный рынок по разумным правилам где государство выступает арбитром, а не игроком.

#government #business #govapps
Утром в газете, вечером в куплете (с)
CNews написали про публикацию персональных даннных граждан https://www.cnews.ru/news/top/2021-08-03_v_otkrytom_dostupe_obnaruzhilis и Илья Варламов написал https://varlamov.ru/YXl01mjqt4e

Только некорректно, конечно, говорить что я сейчас имею отношение к Счетной палате РФ, уже 2 месяца как я "свободный человек и поэтому пишу и думаю что хочу" (c)
В догонку к подборке источников и каталогов данных о которых я писал сегодня в рассылке [1], стартап bit.io [2] решает вопрос доступности данных обмена данными через гигантскую единую базу Postgres. Помимо того что туда уже загружены тысячи/десятки тысяч наборов данных из открытых источников, они дают возможность грузить собственные данные в Excel, CSV, JSON форматах, держать их в форме репозиторией, а далее обмениваться ими, визуализировать и многое другое. Чем-то похоже на data.world, но меньше про визуализацию и больше про хранение, API и обмен данными. У стартапа есть финансирование на нераскрываемую сумму и довольно неплохой старт.


Ссылки:
[1] https://begtin.substack.com/p/datasearch
[2] https://bit.io

#opendata #data #datacatalogs
Подробное и весьма познавательное исследование на основе опроса разработчиков Stack Overflow за 2021 год [1]

Знаете ли Вы что:
- лишь 3.38% разработчиков Black or of African descent
- мужчин среди разработчиков 91.6%
- большинство разработчиков в возрасте от 18 до 34 лет
- самые популярные технологии Python и SQL
- самые популярные СУБД MySQL, Postgres, SQLite и MongoDB
- облако Amazon наиболее популярно и за ним Google Cloud и Microsoft Azure

и там ещё много всего.

Ссылки:
[1] https://insights.stackoverflow.com/survey/2021

#developers
Размышления последних дней:
1. Один из признаков что у коммерческой компании "отношения" с госзаказчиком - это когда 99% её бюджета формируется лишь этим госзаказчиком на протяжении многи х лет. Например, 10 лет. Знаю такой случай.
2. Российская контрактная система начисто игнорирует мировой опыт реформирования контрактных систем последних лет. Это не только про отсутствие раскрытия в стандартах Open Contracting, но и отсутствие даже намёка на ведение реестра бенефициарных собственников компаний заключающих госконтракты.
3. Пример с утечкой персональных данных на сайте Минобороны - это просто пример, есть много других примеров аналогичного и они свидетельствуют о том что: а) В большинстве органов власти нет процедур контроля за публикацией персональных данных. б) Нет мониторинга того что они же сами публикуют. Правда и нет признаков того что это изменится. Я писал об этом 2 года назад, 2.5 года назад писал в Роскомнадзор и ещё не раз напишу.
4. В копилку ГосНКО надо добавлять организации с непрозрачной системой финансирования и связанные с государством не через отношения учредителей, а через их продвижение руководителями органов власти. Обычно, в последние годы, ГосНКО практически все имели в учредителях госструктуры, в той или иной форме. А их участие в госмероприятиях было как участие одной из госструктур, типа как продолжение государства. Но есть и те ГосНКО которые как бы частные или частные которые представляются как бы гос.

#thoughts
По поводу "легальных" утечек персональных данных, я хочу напомнить о материалах которые публиковал пару лет назад.

В 2018 году я проводил анализ нескольких десятков государственных информационных систем и систем регулируемых государством и выяснил что на них публикуют данные граждан: паспортные, СНИЛС, и иную идентифицирующую гражданина информацию. Почти всё это публикуется по причине "нормотворческой неграмотности" и реже, халатности при разработке этих систем и ошибок проектирования. Иначе говоря "не украли, а продолбали". Историю этого я описал в 2019 году об удостоверяющих центрах [1], о электронных торговых площадках [2], о государственных информационных системах [3]. А также вышла статья на РБК [4] и другие публикации куда я отдал эти материалы эксклюзивом.

А предыстория этого такова что ещё в 2018 году это исследование я направлял в прокуратуру, в Роскомнадзор (через прокуратуру) и даже одному зам. министру цифрового развития федерального уровня. Реакция была ожидаемо - никакая. После публикаций в СМИ многие зашевелились, но и то до сих пор далеко не всё о чем я писал тогда было исправлено. Я и сейчас знаю удостоверяющие центры раскрывающие весь реестр сертификатов, к примеру.

Что я хочу этим сказать, то что когда вопрос стоит о контроле государства за государством, госорганов за госорганами, то работает только "медийный рычаг". Он работает, при этом, тоже плохо, многие перестали реагировать даже на такие публикации, но хоть как-то ещё возможен.

Вот сейчас у меня на руках черновик постоянно откладываемого повторного доклада на ту же тему легального раскрытия перс данных граждан органами власти. Примеров множество и то что я упомянул Минобороны с их раскрытием паспортных данных в протоколах торгов - это иголка в стогах сена. Самые большие случаи раскрытия перс данных в поисковиках не найдёшь, но они есть.

Я считал и считаю что в государстве сейчас за контроль персональных данных никто не отвечает. Несмотря на многочисленные публикации системной государственной реакции на это нет, политики публикации данных на официальных сайтах и информационных системах не поменялись и так далее. Всё это, конечно, в адрес Роскомнадзора и Минцифры в первую очередь.

P.S. Если Вы знаете случаи когда органы власти и госучреждения публикуют перс данные граждан онлайн, напишите мне, добавлю в примеры готовящейся новой версии отчета.

Ссылки:
[1] https://begtin.tech/pdleaks-p1-uc/
[2] https://begtin.tech/pdleaks-p2-etp/
[3] https://begtin.tech/pdleaks-p3-govsys/
[4] https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5

#privacy #personaldata
На 26 июля 2020 года было принято 1123 постановлений Правительства РФ, на 26 июля 2021 года было принято 1267 постановлений Правительства РФ. Разница в 144 постановления или в 12.8% от изначального числа.

На 26 июля 2020 года было принято 1969 распоряжение Правительства РФ, на 26 июля 2021 года было принято 2075 распоряжение Правительства РФ. Разница в 109 распоряжений или в 5.3% от изначального числа.

На 13 июля 2020 года было принято 210 федеральных законов, на 13 июля 2021 года было принято 360 федеральных законов. Разница в 150 законов или 71%. от изначального числа.

Видно что депутаты принимали законы в последней сессии ударными темпами. Не рискую предположить интенсивность работы нового депутатского корпуса, но всё идет к тому что число принятых законов вырастет в этом году. А также явно к концу года будет больше постановлений и распоряжений Правительства РФ.

Регуляторная нагрузка растёт, а нам с этим жить.

#legal #legaltech #laws
В США агенство EPA обновило проект Airnow [1] проект по мониторингу качества воздуха и добавили туда 10 тысяч сенсоров которые поддерживаются гражданами [2] через краудсорсинг в проекте PurpleAir. Эти сенсоры EPA раздавало и раздает библиотекам, сообществам и многим другим [3] и всё это часть того что называется гражданской наукой (citizen science) где рядовые граждане могут принимать участие в идущих исследованиях. В США гражданская наука уже давно институционализирована в рамках инициативы CitizenScience.gov [4] в виде каталога из 491 проекта в которых можно принять участие. А сам каталог и инициативы идут под эгидой Crowdsourcing and Citizen Science Act [5], они разрешены и поощеряются.

Ссылки:
[1] https://www.airnow.gov
[2] https://gcn.com/articles/2021/08/04/airnow-smoke-data.aspx
[3] https://www.epa.gov/air-sensor-toolbox/air-sensor-loan-programs
[4] https://www.citizenscience.gov
[5] https://uscode.house.gov/view.xhtml?req=granuleid:USC-prelim-title15-section3724)&num=0&edition=prelim

#citizenscience #science #airquality #fires
В блоге Инфокультуры на Хабре подробный отчет Ольги Пархимович о нескольких годах участия в общественномсовете при Федеральном Казначействе [1] и о том как последний состав общественного совета был сформирован в основном ... профсоюзом казначеев. Весьма познавательная история подтверждающая вырожденность такого явления как общественные советы при ФОИВах. Немногие попытки их оживить, в основном, приводили к уходу из общественных советов тех кто представляют общественность.

Ссылки:
[1] https://habr.com/ru/company/infoculture/blog/571924/

#opendata #govfinances
Forwarded from Russian OSINT
Нашёл крутейший исследовательский проект под названием Sherloq, который представляет собой божественную GUI лабораторию из 36 инструментов с открытым исходным кодом для анализа фотографий. Проект создан профессиональным фотографом Гвидо Бартоли.

Пожалуй данное решение можно считать одним из лучших бесплатных проектов на данный момент в области форензики фотографий. Шерлок может помочь с анализом метаданных фото, определением геолокации, шумами, выявлением фальсификации фотошоп (сканы паспортов например), HEX, анализом яркости, свойств JPEG и т.д.

https://github.com/GuidoBartoli/sherloq
К вопросу о сайтах органов власти и почему это важно. Минобрнауки недавно обновили сайт и поломали _все ссылки_ на документы и разделы с ними. Как следствие теперь ссылки вроде ссылок на документы антикоррупционного регулирования [1] ведут в 404 ошибку. А именно эти ссылки указаны на страницах деклараций сведений о доходах почти всех ВУЗов. К примеру, МГУ [2], ссылка под названием "Нормативные правовые и иные акты в сфере противодействия коррупции" в разделе "Противодействие коррупции".
Новая ссылка на сайте Минобрнауки выглядит так [3], но её ещё надо найти.

Ссылки:
[1] https://minobrnauki.gov.ru/ru/activity/anticorr/npa/index.php
[2] https://www.msu.ru/info/documents.html
[3] https://minobrnauki.gov.ru/open_ministry/anticorr/npa/index.php?sphrase_id=159545

#government
Через неделю, 17 августа я буду вести вебинар о веб-архивах, как они устроены, почему это важно и как архивировать веб-сайты и соц сети практически и организационно.
Forwarded from Инфокультура
17 августа в 13:00 приглашаем на вебинар, посвященный основам веб-архивации.

На вебинаре Иван Бегтин, директор АНО «Инфокультура» и руководитель проекта Национальный цифровой архив, расскажет о практических основах веб-архивации:
🔹Как организовать веб-архив
🔹Как устроены современные веб-архивы
🔹Какие международные и российские проекты существуют в этой сфере
🔹Каковы основные веб-стратегии, стандарты и инструменты архивации
🔹С какими проблемами сталкиваются создатели веб-архивов
🔹Как сохранять социальные сети

Мероприятие пройдет в Zoom. Для участия необходимо зарегистрироваться: https://infoculture.timepad.ru/event/1733872/
На WeatherSpark [1] замечательные визуализации средней погоды по городам мира. Есть и Россия и Москва конкретно, с рекомендацией лучшей погоды с конца июня по середину августа [2]. Как раз этот период заканчивается через несколько дней.

Сервис визуализации исходного кода (на самом деле структуры файлов в репозитории) на Github. Можно посмотреть пример на проекте undatum [3] и исходный код визуализатора [4]. Может быть полезно и просто неплохо выглядит.

Подборка курсов по Machine Learning для тех кто только начинает изучать эту область знаний [5].

Ссылки:
[1] https://weatherspark.com
[2] https://weatherspark.com/y/100524/Average-Weather-in-Moscow-Russia-Year-Round
[3] https://octo-repo-visualization.vercel.app/?repo=datacoon%2Fundatum
[4] https://octo.github.com/projects/repo-visualization
[5] https://github.com/dair-ai/ML-YouTube-Courses

#dataviz #ml
Обновлённый список отечественного ПО обязательного к предустановке от нашего Правительства в свежем постановлении [1]. Про предыдущий список я ранее писал в телеграм канале [2].

И в рассылке писал о том куда и как передают данные эти приложения [3].

Я по прежнему считаю предустановку ПО решению Правительства РФ/Минцифры РФ очень плохим решением. Вместо защиты прав граждан, исполнительная власть берет на себя ответственность за то как эти приложения за гражданами следят. Вместо ограничений на слежку, она поощряется.

Понятно что квалифицированные пользователи будут все эти приложения сразу же удалять, но таких меньшинство.

И я ведь регулярно говорил о том что все блокировки бесполезны пока государство не контролирует конечные устройства? Догадайтесь какое/какие приложения из этого списка будут использоваться в этих целях.

Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202108100022
[2] https://t.iss.one/begtin/2414
[3] https://begtin.substack.com/p/15

#privacy #apps #government
Команда OpenAI представили новый продукт на основе языковой модели GPT-3. Этот продукт Codex создан чтобы переводить естественный язык в программный код. В видео представления продукта можно увидеть как он оперативно и довольно точно пишет код [1] руководствуясь довольно конкретными фразами. Тем кто считает что жизнь программистов будущего беспечна стоит задуматься о том уже скоро профессия может претерпеть существенные и, возможно, необратимые изменения. Вместо программистов будут нанимать "инженеров управления робо-программистами", а low-code и no-code платформы станут доступны самым неопытным пользователям/заказчикам программ.

Я бы предсказал ещё и появление нового поколения BI систем с голосовыми помощниками где руководители смогут сами формулировать показатели и частоту их обновления. Без кода, без аналитиков, без программистов. Думаете невозможно?

Ссылки:
[1] https://www.youtube.com/watch?v=SGUCcjHTmGY

#gpt3 #openai #automatedprogramming
Честно говоря меня поражает как в 2021 году компании которые вроде бы умеют в открытый код, всё ещё не умеют/не понимают открытые данные. Хорошая новость в том что в исследовании "Как называется это место?
Населённые пункты на карте России" [1] в коей то веки команда исследователей Яндекса опубликовали данные [2]. Для некоммерческого использования, конечно, но и понятно. Но совершенно удивительно что в Яндексе нет людей знающих что такое свободные лицензии, Creative Commons или ODBl. Такое ощущение что данные публиковались специально именно таким образом чтобы их нельзя было легально загрузить в Википедию или OpenStreetMap.

Впрочем Яндекс это лишь один из примеров дата-корпораций живущих по модели data-in, no data-out (DINDO). Подобных DINDO корпораций довольно много, тот же Facebook до того как запустили инициативу Data for Good вполне были DINDO, в общем много таких. Что, впрочем, не оправдывает нынешних строителей суверенных экосистем во всепоглощающем пожирании данных и почти полном отсутствии политики их раскрытия для общественного блага.

Ссылки:
[1] https://yandex.ru/company/researches/2021/oikonyms
[2] https://yastatic.net/s3/milab/2021/toponyms/data/RussianOikonymsDataset.zip

#opendata #yandex #datasets