Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Постепенно приближается время подводить итоги и писать о планах на следующий год.

Подвести итоги за один раз у меня не получится, слишком много разных тем, деятельности, проектов в которых участвую и я сам и моя команда.

Я могу пока точно обозначить цель на следующий год - это систематизация, интеграция и институциональное закрепление всего что делалось за многие годы. Какие то проекты будут объединяться, для каких-то привлекаться партнеры, какие-то новые проекты будут включать ранее сделанные и так далее. Самое сложное во всем этом именно в институциональном закреплении и построение долгосрочной стратегии: финансирования, постоянной деятельности и отдельных проектов. Всё это будет непросто, но давно уже пора.

Можно сказать что сейчас не время собирать камни и не время разбрасывать, а время сортировать камни, строить из них дома и заселять людьми.

Всё это будет вокруг тем открытости, данных, цифровых архивов и приватности.

#opendata #newyear
Яндекс закрыл социальную сеть Яндекс.Район, об этом можно прочитать в официальном анонсе [1] и в заметке на Roem [2]. Можно было предположить что закрытие, во многом, связано с ужесточением регулирования медиа, контента, а может быть, действительно, то что касается краудсорсинга контента и социальных сетей а даётся Яндексу с трудом. Та же соцсеть Аура также не взлетела и была закрыта, как и многие другие проекты Яндекса в этой области.

При этом, безусловно, жаль закрытия. Яндекс.Район - это один из немногих гиперлокальных проектов в России действующих на уровне конкретного района, города, поселения. И он, конечно, был бы куда полезнее, простите, довольно бессмысленного Яндекс.Кью и, несомненно прибыльного, но весьма неприятного Дзен.

Успешных гиперлокальных проектов в мире немного, из наиболее известных можно вспомнить Patch [3] в США, купленный AOL в 2009 году за неназванную сумму, но к концу 2018-2019 года он оценивался как [4] вполне прибыльный и приносящий до $20 дохода, в его сеть входило 1200 локальных сайтов, 150 сотрудников и 110 журналистов, включая журналистов национальных медиа.

Можно ли создать гиперлокальный проект не создавая полноценное медиа? Я не очень в это верю, а в России - это превращается из коммерческого проекта в проект управления рисками. Но что можно было бы сказать это то что Яндекс.Район мог бы быть совсем другим если бы не был соцсетью. У Яндекса много сервисов локального уровня, собрать их вместе на гиперлокальном уровне, партнёрство с муниципальными органами, интеграция открытых данных могли бы сделать проект/продукт куда более востребованным.

Ссылки:
[1] https://local.yandex.ru/moscow/top?event_id=4422133
[2] https://roem.ru/30-12-2020/284517/yandex-local-closed/
[3] https://patch.com
[4] https://en.wikipedia.org/wiki/Patch_(website)

#opendata #yandex #projects #hyperlocal
Хочу сказать спасибо всем откликнувшимся с помощью в сборе данных о контрактах Фонда содействия инновациям https://t.iss.one/begtin/2403, желающих было неожиданно много и задачу сделали несколько раз, что даёт гарантию что данные о контрактах не будут утеряны, а мы применим их в рамках проектов по анализу госфинансов и, конечно, они должны быть доступны как открытые данные.

У наших проектов таких задач много, а критериями для конкурса могут быть: полнота решённой задачи и чистота кода.

Так что я даже задумался не стоит ли регулярно проводить такие мини-конкурсы по созданию парсеров для сложных и несложных данных и для общественного блага.

#opendata #opengov
Счётная палата США (The U.S. Government Accountability Office, GAO) опубликовали доклад DATA GOVERNANCE Agencies Made Progress in Establishing Governance, but Need to Address Key Milestones [1] посвящённый анализу практик работы с данными в органах власти США.

Доклад короткий, 59 страниц, ясно написанный, четко сформулированный, хотя и описывает для нас совершенно другую политическую, бюрократическую и организационную конструкцию управления данными, тем менее полезный для изучения.

На что стоит обратить внимание, с оглядкой на то что у нас:
1. В США координацией работы с данными в госорганах занимается совет CDO (CDO council) - это группа руководителей занимающихся _только данными_. Не цифровой трансформацией, не ИТ инфраструктурой, а именно данными. Я постепенно всё более убеждаюсь что российская конструкция с CDTO совмещающим функции "швеца, жнеца и на дуде игреца" уходит не в ту сторону. Но стоит ли транслировать опыт США как-есть тоже сомневаюсь>
2. Этот совет CDO отчитывается перед конгрессом и OMB (Office of Management and Budget, Административно бюджетное управление) в форме отчета. Кстати, необходимость ежегодного отчета для подобных органов хорошая практика. Жаль что ни один из председателей государственных комиссий и советов перед парламентом не отчитываются и годовые отчеты не составляют.

Текст также можно прочитать на сайте GAO в HTML формате и структурированных рекомендациях [2]

Ссылки:
[1] https://www.gao.gov/assets/720/711325.pdf
[2] https://www.gao.gov/products/GAO-21-152

#opendata #opengov #accounting #datagovernance
Желаю всем
Чтобы Новый год был новым
Чтобы дом был Домом
Чтобы счастья много и регулярно
Чтобы спокойствия постоянно

Желаю всем реальной, а не имитационной трансформации
Осторожной цифровой адаптации

С наступающим новым годом!
Пусть радости будет много, а горя немного
То что все боялись по поводу госслежки во время пандемии таки случилось, хотя и не в России. В Сингапуре полиция намерена использовать данные приложения TraceTogether в криминальных расследованиях [1] [2].

И, хотя и обещают что, данные будут хранится в безопасной платформе и доступ будет только у ограниченного числа полицейских, а за незаконный доступ к данным штрафы будут достигать S$5000 (примерно - 280 тысяч рублей) или заключением до 2-х лет, тем не менее факт остаётся фактом, данные будут накапливаться и применяться в официальных расследованиях.

Здесь важно напомнить что в Сингапуре используется не анонимизирующее API от Google/Apple на основе которого работают приложения правительств большинства стран, а собственное приложение и устройство TraceTogether работающее по Bluetooth [3] и предполагающее неанонимизированное отслеживание контактов.

Пример Сингапура имеет сразу несколько прецендентов:
1. То что государство может в любой момент изменить статус доступа к данным и что даже условия приватности в созданных системах могут поменяться очень быстро и имеют обратную силу.
2. То что действия Google/Apple по блокировке любых приложений использующих отслеживание не через их API было обосновано. TraceTogether обходит это ограничение за счёт внешнего устройства.

Ссылки:
[1] https://sg.news.yahoo.com/trace-together-data-criminal-investigations-desmond-tan-080806396.html
[2] https://www.channelnewsasia.com/news/singapore/singapore-police-force-can-obtain-tracetogether-data-covid-19-13889914
[3] https://www.tracetogether.gov.sg/

#govenment #singapore #data #privacy
31 декабря вышел свежий пакет поручений Президента РФ, в том числе и среди поручения по развитию искусственного интеллекта есть пункт про данные [1]

в) в целях ускоренного создания отечественного программного обеспечения и программно-аппаратных комплексов на основе технологий искусственного интеллекта обеспечить внесение в законодательство Российской Федерации изменений, предусматривающих предоставление (при условии обеспечения защиты персональных данных) организациям, разрабатывающим технологические решения на основе искусственного интеллекта, доступа к наборам данных, содержащимся в том числе в государственных информационных системах, а также возможности использования указанными организациями таких данных.

Срок – 1 июля 2021 г.;

Поручение это дано Правительству РФ и вопросов по нему очень много.

- Как будут предоставляться наборы данных? Будут ли они общедоступны как открытые данные или же ограничены авторизацией?
- Если ограничены авторизацией то какой будет процедура доступа к данным?
- К данным каких именно государственно информационным системам будет организован доступ? Напомню что только федеральных более 800 штук
- Как будет организован доступ к данным в ГИС субъектов федерации?
- Что значит изменения в законодательстве? Будут менять федеральные законы? Но не все ГИС созданы и эксплуатируются на основании отдельных федеральных законов.

Из этого поручения становится понятнее спешка с инвентаризацией ГИС, но, как бы сказать, надо ещё посмотреть на результаты этой инвентаризации. Начиная с методики того как она должна проводиться.

Ссылки:
[1] https://kremlin.ru/acts/assignments/orders/64859

#opendata #data #ai #laws
Правительство РФ утвердило список из 28 приложений обязательных к предустановке с 1 апреля 2021 года [1].

Список включает:
- 16 приложений для смартфонов из которых 16 для Android и 14 для iPhone
- 1 приложение для Windows - пакет МойОфис
- 11 приложений для "умных" телевизоров

На что стоит обратить внимание:
- 4 приложения Яндекса и 7 приложений от Mail.ru и компаний входящих в Mail.ru Group
- 2 госприложения от структур подчинённых федеральному правительству, для смартфонов: Госуслуги и AppList.ru. Для телевизоров приложения Wink от Ростелекома и Смотрим от ФГУП ВГТРК
- судя по описанию AppList.ru - это аггрегатор для доступа к социальным ресурсам, сервисное приложение, возможно аналог AppStore или Google Play, хотя и до конца непонятно, пока его нет в открытом доступе.

Что остаётся за кадром:
- В регулировании пока нет упоминания будут ли приложения неудаляемыми, а если будут удаляемыми, то можно ли это будет сделать одной кнопкой или потребуется удалять каждое
- Что, в итоге, с политикой Apple по поводу предустановки приложений. Это вопрос уже не регулирования, а готовности компании это регулирование выполнять и процедур выполнения.
- ничего нет про региональный контур, мобильные приложения имеющие привязку к субъектам федерации, то же Пр-во Москвы полным ходом разрабатывает свой набор мобильных приложений.

P.S.
Небольшое отступление
Не могу не отметить что до сих пор, несмотря на то что уже 2021 год, цифровизация и всё такое, документы Правительства сначала доступны сканами, и только через недели в виде текстов. На сайте Правительства документы публикуются с задержкой в 3 недели, последние публиковались 19 декабря, а в системе НПА Минюста России в 2 недели, последние документы публиковались 23 декабря. Только на publication.pravo.gov.ru они публикуются относительно оперативно, но исключительно в отсканированном виде с неприличным названием "документы для качественной печати". Очень хочется надеяться что так будет не всегда.

Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202101060012?index=0&rangeSize=1

#government #apps #regulation
Ультиматум от WhatsApp "Либо делишься данными с Facebook, либо перестаёшь пользоваться приложением" в Arstechnica статья о том что WhatsApp поменяли правила использования [1]. С рекомендациями о том что пора переходить на другие мессенжеры, например, Signal.

Не отвлекаясь от темы WhatsApp'а, как нельзя кстати, новость на BBC о том что в спецбатальоне МВД собирали данные о передвижении Президента РФ именно через WhatsApp [2]. В данном случае не хочется даже иронизировать, потому что слов нет.


Ссылки:
[1] https://arstechnica.com/tech-policy/2021/01/whatsapp-users-must-share-their-data-with-facebook-or-stop-using-the-app/
[2] https://www.bbc.com/russian/news-55496368

#whatsapp
Короткое, 15-страничное, исследование о децентрализованной модели публикации данных вышло в декабре прошлого года от Open Data Institute [1]. Исследование о том как устроена публикация данных в рамках "инициатив по децентрализованной публикации данных" которые расшифровываются как соответствующие следующим критериям:
- данные публикуются децентрализованным образом: провайдеры данных делают данные доступными через их собственную инфраструктуру
- провайдеры данных публикуют данные об одинаковых типах данных, например, данных о расходах
- данные можно использовать или они открытые
- есть единый общий стандарт используемый всеми организациями с помощью которого данные публикуются схожим образом;
- инициатива предоставляет инструкции, инструменты и технологии для помощи в публикации данных, например, центральный реестр для помощи в их обнаружении

Таких инициатив немало, в данном случае в основном, были международные инициативы и инициативы в UK, такие как Open Contracting и Open Banking.

Обзор, хотя и сжатый и без деталей анализа каждого кейса, не бесполезный.

Ссылки:
[1] https://theodi.org/article/comparing-decentralised-data-publishing-initiatives-report/

#opendata
Стартап Deliveroo проиграл суд трём профсоюзам в Италии [1]. В основе обвинения лежит алгоритмическая дискриминация самозанятых (self-employed) работников в Deliveroo и нарушение местных законов из-за несоблюдения условий труда. Обвинения включали то что алгоритмы нагружающие курьеров не учитывали что они имеют право болеть или же их право на забастовку.

Мой комментарий
Возможны ли подобные ситуации у российских сервисов доставки? Лично я сомневаюсь, российские профсоюзы не являются активным политическом/общественным игроком, а есть ли они у курьеров - большой вопрос. Важно то что критерием юридической оценки роботизированных систем является то кто является их владельцем и выгодоприобретателем и отмазка "Это не мы, а алгоритм и мы тут не при чём, не работает". Впрочем, всё европейское регулирование движется в сторону ответственности разработчиков и эксплуатантов алгоритмов.

Ссылки:
[1] https://techcrunch.com/2021/01/04/italian-court-rules-against-discriminatory-deliveroo-rider-ranking-algorithm/

#ai #court #legislation #italy
Команда Jupyter выпустили новую версию Jupyter Lab 3.0 [1], системы для ведения научных блокнотов дата сайентистами по всему миру.

Из полезных изменений:
- визуальный дебаггер
- поддержка упрощённого интерфейса
- table of contents по умолчанию
- улучшенная работа с расширениями


В целом ощущение что всё больше движение в сторону executive papers, по крайней мере, в части подключения table of contents по умолчанию.

Лично я ещё не успел оценить все возможности по достоинству, но активно использую.

#datascience #tools
Незаслуженно упущенный мной из внимания доклад Public Provider versus Big Brother [1] о госполитике на основе современных технологий сбора данных. Подготовлен OPSI (Observatory of Public Service Information), структурой при ОЭСР и MBRCGI (Mohammed Bin Rashid Centre for Government Innovation) центром инноваций в госуправлении Саудовской Аравии.

Доклад, как можно догадаться из его названия, посвящён теме того как государства используют биометрию и сбор данных, для создания новых сервисов или же для систем слежки нового поколения. При том что я лично не восторге текстов и докладов публикуемых ОЭСР, в данном случае, он весьма лаконично и хорошо оформлен, с чёткими, хотя и очевидными рекомендациями, которые, если их перевести, выглядят так:
1. Активно занимайтесь вопросами, поднятыми этими технологиями.
2. Уделяйте приоритетное внимание завоеванию доверия со стороны общественности, чтобы успешно внедрять услуги, использующие эти технологии.
3. Работайте совместно не взирая на национальные границы, чтобы понять ограничения, подводные камни и возможности этих технологий.

Впрочем, в подобных международных докладах всегда самое интересное - это собранные со всего мира кейсы.
Например, такие как:
- сбор данных мобильных операторов в Чили для повышения безопасности женщин в общественном транспорте (Чили)
- системы идентификации по лицу для госуслуг и банковских сервисов (Сингапур)
- выработка политики сбора биометрии для гуманитарной помощи (Международный Красный Крест)
- проект HOPE по сбору гиперлокальных данных по качеству воздуха (Финляндия, Хельсинки)
- отправка дронов для снятия видео с мест происшествий/инцидентов (США, полиция Сан-Диего)

Про многие применения я лично, честно говоря, не знал и тем больше люблю читать про те примеры о которых ничего не знаю.

Ссылки:
[1] https://trends.oecd-opsi.org/trend-reports/public-provider-versus-big-brother

#data #privacy #government #policy
Amazon в след за Google и Apple добивают социальную сеть Parler куда мигрировал Трамп после блокировки в Twitter, Facebook и Instagram. Об этом пишут сейчас практически все СМИ в США, Arstechnica[1], NYT [2] и многие другие. Фактически Amazon поставили Parler ультиматум и нет гарантии что новый хостинг куда Parler может мигрировать не предъявит аналогичных требований.

Только Electronic Frontier Foundation пишут о том что права человека первичны [3], впрочем борьба с цензурой интернет платформ - это достаточно давняя их позиция.

Это, конечно, очень важная ситуация резкой политизации компании Кремниевой долины и технологических компаний. Список "сетевых цензоров" теперь состоит как минимум в виде Apple, Google и Amazon. Причём, если первые просто отрезают компании/сервисы от своей экосистемы, то Amazon не даёт другого выбора кроме поиска другого провайдера.

Честно говоря интересно что будет дальше. Поступят ли также облачные CDN вроде Cloudflare? Поступит ли также AT&T фильтруя трафик к сайтам со сторонниками Трампа? Иначе говоря, есть ли пределы подобной технологической цензуре.


Ссылки:
[1] https://arstechnica.com/tech-policy/2021/01/amazon-cuts-off-parlers-web-hosting-following-apple-google-bans/
[2] https://www.nytimes.com/2021/01/09/technology/apple-google-parler.html
[3] https://www.eff.org/deeplinks/2021/01/eff-response-social-media-companies-decision-block-president-trumps-accounts

#censorship #politics #trump
Я давно планировал написать про проблемы стандартизации работы с данными, она не так заметна в узкосфокусированных областях, но становится более чем актуальной когда много разных, часто малоуправляемых, источников данных публикующих данные о схожих объектах в разных форматах.

Прежде чем продолжить надо дать два определения:

стандарты метаданных - это способы описания хранимых наборов данных и иных цифровых объектов (digital assets). Они используются для того чтобы максимально полно хранить сведения о происхождении данных, первоисточнике, частоте обновления, форматах и иной сопутствующей информации которая необходима при обработке этих данных. Эти стандарты используются при каталогизации данных.

стандарты данных - это описание структур данных внутри набора данных. Они используются для того чтобы максимально удобно описать то что содержится в данном наборе данных. Стандарты данных используются при подготовке данных и их распространении.

И тех и других существует великое множество, я приведу кратко основные и далее уже по проблемам с ними связанными.

Подробнее в посте на Substack https://begtin.substack.com/p/11

#data #standards #regulation
Мэрия Москвы в лице ДИТ Москвы запланировала собирать больше данных о жителях города через создание новой системы сбора и хранения персональных данных. Об этом пишет Коммерсант [1] с указанием закупки на 185 миллионов рублей по инициативе властей города.

Более широкая картина
Система будет называться «Централизованное ведение профиля заявителя» (ГИС ЦВПЗ) и она очень похожа на аналогичную федеральную инициативу цифрового профиля который делают Минцифры РФ и ЦБ РФ. Интересно как в будущем эти системы будут интегрированы и будут ли, в принципе, власти Москвы склонны к созданию собственной, полузамкнутой экосистемы. Интересно также на основании каких соглашений с ФОИВами будут собираться сведения из федеральных баз данных, будут ли меняться федеральные законы и ещё много разных вопросов касательно среды в которой всё это происходит.

Последствия
Ключевое последствие - усиление Мэрии Москвы (ДИТ Москвы) на "административном рынке" слежки за гражданами. Москва не только крупнейший город страны и здесь не только около 80% денег банковской системы и все федеральные органы власти, но и крупнейший транспортный хаб.

Мои личные комментарии
Если сделать небольшое дополнение в политике регистрации сведений и на портале госуслуг Москвы могут обязать регистрироваться не только москвичей, но и всех тех кто пользуется московской транспортной инфраструктурой, участвует в госторгах, арендует помещения, снимает жильё и так далее. Иначе говоря значительная доля экономически активного населения уже находится под непрерывной слежкой и эта слежка будет всё полнее и шире.

Да, можно использовать собираемые данные для выдачи целевых субсидий, а можно использовать и для целевой модели выдачи льгот и лишения их десятков тысяч граждан которые власти города могут счесть "достаточно богатыми" чтобы их получать.

Ссылки:
[1] https://www.kommersant.ru/doc/4639641

#moscow #privacy
Несколько лет назад мы создавали сообщество по открытым данным Open Data Russia [1] в Slack'е, но потом оно пришло в заброшенное состояние поскольку Slack ещё нужно было устанавливать, а Telegram стоял у всех и активная жизнь есть в телеграм чате Open Data RU [2].

У Slack'а есть недостатки, хуже с уведомлениями, не такой продвинутый мобильный клиент, но есть и плюсы в том что можно подключать боты как часть сообщества, например, туда транслируются новости с Medium, можно использовать как файловый архив и разного рода тематические каналы.

Тем не менее в Slack было не меньше 250 человек и восстанавливать ли или инет Slack сообщество? Вот в чём вопрос и опрос который можно пройти Slack'е [3] если Вы в нём когда-либо участвовали или зарегистрировавшись там по ссылке [4]

[1] https://opendatarussia.slack.com/
[2] https://t.iss.one/opendatarussiachat
[3] https://opendatarussia.slack.com/archives/C0LBML4QL/p1610486538000300
[4] https://join.slack.com/t/opendatarussia/shared_invite/zt-3ootkyya-2k~w9urfomWp~aE4MjqgWg

#opendata #community
Нужно ли оживлять наше сообщество Open Data Russia в Slack ?
anonymous poll

Нет, хватает сообщества в Telegram – 99
👍👍👍👍👍👍👍 76%

Нет, непонятно зачем это всё – 25
👍👍 19%

Да, давно пора – 6
▫️ 5%

👥 130 people voted so far.
В качестве примера государственных _недокументированных_ API, активист в США несколько лет собирает и публикует список всех доступных государственных серверов геоданных в США и Канаде [1] включающий более 3500 сервисов недокументированного API, не присутствующего, например, в каталог API на портале API портала data.gov [2].

Но, поскольку API у ArcGIS весьма стандартизованное, то это позволяет создавать сервисы с его использованием.
Я скажу что в России также множество госресурсов онлайн с недокументированным API на получение данных. Мой внутренний каталог включает около 40 таких ресурсов только на федеральном уровне, а по субъектам федерации их будет ещё много больше. Это и про сервера с ArcGIS тоже.

Ссылки:
[1] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
[2] https://api.data.gov

#opendata #data #API
Sci-hub, крупнейшая онлайн база научных публикаций, обзавёлся доменным именем в системе Handshake.org [1] устойчивой к цензурным ограничениям и разделегированию доменов.

Здесь я также порекомендую сервис NextDNS [2] для всех кто хочет обеспечить свою приватность не только от гос-ва, торговцев копирайтом, но и работодателей и провайдеров. А также YogaDNS [3] как бесплатный продвинутый DNS клиент для Windows

Ссылки:
[1] https://handshake.org
[2] https://www.namebase.io/
[3] https://www.yogadns.com/

#privacy