Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.55K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
AI Localism - это когда регулирование алгоритмических систем осуществляется на уровне города, муниципального образования, с охватом жизни людей на четко очерченной территории. Об этом Stefaan Verhulst писал ещё в феврале 2020 [1], а вот и подоспели живые примеры такого регулирования.

Городские власти Амстердама и Хельсинки ввели реестры алгоритмических систем / ИИ [3] [4]. Пока систем там немного и информации о них также немного, сами реестры работают на платформе Saidot [5], создателей которой вместе с представителями городов Амстердама и Хельсинки описывает то почему и зачем это делается в документе Public AI Registers [6]


Ссылки:
[1] https://medium.com/data-stewards-network/realizing-the-potential-of-ai-localism-c3d8b4c751ca
[2] https://news.cision.com/fi/city-of-helsinki/r/helsinki-and-amsterdam-first-cities-in-the-world-to-launch-open-ai-register,c3204076
[3] https://ai.hel.fi/
[4] https://algoritmeregister.amsterdam.nl/
[5] https://www.saidot.ai/
[6] https://uploads-ssl.webflow.com/5c8abedb10ed656ecfb65fd9/5f6f334b49d5444079726a79_AI%20Registers%20-%20White%20paper%201.0.pdf

#ai #transparency
Я реже чем надо пишу о том чем, в том числе, занимается Инфокультура. Например, помощью НКО
На ютуб-канале Инфокультуры опубликована серия видеоуроков для сотрудников некоммерческих организаций. В роликах социологи и эксперты по работе с данными рассказывают, с чего начать изучение социальной проблемы, как правильно сформулировать методологическую часть исследования, выбрать методы, построить выборочную совокупность, а также какие нюансы важно знать при сборе и обработке персональных данных.

Смотрите ролики на нашем канале:
🔹 Проблема, объект и предмет, цель, задачи и гипотезы исследования. Владимир Звоновский https://youtu.be/e3Lq7jW7kBU
🔹 Методы исследования. Часть 1. Анна Ипатова https://youtu.be/faeTxscIMHI
🔹 Методы исследования. Часть 2. Анна Ипатова https://youtu.be/LPNsiOWDstU
🔹 Как грамотно построить выборочную совокупность? Владимир Звоновский https://youtu.be/Dk-9LucK7pQ
🔹 Особенности работы с персональными данными. Иван Бегтин https://youtu.be/qd4aZmBzCM8
Kostas Stathoulopoulos, стажёр в Фонде Mozilla создал [1] инструмент с открытым кодом Orion [2] в котором с помощью машинного обучения производится поиск перспективных научных направлений и областей научных знаний с большими пробелами.

Подробнее о разработке в блоге автора [3].

Основным источником материалов был BioArxiv, поэтому большой акцент на биологии, но авторы обещают что проиндексировать могут любые статьи, так что, видимо, проект ещё будет развиваться.

Ссылки:
[1] https://foundation.mozilla.org/en/blog/open-source-tool-accelerate-scientific-knowledge-discovery/
[2] https://www.orion-search.org/
[3] https://medium.com/@kstathou/a-walkthrough-of-orions-backend-data-and-design-decisions-f60c01b507aa
[4] https://www.biorxiv.org/

#openscience #opendata
Для тех кто хочет поработать с большими данными или, например, ищет учебные задачи для студентов ИТ специальностей, обратите внимание на DBLP [1]. Это огромная библиографическая база из более чем 5 миллионов 284 тысяч публикаций, включая публикации в журналах, по итогам конференций, книг и тезисов. Для всех кто пишет научные статьи - это огромная база метаданных необходимая для работы.

Но, конечно, такой объём данных интересен не только для выбора тем для научных статей и исследований, он практически идеально подходит для создания инструментов вроде Orion [2], в котором сейчас статьи по биологии и биоинформатики (источник - bioarxiv.org).

Дампы DBLP обновляются ежемесячно, их можно скачать в XML формате [3]. Это 560 мегабайт в сжатом виде и 3 гигабайта в распакованном виде. Впрочем, опять же, главное не только объём в байтах, а сами данные и возможность строить множество различных сервисов на их основе.

Ссылки:
[1] https://dblp.org
[2] https://t.iss.one/begtin/2152
[3] https://dblp.org/xml/

#opendata #data #openaccess
IBM добавили открытые данные в их облачный сервис IBM SQL Query [1]. Это включает геоданные и данные о демографии из таких источников как: US Census, Eurostat Census, UNdata, OpenStreetMap и Natural Earth.

Фактически, это справочные данные которые можно совместить с собственными данными для создания новых наборов данных. Подход вполне логичный, постепенно все облачные сервисы с инструментами работы с большими данными подключают многие наборы данных "из коробки' для снижения расходов клиентов.

Ссылки:
[1] https://cloud.ibm.com/docs/sql-query?topic=sql-query-what-s-new#october-2020

#opendata #data #ibm
В США на портале USASpending.gov теперь есть отдельный раздел COVID-19 Spending [1] где собраны все контракты, субсидии, гранты, строки бюджета, бюджетные обязательства и кредиты направленные на борьбу с COVID-19.

Как это реализуется? Для чрезвычайных ситуаций в системе контрактации США есть специальные Disaster Emergency Fund Codes (DEFC) [2], коды финансирования при чрезвычайных ситуациях, заполняемые только в случаях если расходы идут для ликвидации последствий, предупреждения или мерам реагирования при чрезвычайной ситуации.

И, в целом, у USASPending хорошо описана методология работы с этими данными [3].

Наш, российский портал Госрасходы, spending.gov.ru [4] похож на портал в США, с тем лишь различием что в России раскрытие сведений о контрактах - это побочный результат раскрытия сведений о процедурах закупок, а в США, наоборот, сведения о закупках и раскрытие информации о расходах разнесены между информационными системами. Их USASpending охватывает не только закупки и субсидии, но и все прямые платежи из федерального бюджета, а Госрасходах охватываются контракты всех уровней в России, но нет охвата транзакций.

В, принципе, российская система раскрытия информации о госфинансах одна из самых открытых в мире, даже несмотря на закрытие информации о поставщикам по контрактам по 223-ФЗ в 2018 году, принятое в рамках антисанкционных мер.

Ссылки:
[1] https://www.usaspending.gov/disaster/covid-19
[2] https://www.whitehouse.gov/wp-content/uploads/2020/04/Implementation-Guidance-for-Supplemental-Funding-Provided-in-Response.pdf
[3] https://www.usaspending.gov/disaster/covid-19/data-sources
[4] https://spending.gov.ru

#spending #usa
Незаслуженно пропущенная мной новость о том что Mozilla опубликовали исследования в направлении Data Futures [1], например, отчет Shifting Power Through Data Governance [2] о 7 подходах в управлении данными, это такие подходы как:
- data cooperative (кооператив данных)
- data commons (общие данные)
- data collaborative (совместные данные)
- data trust (фонд данных)
- data fiduciary (дата-опека)
- Indigenous data sovereignty (автохонный суверенитет над данными)
- data marketplace (маркетплейс данных)

Исследование более чем полезное для всех кто хочет понимать как будет развиваться дальнейшее регулирование работы с данными в ЕС, США и других странах. Как будет устроено управление данными в некоммерческих организациях.

Ссылки:
[1] https://foundation.mozilla.org/en/initiatives/data-futures/
[2] https://drive.google.com/file/d/1OB9iXHFCxk4Dc-1E5B_O48LKCC6mWtcT/view

#data #datapolicy
Для тех кто интересуется как исследуют госзакупки в других странах, европейский проект TheyBuyForYou.eu [1] финансируется в рамках исследовательской программы Horizon 2020 и нацелен на построение Knowledge Graph (графа знаний) на данных о закупках в Евросоюзе с использованием онтологий OCDS и euBusinessGraph.

В том числе исследователи проекта занимаются поиском типовых шаблонов и аномалий [2], правда, если честно и на мой взгляд, то они это делают довольно наивно. Для глубокого анализа и выявления разного рода "аномалий" не обойтись без работы с данными которые относятся к персональным, выявления конфликтов интересов, аффиляции участвующих поставщиков и многое другое.

Ссылки:
[1] https://theybuyforyou.eu/
[2] https://theybuyforyou.eu/detecting-patterns-and-anomalies-in-spending-data/

#opendata #procurement #eu
Если коротко про последний указ мэра Москвы Собянина об обязанности работодателей передавать персональные данные о сотрудниках, то в России появилась новая спецслужба, это Мэрия Москвы. Почему, кто, как и зачем это им позволил, вопрос отдельный, но важно помнить что федеральные законы эта спецслужба игнорирует.

Об этом я ранее комментировал в Коммерсант.FM https://t.iss.one/kommersant/15349

#privacy #moscow #bigbrother
В канале TAdviser (https://t.iss.one/tadviser) просто потоком список сотрудников ПФР связанных с цифровизацией отправленных в СИЗО в последние сутки, спасибо Циниксу за наводку (https://t.iss.one/CynExp).

Хотелось бы надеяться, но нет, слишком много денег погрузили в национальную программу Цифровая экономика, слишком много денег тратят на ИТ. Сложно поверить что не вскроются ситуации и похуже чем то что происходит в ПФР.

#procurement
Два очень разных и по разному интересных публичных доклада State of AI 2020 [1] от команды State of AI и 2020 State of the API report [2] от разработчиков сервиса проектирования и тестирования API - Postman.

В обоих случаях вопрос о развитии рынка, сервисов, направлений, потребителей. В State of AI важные прогнозы, сбывшиеся и будущие и поведение игроков на рынке. State of API куда больше про технологии и изменение в их применении потребителями и разработчиками API.

Ссылки:
[1] https://www.stateof.ai/
[2] https://www.postman.com/state-of-api
#reports
Для тех кто интересуется созданием и развитием государственных информационных систем в России, обратите внимание на последний бюллетень Счетной палаты [1], где на 105-107 страниц есть любопытные подробности по государственной информационной системе учета твердых коммунальных отходов (ГИС УТКО). Не без ссылки на наш аналитический доклад [2] по открытости ГИСов.


Ссылки:
[1] https://ach.gov.ru/upload/iblock/462/46234b3e3624fcccbb8bace5c892f2f4.pdf#page=105
[2] https://ach.gov.ru/upload/pdf/%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D1%81%D1%82%D0%B8%20%D0%93%D0%98%D0%A1%202020.pdf

#opendata #gis #data
Кратко о платформах работы с данными на которые стоит обратить внимание и лично я отслеживаю:
- Streamr [1] платформа для распространения данных в реальном времени
- Data.world [2] уже 5-летний стартап-платформа для публикации данных, одна из попыток сделать Git для данных
- Splitgraph [3] продукт с интересной идеей предоставления доступа к 40 тысячам наборов открытых данных через СУБД на базе PostgreSQL. Работать можно как с любой другой базой данных стандартными средствами.
- DoltHub [4] другой Git для данных, с удобной командной строкой, но без открытого кода. Продуманное версионирование данных
- Quilt [5] большой каталог очень больших данных на 3.7 петабайт 10.2 миллиарда объектов (чаще файлов) в 30 блоках Amazon Web Services

Ссылки:
[1] https://streamr.network/
[2] https://data.world/
[3] https://www.splitgraph.com/
[4] https://www.dolthub.com/
[5] https://open.quiltdata.com/

#opendata #data #platforms
Судя по всему, и тому всё более подтверждений [1], Роскомнадзор взялся за кеширующие сервера Google в России. Пока трудно понять до конца все последствия того к чему приведет их отключение, как минимум, снижение российского трафика, рост трафика зарубежного и замедление Youtube. Отразится ли это на скорости и качестве работы других сервисов Google ? Вот в чём вопрос

Ссылки:
[1] https://t.iss.one/zatelecom/15810

#runet
Forwarded from Эшер II A+
👉 Когда вы смотрите картинки Google или YouTube, то зачастую вы не технически не ходите по проводам в США, а забираете данные с так называемых «Google Global Cache» (GGC). Это сервера, установленные по всему миру. Google старается расположить их у каждого более-менее заметного провайдера. В каждой его сети. Что будет, если их прямо сейчас снять? Будет тормозить ютубчик и возрастёт доля зарубежного трафика. Причем настолько возрастет, что может поменять ценовую политику

👉 Несколько лет назад у кого-то «засвербило» и провайдеров пытались заставить сертифицировать эти сервера или снять. Не без активной помощи всем известного анонимного бывшего федерального чиновника Google «родил» декларацию соответствия и от GGC отстали

⚡️⚡️⚡️ Но что-то опять пошло не так...

В целях оценки по обеспечению устойчивого, безопасного и целостного функционирования на территории Российской Федерации информационно-телекоммуникационной сети «Интернет» в соответствии с положениями Федерального закона от 1 мая 2019 г. № 90-ФЗ «О внесении изменений в Федеральный закон «О связи» и Федеральный закон «Об информации, информационных технологиях и о защите информации» просим представить информацию об установленном или планируемом к установке на Ваших сетях специализированном иностранном телекоммуникационном оборудовании «Google Global Cache».

Информацию просим направить в Управление по надзору в сфере информационных технологий Роскомнадзора по адресу: 109992, г. Москва, Китайгородский проезд, д. 7, стр. 2 и на адрес электронной почты [email protected] в возможно короткие сроки.

‼️ Возможно это утка, но за сутки никто не опроверг. Я не знаю как это искать. Роскомнадзор ни разу мне не ответил по делу быстро, так что я им просто не пишу уже. Но все, кому пришло, воспринимают это за чистую монету

💥 Мне всегда нравились многие обоснования каких-то действий чиновников. «В целях запаха моего обеденного супа». Людмила Бокова перешла работать в Роскомнадор? Кто будет предложения согласовывать? Причем тут вообще №90-ФЗ от 01 мая 2019 г.? Название красивое и слово «безопасность» есть?

☝️ Чем им помешал кэш — не понятно. Вот уж у американцев точно хватает на российских сетях разведывательных устройств кроме GGC
Свежий пост/рассылка через Substack по теме "#3. Государственные доклады, государственный открытый код и другие результаты государственных контрактов" [1]

Подписаться можно в моём блоге/рассылке на Substack [2], это формат под большие тексты которые никак целостно не помещаются в формат телеграм канала

Ссылки:
[1] https://begtin.substack.com/p/3-
[2] https://begtin.substack.com/

#data #procurement #government
Счетная палата опубликовала рейтинг ИТ расходов федеральных органов власти. О нем можно прочитать в новости на сайте СП РФ [1], а с самим рейтингом ознакомиться на сайте проекта Госрасходы [2] и о нем пишет Ольга Пархимович у себя в канале "Ах, этот Минфин" [3].

Рейтинг можно скачать в XLSX или CSV формате, сделать выводы как просмотрев его визуально, так и машинным образом обработав данные.

Обратите внимание что:
1. Охвачены не только ФОИВы, но и другие федеральные ГРБС
2. У некоторых органов власти доля прямых ИТ расходов по госконтрактам превышает 25%.
3. В рейтинге учитываются не только контракты, но и ИТ-субсидии подведомственным учреждениям.
4. Для полноты картины, конечно, интересно сделать не рейтинг, а визуализацию структуры расходов органов власти хотя бы по таким группам как: ИТ, строительство, автотранспортное обслуживание, и тд. Но это уже скорее не рейтинг, а большой аналитический материал.
5. Подробная методология составления рейтинга тоже опубликована [4], она будет полезна всем кто анализирует ИТ расходы.

Ссылки:
[1] https://ach.gov.ru/news/ckolko-ministerstva-i-vedomstva-tratyat-na-it-novyy-reyting-portala-gosraskhody-
[2] https://spending.gov.ru/analytics/ratings/it/
[3] https://t.iss.one/ahminfin/289
[4] https://spending.gov.ru/analytics/ratings/it/methodology/

#spending #opendata #it
Тема не про IT, но весьма интересная. Люди подвержены микроэволюции и эволюция людей ускорилась за последние 250 лет. Австралийские исследовали выяснили [1].

Например:
- челюсти и рты людей становятся меньше
- всё меньше людей рождается с зубами мудрости
- появилось больше артерий в предплечьях, для питания кистей рук
- стали сохраняться медианные артерии

Подробнее в статье Recently increased prevalence of the human median artery of the forearm: A microevolutionary change [2]

Ссылки:
[1] https://news.sky.com/story/human-microevolution-sees-more-people-born-without-wisdom-teeth-and-an-extra-artery-12099689
[2] https://onlinelibrary.wiley.com/doi/10.1111/joa.13224

#research #humans
Несмотря на то что я много пишу тут в телеграме, тексты в СМИ и ещё веду много разной консультационной работы, программирование я почти никогда не бросал и хотя бы несколько часов в неделю всегда стараюсь найти, как минимум для того чтобы поддерживать навыки ну и просто потому что это же страшно интересно. Но если лет 15 назад моя работа состояла из программирования и проектирования ПО, а то как устроено государство и данные было хобби, то последние лет 8-9 скорее она состоит из всего остального, а программирование почти превратилось в хобби.

Для тех кто интересуется открытым кодом работы с данными напоминаю что и я и мои коллеги публикуем открытый код как минимум здесь:
- https://github.com/ivbeg
- https://github.com/infoculture
- https://github.com/ruarxive
- https://github.com/datacoon
- https://code.ach.gov.ru/public

Это такие инструменты для работы с данными:
- https://github.com/datacoon/undatum - Undatum, инструмент командной строки для обработки файлов JSON Lines, преобразованию форматов и тд. Создан под обработку особенно больших jsonl файлов, таких как дампы из проекта Госрасходы.
- https://github.com/datacoon/russiannames - парсер русскоязычных ФИО с идентификацией пола и идентификацией того как ФИО написаны
- https://github.com/datacoon/datadifflib - библиотека создания diff'ов, дельт изменений между разными версиями одного набора данных в CSV или JSON
- https://github.com/ruarxive/apibackuper - утилита по архивации данных публикуемых через API
- https://github.com/datacoon/apiready - давний инструмент командной строки по быстрому созданию API из CSV или JSON файла

Инструменты извлечения данных:
- https://github.com/ivbeg/newsworker - продвинутая библиотека извлечения новостей из веб-сайтов у которых нет экспорта новостей в RSS/ATOM.
- https://github.com/ivbeg/lazyscraper - утилита командной строки для скрейпинга данных для ленивых. Полезно когда совсем лень писать код
- https://github.com/ivbeg/docx2csv - утилита извлечения таблиц из файлов DOCX и сохранения их в CSV формат. Оказывается нужно чаще чем хотелось бы
- https://github.com/ivbeg/qddate - библиотека идентификации и разбора дат написанных на любом языке и в любом стиле, без знания об этом стиле и языке заранее

Репозитории по созданию датасетов:
- https://github.com/infoculture/govdomains - реестр всех госдоменов (сейчас мигрирует в Airtable, а в репозиторий выкладываю слепки)
- https://github.com/infoculture/ruregions - реестр метаданных по российским регионам

Наверное есть ещё что-то на чём можно сделать акцент, но я и сам уже всё не припомню. Открытость кода - это хорошо, многое не получается выложить только от того что не хватает времени всё документировать.

#opensource