Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Я регулярно пишу и выступаю о рынке "пробива информации" в России и неспособности силовых органов что-либо с этим поделать. А вот прилетают и последствия. Юра Синодов в FB пишет [1] про очередное расследование Bellingcat на основе данных по биллингу. А на сайте самих Bellingcat (его легко найти) в избытке информации собранной через пробив людей, их автомобилей и тд.

Даже не знаю что тут сказать. Многократный фэйспалм

Ссылки:
[1] https://www.facebook.com/sinodov/posts/10160272266922785

#data #darkmarket
На днях Сбербанк в лице Sberbank.AI выложили в открытый доступ языковую модель GPT-3 Large с 760 миллионами параметров о чём написали на Хабре [1], опубликовали открытый репозиторий кода [2] и примеры [3] как я понимаю всё это в контексте международного соревнования AI Journey [4]

Если рассматривать Сбербанк как продолжение государства, то всё это можно рассматривать, и как открытость кода, и как открытость данных создаваемых государством (хотя и не органами власти).

Ссылки:
[1] https://habr.com/ru/company/sberbank/blog/524522/
[2] https://github.com/sberbank-ai/ru-gpts
[3] https://github.com/sberbank-ai/ruGPT3_demos
[4] https://ai-journey.ru/

#data #ai #opendata #opensource
Очередная еженедельная рассылка. На этот раз тема #5. Экономика открытых данных и коммерческие проекты на их основе. [1]

1. Один из ключевых вызовов перед всеми движениями за открытость - это их экономическая обоснованность. При том что этих движений много: open knowledge, open source, open data, open hardware, в итоге оказывается что устойчивая экономически обоснованная модель существования пока существует только вокруг открытого кода (open source).
...

Ссылки:
[1] https://begtin.substack.com/p/5-

#opendata #data #economy
Digital Minilateralism: How governments cooperate on digital governance [1] публикация Института Беннета при Кэмбриджском университете о том как сейчас происходят многосторонние коммуникации/партерства (minilateralism) стран в цифровую эпоху. С полезным обзором того что такое D5, D7, D9 (Цифровая пятерка, семерка, девятка) и ещё многие другие межстрановые инициативы.

Документ короткий, читается легко, на некоторые мысли о дальнейшем развитии цифровизации в мире наводит.

Ссылки:
[1] https://www.bennettinstitute.cam.ac.uk/media/uploads/files/Digital_minilateralism_Digital.pdf

#digital #government
Банк России совместно с Ассоциацией ФинТех разработал стандарты открытых банковских интерфейсов (открытых API). О чём можно узнать из их пресс-релиза [1] и прочитать подробнее [2] в разделе правовых актов [2] в виде 4-х PDF документов объёмом чуть менее 300 страниц.

С одной стороны радует что Банк России разрабатывает и публикует стандарты которые, можно надеяться, рано или поздно будут применяться банками.

С другой стороны, всё таки Банк России не орган власти и не закован в кандалы ГОСТов по публикации документации. Открытые стандарты для API можно вполне публиковать в более наглядном виде как это делают монетарные власти других стран. Гонконга [3], например или общественного проекта в Великобритании [4] и не говоря уже о многочисленных сайтах для разработчиков создаваемых самими банками.

Всем этим я хочу сказать что если Банк России был бы, что ли, более вогонечным человечным, то никто его за это не осудил.

P.S. Отдельная тема - это UML графики в стандартах, об этом обсуждения комментариях к публикации у Максима Смирнова [5]

Ссылки:
[1] https://www.cbr.ru/press/event/?id=8223
[2] https://www.cbr.ru/fintech/acts/?la.search=&la.tagid=3&la.vidid=26&la.date.time=any&la.date.datefrom=&la.date.dateto=
[3] https://www.hkma.gov.hk/eng/key-functions/international-financial-centre/fintech/open-application-programming-interface-api-for-the-banking-sector/
[4] https://www.openbanking.org.uk/
[5] https://t.iss.one/it_arch/938

#banking #cbr #api
В New York Times большая статья "Does Palantir See Too Much?" про Palantir [1], ту самую "мистическую" компанию создающие инструменты анализа данных которыми пользуются спецслужбы в США и в других странах. Статья большая, подробная, и весьма неплохо написанная.

Специально не буду приводить всех фактов и выводов, но почитать её будет полезно всем кто ими интересуются.

Ссылки:
[1] https://www.nytimes.com/interactive/2020/10/21/magazine/palantir-alex-karp.html

#data #intelligence #palantir
Для тех кто любит работать с данными, использует Jupyter Notebook и библиотеку для работы с данными Pandas, будет интересно посмотреть на PandasGUI [1] интерактивный инструмент для работы с Pandas DataFrame. Весьма полезный для задач проверки данных. Демо пример его работы можно посмотреть на видео [2]

Ссылки:
[1] https://github.com/adamerose/pandasgui
[2] https://www.youtube.com/watch?v=NKXdolMxW2Y

#data #pandas
Для тех кто читает и изучает ежегодно Gartner Hype Cycle появилась наглядная видеоинфографика изменений в технологических прогнозах за 25 лет [1], а также автор выложил данные на основе которых это видео создавалось [2].

25 лет хайпа, с выявлением технологий упомянутых единожды, категорий технологий и многое другое. Автор Mark Mine весьма дотошно подошёл к тому чтобы показать изменения более чем наглядно. На его данных Amelia Wattenberger также сделала интерактивную визуализацию [3] уже без видео, но в виде графика.

Ссылки:
[1] https://vimeo.com/464835556
[2] https://drive.google.com/file/d/1y_fzgknqRdPa0KfXiGq44blGqDN3NYv3/view
[3] https://wattenberger.com/hype-cycle

#visual #gartner #hype
В США полным ходом идёт не только подготовка в выборам Президента, но и моделирование их исхода. Свои модели выпустили 538 [1] и Economist [2], в том числе делая акцент на возможных сценариях развития и корреляциям между голосованием по отдельным штатам.

И там и там модели основаны на результатах опросов, а прогнозно обе модели показывают что:
- Байден станет президентом
- скорее всего контроль над сенатом будет у демократов
- совершенно точно контроль над палатой представителей будет у демократов

Впрочем политические прогнозы хотя и интересны, интересно развитие моделей предсказаний и их результатов.

Ссылки:
[1] https://projects.fivethirtyeight.com/2020-election-forecast/
[2] https://projects.economist.com/us-2020-forecast/president

#elections #data
Может ли искусственный интеллект заменить архитекторов и урбанистов или хотя бы помочь им в проектировании городов? Продукт Delve [1] от SideWalkLabs - это сервис для автоматического моделирования жилых кварталов по заданным параметрам с подбором наиболее оптимального варианта зависящего от этих параметров и территории. Всё это, конечно же, в облаке, с искусственным интеллектом (умными алгоритмами) и перебором множества вариантов.

В параметрах учитываются: плотность, комфортабельность, доступность дневного света, пешая доступность общественного транспорта, удобство прогулок

Ссылки:
[1] https://hello.delve.sidewalklabs.com/

#urban #ai
Вышел доклад Automating Society Report 2020 [1] от AlgorithmWatch, в докладе обзор автоматизации в понимании алгоритмических систем в таких странах Европы как: Бельгия, Дания, Эстония, Финляндия, Франция, Германия, Греция, Италия, Голландия, Польша, Португалия, Словения, Испания, Швеция, Швейцария и Великобритания. В целом это более половины Европейского союза.

Доклад отражает картину жизни граждан в среде где есть системы автоматического принятия решений (ADM systems).

В докладе много примеров применения ADM систем, многие были мне неизвестны. Например "Gladsaxe-model" в Дании, это система баллов оценки 'уязвимости ребенка' на основе таких параметров как: плохое душевное здоровье родителя (3000 баллов), отсутствие работы у родителя (500 баллов), пропущенное посещение доктора (500 баллов) и так далее. Работу системы сейчас приостановили, но исследования продолжились.
Также там ещё очень много примеров.

Ссылки:
[1] https://automatingsociety.algorithmwatch.org/

#algorithms
В мире всё больше проектов мониторинга государственных мер в ситуации с COVID-19. Некоторые из них государственные и многие общественные.

Вот некоторые из них:
- Citizen Budget Tracker [1] проект группы волонтеров на Филлипинах
- COVID-19 Africa Public Finance Response Monitor [2] мониторинг того как реагируют министры финансов африканских стран [3]
- Сведения о бюджетных расходах на борьбу с COVID-19 публикуют власти Бразилии на портале прозрачности [4]
- В Аргентине правительство публикует сведения о мерах на портале открытых данных [5]
- В Мексике финансовые данные о реакции на COVID-19 публикуются на портале Padrón de Beneficiarios (PUB) [6]
- На Украине мониторингом занимаются Transparency Int. Ukraine через проект DoZorro [7]

Необходим ли мониторинг расходов на COVID-19 в России? Есть ли хоть одна инициатива в этой области?

Ссылки:
[1] https://www.covidbudget.ph/
[2] https://www.cabri-sbo.org/en/blog/2020/covid-19-africa-public-finance-response-monitor-how-african-governments-particularly-ministries-of-finance-are-tackling-covid-19
[3] https://www.cabri-sbo.org/en/pages/covid-19-public-finance-monitor
[4] https://www.portaltransparencia.gov.br/programas-e-acoes/acao/21C0-enfrentamento-da-emergencia-de-saude-publica-de-importancia-internacional-decorrente-do-coronavirus
[5] https://www.buenosaires.gob.ar/coronavirus/medidas-de-gobierno
[6] https://pub.bienestar.gob.mx/#:~:text=El%20Padr%C3%B3n%20%C3%9Anico%20de%20Beneficiarios,de%20Geoestad%C3%ADstica%20y%20Padrones%20de
[7] https://dozorro.org/

#budgets #spending #covid19
Необходим ли общедоступный мониторинг, реестр проектов, бюджетов и контрактов и открытые данные по всем расходам и государственным инициативам вокруг COVID-19?
anonymous poll

Да, нужен как независимый общественный проект – 91
👍👍👍👍👍👍👍 55%

Да, нужен от Счетной палаты – 64
👍👍👍👍👍 39%

Да, нужен, но только чтобы от Прокуратуры (и с открытыми данными по посадкам) – 7
👍 4%

Да, нужен от Правительства РФ – 3
▫️ 2%

Нет необходимости, имеющейся информации достаточно – 1
▫️ 1%

👥 166 people voted so far.
Дайджест новостей по открытым данным:
- Microsoft вместе с ODI запускают инициативу по Data Collaboration https://blogs.microsoft.com/on-the-issues/2020/10/22/peer-learning-network-for-data-collaborations/
- в Австралии началась вторая фаза сбора предложений для третьего национального плана по открытости https://ogpau.pmc.gov.au/consultations/phase-2c-final-consultation-draft-commitments
- в блоге проекта Qri о том как архивировать данные из Airtable https://medium.com/qri-io/archiving-your-airtable-data-with-qri-12dbda8783c3
- научная статья о барьерах в обмене данными о гидрометеорологии в Европе https://www.sciencedirect.com/science/article/abs/pii/S0022169410001496
- обзор инструментов для обзора Земли, какие инструменты мониторинга Земли лучше использовать https://towardsdatascience.com/the-best-earth-observation-data-science-toolkits-a51d867343a0
- Aura Network, совместная исследовательская инициатива Великобритании и Ирландии по исследованию применения искусственного интеллекта к архивам рожденных-в-цифре документов https://www.aura-network.net/

#opendata
Сегодня было большое онлайн мероприятие по простоте и понятности законов «О языке законов, их понятности и сложности» с презентациями и выступлениями коллег из нескольких университетов и, в том числе, моим выступлением.

Если была запись, я потом выложу на него ссылку. А пока небольшая презентация про то как простота НПА устроена в мире и в России и о нашем проекте Простой русский язык

Ссылки:
[1] https://www.beautiful.ai/player/-MKtlUfFd3FAkgQyXZca
[2] https://plainrussian.ru

#plainrussian
Сегодня у меня день мероприятий и второе мероприятие на котором я выступал - это всероссийская конференция «Информация и коммуникация в цифровую эпоху: явные и неявные воздействия» [1]

С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.

Ссылки:
[1] https://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97

#privacy #covid19
Помните в мае 2019 года я публиковал доклад об утечках персональных данных из государственных информационных систем? [1] Хотите знать что изменилось за эти годы? А ничего не изменилось.

1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.

В качестве примера сайт https://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.

Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.

Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
Но вернуться к этой теме всё равно придется несмотря на её "подвешенное состояние", с её регулятором Роскомнадзором, взаимодействовать бессмысленно, по моему опыту, у Минцифры тема не на повестке, у Счетной палаты у неё нет полномочий, а говорить об этом с людьми в Прокуратуре - это сразу жесткий вариант и неизвестно работающий ли.

Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.

#privacy #leaks
Если Вы ещё не читали, то очень рекомендую почитать свежий документ Third wave of Open Data [1] от Open Data Policy Lab [2] о том как развивается тема открытых данных.

Документ интересный с одной стороны, с описанием многих трендов в мире, а с другой стороны, конечно, не полный и всё более похожий на профессиональный консалтерский, продукт. Даже беглым чтением я там насчитал более 70 терминов сочетающихся с "data ...": data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps и ещё бесконечное множество как ранее использовавшихся, так и свежих. Я так и не понял причин такого терминологического разнообразия.

В то же время, например, в документе нет ни слова про Open Knowledge Foundation, ничего нет про Open Data Barometer и Global Data Barometer. Впрочем возможно это как подчеркивание что у третьей волны другие лидеры и Open Data Policy Lab и упоминаемые ими в докладе одни из них?


Ссылки:
[1] https://opendatapolicylab.org/third-wave-of-open-data/
[2] https://opendatapolicylab.org

#opendata #reports