Ivan Begtin
8K subscribers
1.93K photos
3 videos
101 files
4.63K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Журналистам на заметку, помимо канала Госзатраты в телеграм, у Госзатрат есть открытое API с помощью которого можно не только запрашивать данные, но и делать боты вроде того что наполняет этот канал. Если Вы хотите получать поток новостей по Вашей теме, то достаточно настроить такой бот под себя и получать новости на регулярной основе.
Forwarded from Госзатраты
162 миллиарда рублей было потрачено из федерального бюджета и 779 миллиардов из региональных бюджетов в 2020 году году на субсидии некоммерческим организацям. Из них на "классический некоммерческий сектор" (благотворительные фонды, НКО частных лиц и тд.) ушло не более 5% этой суммы через Фонд президентских грантов и региональные конкурсы. Остальные средства распределялись между несколькими сотнями крупнейших НКО учредителями которых являются госорганами, госучреждения, госкорпорации или иную прямую аффиляцию с государством. Я писал об этом в марте 2020 года в колонке РБК [1], сейчас, наконец-то, есть обновлённые цифры и желание закончить доклад о госрасходах на НКО в виде полноценного подробного документа с описанием ситуации. Но, может быть, надо просто написать ещё одну колонку.

Ссылки:
[1] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3

#ngo #government #budgets
Подборка полезных новостей про данные и не только:
- IBM купили Bluetab [1] разработчиков open-source продукта Truedat [2] для управления данными и их каталогизации
- В России утвердили стандарт больших данных [3], он, на самом деле, словарь, но может хоть наличие стандарта оставит все эти бесконечные терминологические споры (или усилит их)
- Quickwit [4] инструмент по быстрому превращению JSON документов в API с полнотекстовым поиском, поддерживает 17 языков на основе латиницы, китайский и корейский и другие языки библиотеки Tantivy [5] на которой он основан, хотя может быть и русский тоже, надо проверять. Написано на языке Rust.
- Анонсирована конференция PyData Global 28-30 октября и туда стоит подаваться с заявками на выступление [6]
- большая подборка ссылок и материалов о инициативах Data4Good [7]
- что такое современный стек данных (data stack) [8] через взгляд 5 разработчиков облачных сервисов и продуктов

Ссылки:
[1] https://bluetab.net/en/software/fastcapture/
[2] https://www.truedat.io
[3] https://www.vedomosti.ru/technology/articles/2021/07/15/878242-utverzhden-pervii-standart-v-oblasti-bolshih-dannih%C2%A0
[4] https://github.com/quickwit-inc/quickwit/
[5] https://github.com/tantivy-search/tantivy
[6] https://pydata.org/global2021/present/
[7] https://www.data.org/charting-the-data-for-good-landscape/
[8] https://www.rilldata.com/blog/5-founders-define-the-modern-data-stack

#opendata #data #datacatalogs
Forwarded from APICrafter
Регулярное пополнение наборов данных в APICrafter'е на 17 июля.

Добавлены наборы данных в разделе Инфраструктура
- точки продах Мегафон https://beta.apicrafter.ru/packages/megaphonsalespoints
- точки продаж МТС https://beta.apicrafter.ru/packages/mtssalespoints
- точки продаж Tele2 https://beta.apicrafter.ru/packages/tele2salespoints
- точки продаж Yota https://beta.apicrafter.ru/packages/yotasalespoints

Добавлены наборы данных в разделе Финансы
- Динамика курсов валют https://beta.apicrafter.ru/packages/cbrcurrencies
- Ключевая ставка Банка России https://beta.apicrafter.ru/packages/cbrkeyrate
- MosPrime Rate https://beta.apicrafter.ru/packages/cbrmosprime
- Ставка по кредитам овернайт (Банк России) https://beta.apicrafter.ru/packages/cbrovernight
- Международные резервы Российской Федерации https://beta.apicrafter.ru/packages/cbrreserves

В основном это данные, относительно, небольшого объёма в десятках тысяч записей, однако, к примеру, динамика курсов валют это 218 тысяч записей начиная с 1 июля 1992 года ежедневно по 144 валютам.

Все данные можно скачать как открытые данные и сейчас они доступны без необходимости авторизации. А также их можно скачать в виде слепков в формате BSON для СУБД MongoDB в сборках данных, пример, https://beta.apicrafter.ru/packages/cbrcurrencies/builds

Новые данные будут появляться еженедельно. Пока проект в стадии beta они будут актуализироваться время-от-времени, нерегулярно, а далее уже на регулярной основе.

Предложения, идеи и вопросы можно писать в форумах сообщества проекта https://apicrafter.userecho.com или в комментариях к постам в этом канале.
Вообще прежде чем запускать DataCrafter [1] я изучил несколько десятков каталогов данных и специального ПО для ведения таких каталогов.

У них у всех примерно 3 ниши:
- научная (репозитории научных данных)
- корпоративная/коммерческая (каталоги для data science)
- государственная (каталоги открытых данных)

Я об этом писал в большом обзоре в январе этого года [2].

Вот DataCrafter в чистом виде ни под одну из этих категорий не попадает поскольку это, по сути, некоторая польза для сообщества, некоторые возможности для аналитиков, а также... огромный тестовый полигон для тестирования алгоритмов автоматизации документирования данных, распознавания их структуры, классификации данных по типам и структуре полей и ещё многое другое.

У хорошего каталога всегда есть как минимум 4 направления развития:
- больше данных
- лучшее описание/документирование/инструментальное обеспечение данных
- улучшенный пользовательский интерфейс
- хорошая интеграция со всем что активно используется

Вот сейчас данных вроде как много, 359 доступных наборов данных, а можно добавить ещё несколько десятков тысяч (буквально), но тогда надо перестраивать веб-интерфейс потому что в текущем работать с такого рода количеством данных будет неудобно и полезные данные смешаются со всяким мусором.

Для документирования огромное пространство возможностей потому что сейчас не подгружена документация к 16386 полям. Документирование - это, всегда, самая ресурсоёмкая задача. Поскольку ещё и первоисточнику не всегда можно доверять, данные документации даже если даны структурировано, но ошибки часты. Без алгоритмической классификаци и автодокументирования тут не обойтись.

Пользовательский интерфейс самая понятная и самая сложная штука. Понятная потому что примеров много, сложная потому что разным пользователям нужно разное.

И интеграция это то без чего большинство пользователей не могут обойтись. И тут самое главное расстановка приоритетов, что и как должно быть в первую очередь.

Примеры для вдохновения больших публичных каталогов - это QRI [3], Data.world [4], Airtable [5], Dolthub [6] и многие другие

Сейчас DataCrafter - это каркас под все эти направления. Со сдержанным ростом числа баз данных, напащиванием алгоритмических возможностей и постепенным улучшением пользовательского опыта. Самое простое - это нарастить его объёмы, самое интересное - прокачать алгоритмы, самое важное - обеспечить пользователей удобными инструментами.

Ссылки:
[1] https://beta.apicrafter.ru
[2] https://begtin.substack.com/p/11
[3] https://qri.io
[4] https://data.world
[5] https://airtable.com
[6] https://www.dolthub.com

#data #datacatalogs #datacrafter
В OpenDemocracy статья Jansen Reventlow о том как государственные (автоматизированные) системы выходят из под контроля и разрушают жизни Government algorithms are out of control and ruin lives [1] со свежими примерами внедрения автоматических алгоритмов в Нидерландах. Скандал привел к заявлению об отставке правительства страны из-за плохого управления субсидиями на детей [2]. Ранее голландское агентство по защите данных выявило что голландская налоговая служба неэффективно управляла системой раздачи детских пособий. Эта система была организована так что правительство компенсировало до 90% расходов на детей бедным семьям через прямые выплаты компаниям и сервисам оказывающих услуги. Проверка выявила большое число фактов "обмана" со стороны получателей услуг, дискриминационного подхода в работе этой системы по причине национальности или двойного гражданства.

В результате 46 тысяч родителей были ошибочно обвинены в том что они злонамерянно запрашивали поддержку и получали её не имея на это право. Причем недавно выяснилось что на то чтобы разобраться с каждым случаем уйдет не менее 10 лет [4]. А тем временем многие оказались должны государству до десятков тысяч евро.

Статья заканчивается призывом к тому что контроль за ИИ - это важнейший фронтир для гражданского общества и внедрение новых технологий государством это не только большие возможности, но и большие опасности.

Ссылки:
[1] https://www.opendemocracy.net/en/digitaliberties/government-algorithms-are-out-control-and-ruin-lives/
[2] https://www.reuters.com/article/us-netherlands-politics-rutte-idUSKBN29K1NK
[3] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf
[4] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf

#ai #privacy
В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.

Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/

#privacy #search
Вчера закрылась Команда 29 и многочисленные их проекты, а сама команда предупредила что лучше удалить ссылки на их материалы поскольку закрываются они из-за обвинений в связях с нежелательной организацией Společnost Svobody Informace, НКО из Чехии.

Я, скажу честно, не ко всем проектам команды 29 относился с симпатией. У меня было немало претензий к их подходам к оценке открытости информации по 8-ФЗ и лично к Ивану Павлову, когда ещё в 2014 году в оценки открытости в России в Open Data Index его сотрудники пытались внести искажения которые показали бы состояние открытых данных в России лучше чем это было на самом деле. Но у них это тогда не получилоась, а то ради чего это делалось, пусть будет на их совести.

Как бы то ни было, несмотря на моё личное отрицательное отношение к деятельности многих в Команде 29, если от этого личного отношения отстраниться, то, конечно, они были одними из немногих кто занимался вопросами открытости в России. Мои личные антипатии не означает что я не могу признать большой и важной работы которую эта команда делала. Больше того, ещё недавно многие госорганы ссылались на результаты их исследований. На сайте Минфина России есть специальный раздел где ещё в декабре 2020 года они публиковали "сертификаты системы Инфометр" (за что я их отдельно критиковал, в том числе). Так что же теперь у нас Минфин России популяризирует материалы иностранного агента?

Я по прежнему настаиваю на том тезисе что открытость данных и государства в целом бессмысленна в условиях ликвидации потребителей этой открытости.

#opengov #opendata
В Мексике произошла предположительная утечка данных о 91 миллионе избирателей [1]. На теневых форумах продают эти данные и утверждают что они содержат все личные данные мексиканских избирателей на 2021 год.

Характерны комментарии в треде обсуждения "и вот так же они будут хранить наши биометрические данные?".

Ссылки:
[1] https://twitter.com/UnderTheBreach/status/1416664889603526660

#privacy #leaks #voters
Свежий дайджест по работе с данными:
- Netflix открыли код Data Explorer [1] инструмента для навигации по хранилищам данных Redis, Cassandra, Dynomite
- команда конструктора аналитики Cube.js с открытым кодом получила $15.5 миллионов инвестиций [2] на развитие их API на данных. Ранее компания уже привлекла $6.2 миллиона в прошлом году [3]
- статья MacKinsey о том почему важно работать с данными для разработки стратегий компаний [4]
- о вреде разметки данных вручную в статье Hand Labeling Considered Harmful [5] команды ORelly, там же ссылка на полезную статью 2017 года Software 2.0 [6]


Ссылкти:
[1] https://github.com/Netflix/nf-data-explorer
[2] https://venturebeat.com/2021/07/19/cube-dev-raises-15-5m-to-commercialize-its-open-source-data-api-platform/
[3] https://www.crunchbase.com/organization/cube-dev/company_financials
[4] https://www.mckinsey.com/business-functions/strategy-and-corporate-finance/our-insights/the-strategy-analytics-revolution
[5] https://www.oreilly.com/radar/arguments-against-hand-labeling/
[6] https://karpathy.medium.com/software-2-0-a64152b37c35

#data #digest
Многочисленные напоминания для тех кто не знает чем я занимаюсь.

Коммерческие проекты:
- https://apicrafter.ru (коммерческие API к ЕГРЮЛ, госзакупкам и тд.)
-https://beta.apicrafter.ru - DataCrafter, публичный первичных данных доступных как открытые данные и API.

Общественные проекты Инфокультуры:
- Госзатраты https://clearspending.ru
- Открытые НКО https://openngo.ru
- Хаб открытых данных https://hubofdata.ru
- Простой язык https://plainrussian.ru
- Национальный цифровой архив https://ruarxive.org
- Данные НКО https://ngodata.ru

Телеграм каналы
- Мой канал в телеграм где я регулярно пишу о данных, государстве, госзакупках, технологиях и ещё много о чём https://t.iss.one/begtin
- Телеграм канал APICrafter'а https://t.iss.one/apicrafter
- Телеграм канал Инфокультуры https://t.iss.one/infoculture
- Телеграм канал ассоциации АУРД https://t.iss.one/aurdata

Открытый код
- мой открытый код https://github.com/ivbeg
- открытый код Инфокультуры https://github.com/infoculture
- открытый код Нацархива https://github.com/ruarxive
- открытый код APICrafter'а https://github.com/apicrafter и https://github.com/datacoon

Рассылки:
- моя рассылка про данные https://begtin.substack.com
- рассылка Инфокультуры https://infoculture.ru
Я регулярно пишу о том существует ли в России практика раскрытия исходного кода и вот пополнение, оказывается у Института системного программирования им. В.П. Иванникова РАН есть открытый аккаунт в Github [1], добавил их в специальный список Awesome list of Russian government open source repositories and projects [2]. Примеров таких исключительно мало, даже неизвестно насколько официальный статус имеет этот аккаунт потому что на сайте ИСП РАН ссылки на Github нет [3], а с другой стороны на Github'е довольно большая команда.

Я, кстати, не могу не напомнить что большая часть общедоступного исходного кода в развитых странах раскрывается именно в рамках открытости научных исследований. Да и открытых данных, кстати, тоже.

Ссылки:
[1] https://github.com/ispras
[2] https://github.com/infoculture/awesome-gov-opensource-russia
[3] https://www.ispras.ru

#opensource #government
К вопросу об актуализации технологий и в продолжение раскрытия государственного кода. Несколько лет назад ДИТ Москвы инициативно раскрыли исходный код нескольких проектов на блокчейн которые используются для голосования в Москве, для заявок в реестр ярмарок и так далее. Всё это подавалось как прозрачные проекты с раскрытием кода и с возможностью проверить записи в блокчейне. Но, не прошло и пары лет, а этот код уже не работает. Пример, код для проверки блокчейн записей о заявках на ярмарки в Москве [1] был основан на продукте Parity Shell, который уже устарен пару лет назад [2], больше не работает и не обновляется код проекта. Как результат не работает и код раскрытый ДИТ Москвы.

Почему? Потому что открытый код - это не однократное его раскрытие, а работа с сообществом над его улучшением. Вот они раскрыли тогда код - хорошо. На тот момент хорошо, а на сегодня уже неработает.

Ссылки:
[1] https://github.com/moscow-technologies/fairs-blockchain
[2] https://github.com/parity-js/shell/

#opensource #moscow
Лично я не могу прокомментировать в подробностях этот проект НПА поскольку не работает regulation.gov.ru, но всё что я успел прочитать о нём очень печально. Как скоро книги о космосе будут изымать из магазинов? Как скоро будут закрывать сайты посвящённые космосу и армии? Уголовное преследование за несекретную информацию звучит очень и очень нехорошо, не только потому что будут пострадавшие, а ещё и потому что это выглядит как какая-то предвоенная мера. А вот чего-чего, а войны, в ближайшем будущем и в любом будущем совсем бы не хотелось.
Проект приказа директора ФСБ Александра Бортникова, опубликованный 19 июля для общественного обсуждения на Федеральном портале проектов нормативных правовых актов меньше, чем за сутки собрал рекордное количество просмотров.

Похоже, портал не выдержал такого наплыва посетителей и еще утром 20 июля перестал работать.
В службе технической поддержки весь день сообщали, что “ведутся работы по восстановлению работоспособности портала”.

В итоге ознакомиться с резонансным проектом стало возможно лишь после окончания рабочего дня. На момент написания этого поста у проекта около 13,8 тысяч просмотров и их количество продолжает расти. Хотя другие опубликованные в этот день проекты привлекли всего лишь десятки, в редких случаях – несколько сотен пользователей.

В документе содержится широкий перечень не секретных сведений в области военной и военно-технической деятельности России, которые при получении их иностранным источником могут быть использованы против национальной безопасности.

В 61 пункт перечня входят, в том числе, сведения о “соблюдении законности и морально-психологическом климате” или “о ходе и результатах рассмотрения сообщений о преступлениях и предварительного расследования” в армии, а также о закупках товаров, работ и услуг для нужд военных и даже о результатах научно-технического уровня изучения космоса иностранными организациями.

За сбор таких сведений человек – если он получает от иностранных источников деньги, имущество или любую "организационно-методическую" помощь – должен под угрозой уголовной ответственности признать себя иностранным агентом и зарегистрироваться в соответствующем перечне Минюста. За нарушение этого требования он может получить 5 лет лишения свободы.

Перечень разработан в соответствии с законом, принятым Госдумой в конце 2020 года. Общественное обсуждение проекта продлится до 2 августа, независимая экспертиза – до 25 июля.
В свежем расследовании Сергея Шпилькина про 29 миллионов переболевших [1] важно не только само расследование, к нему уже есть комментарии разбирающие его [2], важнее то что нет смысловой/содержательной/осмысленной реакции Минздрава РФ да и оперштаба тоже. Важная российская особенность в том что с начала пандемии российским Правительством / Минздравом / Оперштабами не опубликовано ни одного набора данных относящихся к COVID-19. Всё что есть было собрано активистами с сайтов вроде стопкоронавирус.рф, из поисковой выдачи поисковых систем, по другим косвенным признакам. Мы от Инфокультуры контактировали с теми кто такие данные собирал и выкладывали их на Humanitarian Data Exchange [3], фактически, выполняя ту работу которую должны делать правительственные и региональные чиновники.

Я хочу обратить внимание что за эти годы весь социальный блок органов власти в нашей стране по закрытости мог бы соревноваться разьве что с МВД или другими правоохранительными органами. Данные не раскрываются не только о COVID-19, в принципе медицинская статистика, даже региональная, а уж о более гранулярной и речи ещё нет, не публикуется. Диалога с обществом о доступности данных не ведётся и, не велось даже во время открытого пр-ва, сопротивление со стороны Минздрава, Минобра и др. было коллосальным.

Что хуже - это то что шло и идёт вымывание профессионалов из очень многих областей госусправления. Вот этот пример с номерами переболевших очень показателен. Может ли со стороны Минздрава кто-то содержательно подробно прокомментировать откуда возникла такая ситуация? Проблема в том что нет, не могут. Также как и в десятках других отраслей. В ИТ сфере это выражается в вымывании самого понятия архитектуры государственных ИТ решений причем в долгосрочном плане. Все настолько увлечены тактическими планами что "поговорить не с кем".

Ссылки:
[1] https://holod.media/2021/07/20/unrz/
[2] https://www.facebook.com/alexx.dragan/posts/4263649057027571
[3] https://data.humdata.org/organization/infoculture

#opendata #investigations
В продолжение про данные о Covid-19, Минцифра заключила контракт с AT Consulting по доработке НСУД и там в документе ТЗ начиная с 43 страницы есть таблица со списком "Базовые наборы данных для первичной загрузки в Подсистему информационно-аналитического обеспечения"

Это не секретные данные, под проект приказа ФСБ не попадают, так почему они до сих пор не открыты? Всего в списке 62 набора данных, если ещё остались журналисты запрашивающие данные у органов власти, то вот вам наводка у какой организации что запрашивать.

#opendata #nsud #contracts