Ivan Begtin – Telegram

Ivan Begtin

8K subscribers

1.93K photos

3 videos

101 files

4.63K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

Журналистам на заметку, помимо канала Госзатраты в телеграм, у Госзатрат есть открытое API с помощью которого можно не только запрашивать данные, но и делать боты вроде того что наполняет этот канал. Если Вы хотите получать поток новостей по Вашей теме, то достаточно настроить такой бот под себя и получать новости на регулярной основе.

Госзатраты

Телеграм-канал о самых дорогих контрактах по 44-ФЗ. Каждый день публикуются ТОП-3 дорогих контрактов за неделю по разным отраслям. Также публикуются контракты, незаурядно дорогие для своей отрасли (для связи: op @ clearspending.ru)

1.2K viewsIvan Begtin, 07:07

Forwarded from Госзатраты

Заключен дорогой контракт в категории 'Строительство':
Реконструкция аэропортового комплекса с. Чара (Забайкальский край) - этап 1.1 и др.
Сумма контракта: 2,1 млрд. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ КАЗЕННОЕ УЧРЕЖДЕНИЕ "СЛУЖБА ЕДИНОГО ЗАКАЗЧИКА" ЗАБАЙКАЛЬСКОГО КРАЯ
Поставщик: ПУБЛИЧНО-ПРАВОВАЯ КОМПАНИЯ "ВОЕННО-СТРОИТЕЛЬНАЯ КОМПАНИЯ"
Регион: Забайкальский край
Дата заключения: 12.07.2021

Подробнее о контракте
#строительство

1.2K viewsIvan Begtin, 07:07

162 миллиарда рублей было потрачено из федерального бюджета и 779 миллиардов из региональных бюджетов в 2020 году году на субсидии некоммерческим организацям. Из них на "классический некоммерческий сектор" (благотворительные фонды, НКО частных лиц и тд.) ушло не более 5% этой суммы через Фонд президентских грантов и региональные конкурсы. Остальные средства распределялись между несколькими сотнями крупнейших НКО учредителями которых являются госорганами, госучреждения, госкорпорации или иную прямую аффиляцию с государством. Я писал об этом в марте 2020 года в колонке РБК [1], сейчас, наконец-то, есть обновлённые цифры и желание закончить доклад о госрасходах на НКО в виде полноценного подробного документа с описанием ситуации. Но, может быть, надо просто написать ещё одну колонку.

Ссылки:
[1] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3

#ngo #government #budgets

Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях

Создание государством некоммерческих организаций и прямое их субсидирование — это вывод огромных бюджетных средств из-под общих требований к госзакупкам и прозрачности

1.5K viewsIvan Begtin, 09:19

Подборка полезных новостей про данные и не только:
- IBM купили Bluetab [1] разработчиков open-source продукта Truedat [2] для управления данными и их каталогизации
- В России утвердили стандарт больших данных [3], он, на самом деле, словарь, но может хоть наличие стандарта оставит все эти бесконечные терминологические споры (или усилит их)
- Quickwit [4] инструмент по быстрому превращению JSON документов в API с полнотекстовым поиском, поддерживает 17 языков на основе латиницы, китайский и корейский и другие языки библиотеки Tantivy [5] на которой он основан, хотя может быть и русский тоже, надо проверять. Написано на языке Rust.
- Анонсирована конференция PyData Global 28-30 октября и туда стоит подаваться с заявками на выступление [6]
- большая подборка ссылок и материалов о инициативах Data4Good [7]
- что такое современный стек данных (data stack) [8] через взгляд 5 разработчиков облачных сервисов и продуктов

Ссылки:
[1] https://bluetab.net/en/software/fastcapture/
[2] https://www.truedat.io
[3] https://www.vedomosti.ru/technology/articles/2021/07/15/878242-utverzhden-pervii-standart-v-oblasti-bolshih-dannih%C2%A0
[4] https://github.com/quickwit-inc/quickwit/
[5] https://github.com/tantivy-search/tantivy
[6] https://pydata.org/global2021/present/
[7] https://www.data.org/charting-the-data-for-good-landscape/
[8] https://www.rilldata.com/blog/5-founders-define-the-modern-data-stack

#opendata #data #datacatalogs

The Data Governance Open Source Solution

1.3K viewsIvan Begtin, 17:26

Forwarded from APICrafter

Регулярное пополнение наборов данных в APICrafter'е на 17 июля.

Добавлены наборы данных в разделе Инфраструктура
- точки продах Мегафон https://beta.apicrafter.ru/packages/megaphonsalespoints
- точки продаж МТС https://beta.apicrafter.ru/packages/mtssalespoints
- точки продаж Tele2 https://beta.apicrafter.ru/packages/tele2salespoints
- точки продаж Yota https://beta.apicrafter.ru/packages/yotasalespoints

Добавлены наборы данных в разделе Финансы
- Динамика курсов валют https://beta.apicrafter.ru/packages/cbrcurrencies
- Ключевая ставка Банка России https://beta.apicrafter.ru/packages/cbrkeyrate
- MosPrime Rate https://beta.apicrafter.ru/packages/cbrmosprime
- Ставка по кредитам овернайт (Банк России) https://beta.apicrafter.ru/packages/cbrovernight
- Международные резервы Российской Федерации https://beta.apicrafter.ru/packages/cbrreserves

В основном это данные, относительно, небольшого объёма в десятках тысяч записей, однако, к примеру, динамика курсов валют это 218 тысяч записей начиная с 1 июля 1992 года ежедневно по 144 валютам.

Все данные можно скачать как открытые данные и сейчас они доступны без необходимости авторизации. А также их можно скачать в виде слепков в формате BSON для СУБД MongoDB в сборках данных, пример, https://beta.apicrafter.ru/packages/cbrcurrencies/builds

Новые данные будут появляться еженедельно. Пока проект в стадии beta они будут актуализироваться время-от-времени, нерегулярно, а далее уже на регулярной основе.

Предложения, идеи и вопросы можно писать в форумах сообщества проекта https://apicrafter.userecho.com или в комментариях к постам в этом канале.

1.1K viewsIvan Begtin, 19:04

Вообще прежде чем запускать DataCrafter [1] я изучил несколько десятков каталогов данных и специального ПО для ведения таких каталогов.

У них у всех примерно 3 ниши:
- научная (репозитории научных данных)
- корпоративная/коммерческая (каталоги для data science)
- государственная (каталоги открытых данных)

Я об этом писал в большом обзоре в январе этого года [2].

Вот DataCrafter в чистом виде ни под одну из этих категорий не попадает поскольку это, по сути, некоторая польза для сообщества, некоторые возможности для аналитиков, а также... огромный тестовый полигон для тестирования алгоритмов автоматизации документирования данных, распознавания их структуры, классификации данных по типам и структуре полей и ещё многое другое.

У хорошего каталога всегда есть как минимум 4 направления развития:
- больше данных
- лучшее описание/документирование/инструментальное обеспечение данных
- улучшенный пользовательский интерфейс
- хорошая интеграция со всем что активно используется

Вот сейчас данных вроде как много, 359 доступных наборов данных, а можно добавить ещё несколько десятков тысяч (буквально), но тогда надо перестраивать веб-интерфейс потому что в текущем работать с такого рода количеством данных будет неудобно и полезные данные смешаются со всяким мусором.

Для документирования огромное пространство возможностей потому что сейчас не подгружена документация к 16386 полям. Документирование - это, всегда, самая ресурсоёмкая задача. Поскольку ещё и первоисточнику не всегда можно доверять, данные документации даже если даны структурировано, но ошибки часты. Без алгоритмической классификаци и автодокументирования тут не обойтись.

Пользовательский интерфейс самая понятная и самая сложная штука. Понятная потому что примеров много, сложная потому что разным пользователям нужно разное.

И интеграция это то без чего большинство пользователей не могут обойтись. И тут самое главное расстановка приоритетов, что и как должно быть в первую очередь.

Примеры для вдохновения больших публичных каталогов - это QRI [3], Data.world [4], Airtable [5], Dolthub [6] и многие другие

Сейчас DataCrafter - это каркас под все эти направления. Со сдержанным ростом числа баз данных, напащиванием алгоритмических возможностей и постепенным улучшением пользовательского опыта. Самое простое - это нарастить его объёмы, самое интересное - прокачать алгоритмы, самое важное - обеспечить пользователей удобными инструментами.

Ссылки:
[1] https://beta.apicrafter.ru
[2] https://begtin.substack.com/p/11
[3] https://qri.io
[4] https://data.world
[5] https://airtable.com
[6] https://www.dolthub.com

#data #datacatalogs #datacrafter

Ivan’s Begtin Newsletter on digital, open and preserved government

#11. Стандарты работы с данными

Хрун-Варвар согласно стандартам Пупземелья считался чуть ли не академиком, поскольку умел думать, не шевеля при этом губами. (с) Цвет волшебства

1.2K viewsIvan Begtin, 09:11

В OpenDemocracy статья Jansen Reventlow о том как государственные (автоматизированные) системы выходят из под контроля и разрушают жизни Government algorithms are out of control and ruin lives [1] со свежими примерами внедрения автоматических алгоритмов в Нидерландах. Скандал привел к заявлению об отставке правительства страны из-за плохого управления субсидиями на детей [2]. Ранее голландское агентство по защите данных выявило что голландская налоговая служба неэффективно управляла системой раздачи детских пособий. Эта система была организована так что правительство компенсировало до 90% расходов на детей бедным семьям через прямые выплаты компаниям и сервисам оказывающих услуги. Проверка выявила большое число фактов "обмана" со стороны получателей услуг, дискриминационного подхода в работе этой системы по причине национальности или двойного гражданства.

В результате 46 тысяч родителей были ошибочно обвинены в том что они злонамерянно запрашивали поддержку и получали её не имея на это право. Причем недавно выяснилось что на то чтобы разобраться с каждым случаем уйдет не менее 10 лет [4]. А тем временем многие оказались должны государству до десятков тысяч евро.

Статья заканчивается призывом к тому что контроль за ИИ - это важнейший фронтир для гражданского общества и внедрение новых технологий государством это не только большие возможности, но и большие опасности.

Ссылки:
[1] https://www.opendemocracy.net/en/digitaliberties/government-algorithms-are-out-control-and-ruin-lives/
[2] https://www.reuters.com/article/us-netherlands-politics-rutte-idUSKBN29K1NK
[3] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf
[4] https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/onderzoek_belastingdienst_kinderopvangtoeslag.pdf

#ai #privacy

Government algorithms are out of control and ruin lives

A drive for automation within a broader context of criminalising poverty and systemic racism has disastrous effects

1.3K viewsIvan Begtin, edited 04:53

В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.

Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/

#privacy #search

2.3K viewsIvan Begtin, 05:49

Вчера закрылась Команда 29 и многочисленные их проекты, а сама команда предупредила что лучше удалить ссылки на их материалы поскольку закрываются они из-за обвинений в связях с нежелательной организацией Společnost Svobody Informace, НКО из Чехии.

Я, скажу честно, не ко всем проектам команды 29 относился с симпатией. У меня было немало претензий к их подходам к оценке открытости информации по 8-ФЗ и лично к Ивану Павлову, когда ещё в 2014 году в оценки открытости в России в Open Data Index его сотрудники пытались внести искажения которые показали бы состояние открытых данных в России лучше чем это было на самом деле. Но у них это тогда не получилоась, а то ради чего это делалось, пусть будет на их совести.

Как бы то ни было, несмотря на моё личное отрицательное отношение к деятельности многих в Команде 29, если от этого личного отношения отстраниться, то, конечно, они были одними из немногих кто занимался вопросами открытости в России. Мои личные антипатии не означает что я не могу признать большой и важной работы которую эта команда делала. Больше того, ещё недавно многие госорганы ссылались на результаты их исследований. На сайте Минфина России есть специальный раздел где ещё в декабре 2020 года они публиковали "сертификаты системы Инфометр" (за что я их отдельно критиковал, в том числе). Так что же теперь у нас Минфин России популяризирует материалы иностранного агента?

Я по прежнему настаиваю на том тезисе что открытость данных и государства в целом бессмысленна в условиях ликвидации потребителей этой открытости.

#opengov #opendata

1.4K viewsIvan Begtin, edited 12:22

В Мексике произошла предположительная утечка данных о 91 миллионе избирателей [1]. На теневых форумах продают эти данные и утверждают что они содержат все личные данные мексиканских избирателей на 2021 год.

Характерны комментарии в треде обсуждения "и вот так же они будут хранить наши биометрические данные?".

Ссылки:
[1] https://twitter.com/UnderTheBreach/status/1416664889603526660

#privacy #leaks #voters

1.3K viewsIvan Begtin, 05:15

Свежий дайджест по работе с данными:
- Netflix открыли код Data Explorer [1] инструмента для навигации по хранилищам данных Redis, Cassandra, Dynomite
- команда конструктора аналитики Cube.js с открытым кодом получила $15.5 миллионов инвестиций [2] на развитие их API на данных. Ранее компания уже привлекла $6.2 миллиона в прошлом году [3]
- статья MacKinsey о том почему важно работать с данными для разработки стратегий компаний [4]
- о вреде разметки данных вручную в статье Hand Labeling Considered Harmful [5] команды ORelly, там же ссылка на полезную статью 2017 года Software 2.0 [6]

Ссылкти:
[1] https://github.com/Netflix/nf-data-explorer
[2] https://venturebeat.com/2021/07/19/cube-dev-raises-15-5m-to-commercialize-its-open-source-data-api-platform/
[3] https://www.crunchbase.com/organization/cube-dev/company_financials
[4] https://www.mckinsey.com/business-functions/strategy-and-corporate-finance/our-insights/the-strategy-analytics-revolution
[5] https://www.oreilly.com/radar/arguments-against-hand-labeling/
[6] https://karpathy.medium.com/software-2-0-a64152b37c35

#data #digest

GitHub - Netflix/nf-data-explorer: The Data Explorer gives you fast, safe access to data stored in Cassandra, Dynomite, and Redis.

The Data Explorer gives you fast, safe access to data stored in Cassandra, Dynomite, and Redis. - Netflix/nf-data-explorer

1.3K viewsIvan Begtin, 05:58

Многочисленные напоминания для тех кто не знает чем я занимаюсь.

Коммерческие проекты:
- https://apicrafter.ru (коммерческие API к ЕГРЮЛ, госзакупкам и тд.)
-https://beta.apicrafter.ru - DataCrafter, публичный первичных данных доступных как открытые данные и API.

Общественные проекты Инфокультуры:
- Госзатраты https://clearspending.ru
- Открытые НКО https://openngo.ru
- Хаб открытых данных https://hubofdata.ru
- Простой язык https://plainrussian.ru
- Национальный цифровой архив https://ruarxive.org
- Данные НКО https://ngodata.ru

Телеграм каналы
- Мой канал в телеграм где я регулярно пишу о данных, государстве, госзакупках, технологиях и ещё много о чём https://t.iss.one/begtin
- Телеграм канал APICrafter'а https://t.iss.one/apicrafter
- Телеграм канал Инфокультуры https://t.iss.one/infoculture
- Телеграм канал ассоциации АУРД https://t.iss.one/aurdata

Открытый код
- мой открытый код https://github.com/ivbeg
- открытый код Инфокультуры https://github.com/infoculture
- открытый код Нацархива https://github.com/ruarxive
- открытый код APICrafter'а https://github.com/apicrafter и https://github.com/datacoon

Рассылки:
- моя рассылка про данные https://begtin.substack.com
- рассылка Инфокультуры https://infoculture.ru

1.4K viewsIvan Begtin, 12:56

Я регулярно пишу о том существует ли в России практика раскрытия исходного кода и вот пополнение, оказывается у Института системного программирования им. В.П. Иванникова РАН есть открытый аккаунт в Github [1], добавил их в специальный список Awesome list of Russian government open source repositories and projects [2]. Примеров таких исключительно мало, даже неизвестно насколько официальный статус имеет этот аккаунт потому что на сайте ИСП РАН ссылки на Github нет [3], а с другой стороны на Github'е довольно большая команда.

Я, кстати, не могу не напомнить что большая часть общедоступного исходного кода в развитых странах раскрывается именно в рамках открытости научных исследований. Да и открытых данных, кстати, тоже.

Ссылки:
[1] https://github.com/ispras
[2] https://github.com/infoculture/awesome-gov-opensource-russia
[3] https://www.ispras.ru

#opensource #government

Ivannikov Institute for System Programming of the Russian Academy of Sciences

Ivannikov Institute for System Programming of the Russian Academy of Sciences has 112 repositories available. Follow their code on GitHub.

1.4K viewsIvan Begtin, 15:45

К вопросу об актуализации технологий и в продолжение раскрытия государственного кода. Несколько лет назад ДИТ Москвы инициативно раскрыли исходный код нескольких проектов на блокчейн которые используются для голосования в Москве, для заявок в реестр ярмарок и так далее. Всё это подавалось как прозрачные проекты с раскрытием кода и с возможностью проверить записи в блокчейне. Но, не прошло и пары лет, а этот код уже не работает. Пример, код для проверки блокчейн записей о заявках на ярмарки в Москве [1] был основан на продукте Parity Shell, который уже устарен пару лет назад [2], больше не работает и не обновляется код проекта. Как результат не работает и код раскрытый ДИТ Москвы.

Почему? Потому что открытый код - это не однократное его раскрытие, а работа с сообществом над его улучшением. Вот они раскрыли тогда код - хорошо. На тот момент хорошо, а на сегодня уже неработает.

Ссылки:
[1] https://github.com/moscow-technologies/fairs-blockchain
[2] https://github.com/parity-js/shell/

#opensource #moscow

GitHub - moscow-technologies/fairs-blockchain: Блокчейн Ярмарки выходного дня

Блокчейн Ярмарки выходного дня. Contribute to moscow-technologies/fairs-blockchain development by creating an account on GitHub.

1.3K viewsIvan Begtin, 18:13

Лично я не могу прокомментировать в подробностях этот проект НПА поскольку не работает regulation.gov.ru, но всё что я успел прочитать о нём очень печально. Как скоро книги о космосе будут изымать из магазинов? Как скоро будут закрывать сайты посвящённые космосу и армии? Уголовное преследование за несекретную информацию звучит очень и очень нехорошо, не только потому что будут пострадавшие, а ещё и потому что это выглядит как какая-то предвоенная мера. А вот чего-чего, а войны, в ближайшем будущем и в любом будущем совсем бы не хотелось.

1.3K viewsIvan Begtin, 18:17

Forwarded from BBC News | Русская служба

Проект приказа директора ФСБ Александра Бортникова, опубликованный 19 июля для общественного обсуждения на Федеральном портале проектов нормативных правовых актов меньше, чем за сутки собрал рекордное количество просмотров.

Похоже, портал не выдержал такого наплыва посетителей и еще утром 20 июля перестал работать. В службе технической поддержки весь день сообщали, что “ведутся работы по восстановлению работоспособности портала”.

В итоге ознакомиться с резонансным проектом стало возможно лишь после окончания рабочего дня. На момент написания этого поста у проекта около 13,8 тысяч просмотров и их количество продолжает расти. Хотя другие опубликованные в этот день проекты привлекли всего лишь десятки, в редких случаях – несколько сотен пользователей.

В документе содержится широкий перечень не секретных сведений в области военной и военно-технической деятельности России, которые при получении их иностранным источником могут быть использованы против национальной безопасности.

В 61 пункт перечня входят, в том числе, сведения о “соблюдении законности и морально-психологическом климате” или “о ходе и результатах рассмотрения сообщений о преступлениях и предварительного расследования” в армии, а также о закупках товаров, работ и услуг для нужд военных и даже о результатах научно-технического уровня изучения космоса иностранными организациями.

За сбор таких сведений человек – если он получает от иностранных источников деньги, имущество или любую "организационно-методическую" помощь – должен под угрозой уголовной ответственности признать себя иностранным агентом и зарегистрироваться в соответствующем перечне Минюста. За нарушение этого требования он может получить 5 лет лишения свободы.

Перечень разработан в соответствии с законом, принятым Госдумой в конце 2020 года. Общественное обсуждение проекта продлится до 2 августа, независимая экспертиза – до 25 июля.

1.5K viewsIvan Begtin, 18:17

В свежем расследовании Сергея Шпилькина про 29 миллионов переболевших [1] важно не только само расследование, к нему уже есть комментарии разбирающие его [2], важнее то что нет смысловой/содержательной/осмысленной реакции Минздрава РФ да и оперштаба тоже. Важная российская особенность в том что с начала пандемии российским Правительством / Минздравом / Оперштабами не опубликовано ни одного набора данных относящихся к COVID-19. Всё что есть было собрано активистами с сайтов вроде стопкоронавирус.рф, из поисковой выдачи поисковых систем, по другим косвенным признакам. Мы от Инфокультуры контактировали с теми кто такие данные собирал и выкладывали их на Humanitarian Data Exchange [3], фактически, выполняя ту работу которую должны делать правительственные и региональные чиновники.

Я хочу обратить внимание что за эти годы весь социальный блок органов власти в нашей стране по закрытости мог бы соревноваться разьве что с МВД или другими правоохранительными органами. Данные не раскрываются не только о COVID-19, в принципе медицинская статистика, даже региональная, а уж о более гранулярной и речи ещё нет, не публикуется. Диалога с обществом о доступности данных не ведётся и, не велось даже во время открытого пр-ва, сопротивление со стороны Минздрава, Минобра и др. было коллосальным.

Что хуже - это то что шло и идёт вымывание профессионалов из очень многих областей госусправления. Вот этот пример с номерами переболевших очень показателен. Может ли со стороны Минздрава кто-то содержательно подробно прокомментировать откуда возникла такая ситуация? Проблема в том что нет, не могут. Также как и в десятках других отраслей. В ИТ сфере это выражается в вымывании самого понятия архитектуры государственных ИТ решений причем в долгосрочном плане. Все настолько увлечены тактическими планами что "поговорить не с кем".

Ссылки:
[1] https://holod.media/2021/07/20/unrz/
[2] https://www.facebook.com/alexx.dragan/posts/4263649057027571
[3] https://data.humdata.org/organization/infoculture

#opendata #investigations

Журнал «Холод»

29 миллионов

В закрытом COVID-реестре Минздрава оказалось в пять раз больше записей, чем официально заболевших в России

1.9K viewsIvan Begtin, 06:20

В продолжение про данные о Covid-19, Минцифра заключила контракт с AT Consulting по доработке НСУД и там в документе ТЗ начиная с 43 страницы есть таблица со списком "Базовые наборы данных для первичной загрузки в Подсистему информационно-аналитического обеспечения"

Это не секретные данные, под проект приказа ФСБ не попадают, так почему они до сих пор не открыты? Всего в списке 62 набора данных, если ещё остались журналисты запрашивающие данные у органов власти, то вот вам наводка у какой организации что запрашивать.

#opendata #nsud #contracts

2.2K viewsIvan Begtin, 07:13

1.8K viewsIvan Begtin, 07:13