Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Не бывает нормальных госреестров, бывают недообследованные (с)

Чтобы для коллег из Минцифры которые читают мои публикации потом это не было неожиданностью, несколько фактов про реестр аккредитованных ИТ компаний [1]

1. Примерно у 1.5% записей недостоверные реквизиты, около 200 записей из 13543. Не точно потому что где-то записи дублируются, а где-то, например, перепутаны названия организаций и реквизиты ИНН/ОГРН соседних записей и требуется ручная проверка. Скорее всего реально записей с ошибками больше.
2. Многие ИТ компании одновременно являются образовательными учреждениями и я не понимаю как они заявляют (заявили) выручку от ИТ в 90%. Примеры: Университет Иннополис, Московский технологический университет, Прайм-Сервис и др.
3. В реестре ИТ компаний много госучреждений, ФГУПов и компаний учрежденных органами власти. Трудно отнести их к ИТ компаниям, хотя, формально под критерии они могут подпадать. Последний забавный пример, ФГУП «Главный научно-исследовательский вычислительный центр» Управления делами Президента Российской Федерации теперь также "ИТ компания" с пониженным налогообложением.
4. Это ещё не все вопросы. Самый главный вопрос всегда в достоверности того что основной выручкой компаний является ИТ деятельность.

И отдельная большая тема, интересная по другому, о том почему многие компании в ИТ рынке с большой выручкой не регистрируются в этом реестре.

Однажды у меня или коллег дойдут руки посмотреть на это всё более пристально. Пока же лишь обращаю на этот реестр внимание и на то что в других отраслях ситуация не сильно лучше и чаще сильно хуже и по достоверности данных и тому что в госреестры вносят. Достаточно вспомнить Минэкономразвития с реестром СО НКО который почистили от ошибок по формату и ничего не сделали со смысловыми ошибками.

Ссылки:
[1] https://digital.gov.ru/ru/activity/govservices/1/

#government #registries #it
Я всё искал живые примеры того как хорошо/плохо построена работа с данными и сколько иллюзий у граждан/бизнеса/пользователей. Многие, например, думают что госорганизации публикуют плохие данные специально, а где-то внутри и тайно хранят и используют хорошие. Такое бывает очень редко, а чаще миром правит худоумие, а не хитроумие. О многих историях об этом написать нельзя по разным причинам, но о каких-то публичных и общедоступных более чем необходимо.

Рассмотрим пример, Центр по лицензированию, сертификации и защите государственной тайны ФСБ России [1] в открытом доступе публикует 4 реестра [2], все в формате .docx файлов:
- Реестр лицензий на деятельность, связанную с шифровальными (криптографическими) средствами
- Реестр лицензий на деятельность по разработке и производству средств защиты конфиденциальной информации
- Реестр лицензий на деятельность по выявлению электронных устройств
- Реестр лицензий на деятельность, связанную с оборотом СТС

Среди них, первый реестр, лицензий на деятельность, связанную с шифровальными (криптографическими) средствами - это файл MS Word (.docx) состоящий из одной таблицы в 1985 страниц и 4880 записи. Алексей Лукацкий ранее писал что этот файл с коллосальным трудом открывается, действительно, это аномально вести реестр таким образом. Для тех у кого не получится его открыть, я когда-то делал специальную утилиту docx2csv [4], она умеет вытаскивать таблицы из .docx файлов и сохранять их как серию файлов CSV или один XLSX.

Поэтому то что этот и остальные реестры публикуются в docx формате - это проблема, но проблема скорее культурная. Если бы в центре реально хотели делать это максимально вредным способом то публиковали бы реестр в виде отсканированного PDF файла с утверждающей подписью руководителя и аргументами что "только так можно дать ему юридическую значимость". Но, слава Богу, это не наш случай. Наш случай - это культура ведения реестра.

Сравнительно недавно я делал другую утилиту для командной строки, undatum [5] специально для разного рода операций преобразования и проверки данных и с её помощью регулярно проверяю разного рода официальные реестры на достоверность самых базовых реквизитов ИНН и ОГРН. Причём на уровне самой-самой простой проверки на валидность, даже без поиска по ЕГРЮЛ, проверки соответствия наименованию, кросс-валидации и так далее.

Так вот из 4880 записей у 191 (3,9%) недостоверные сведения в поле ОГРН и у 120 (2.4%) недостоверные сведения в поле ИНН. Чаще это отсутствие кода, реже это неверно введённые коды. Всего есть 16 организаций в сведениях о которых нет указаний на их коды ИНН и ОГРН одновременно. Причём все они не секретны, у многих, например, АО КБ "Хлынов", есть другие лицензии в этом же реестре и при этом заполненные реквизитами.

Являются ли эти данные достоверными? Где совершена ошибка: при их внесении, при подаче заявки на лицензию заявителем или, быть может, логичнее предположить ещё на этапе организации ведения реестра. Если он ведётся даже не в Excel и уж точно для него нет даже самой простой системы ведения реестров, если у него нет синхронизации и проверки с ЕГРЮЛ, если у него нет регламента ведения и так далее, то в нём как и в сотнях других реестров государства и опубликованных данных - будут ошибки. Эти ошибки накапливаются и итоговые системы принятия решений основанные на этих данных дают значительные искажения.

Напомню что я писал о подобных случаях с реестрами Минюста, Минцифры, Минэкономразвития, Федерального Казначейства и других органов власти. Качество данных государства - это общая проблема, пока мало кем решённая.

Ссылки:
[1] https://clsz.fsb.ru
[2] https://clsz.fsb.ru/clsz/license.htm
[3] https://t.iss.one/alukatsky/3880
[4] https://github.com/ivbeg/docx2csv
[5] https://github.com/datacoon/undatum

#opendata #dataquality #registries
Ещё один "мелкий нюанс" с новым реестром отечественного ПО [1] - это "гниение ссылок". Ссылки из старого реестра не открываются в новом заменой домена, а также при формировании ссылок в них указывается не номер программы в реестре, а на технический идентифкатор в базе данных. Вот пример: [2], код программы в реестре ПО 10269, а идентификатор в ссылке 330494 (reestr.digital.gov.ru/reestr/330494/). Такое вообще не редкость и бывает когда разработчики изначально не думают о пользователях. Я знаю десятки сайтов органов власти где подобное происходило неоднократно при замене CMS системы или создании нового сайта госоргана/госучреждения.

Эта проблема есть не только у госорганов. Например, в Великобритании достаточно давно, с 2017 года, обсуждают об создании постоянных ссылок для государственных документов [3] и рассматривают DOI в этом качестве. Казалось бы какая очевидная идея и можно было бы применять не только для цифровых документов, но "почему то", такие инновации внедряются с большим трудом и не только в государстве.

Но есть и примеры постоянных ссылок с момента появления организации. W3C имеет W3C URI Persistence Policy [4] с 1999 года и все опубликованные документы W3C всегда доступны по тем ссылкам что они были размещены.

Впрочем, надо отдать должное коллегам из Минцифры, экспорт в XML из реестра, наконец-то, заработал, что, отчасти снимает проблему устаревания ссылок поскольку в экспортированных данных есть уникальные идентификаторы ПО. Но, счастье было бы полным, если бы экспорт в XML содержал _все_ данные по карточкам ПО, например, сейчас не экспортируются код ОГРН владельца ПО.

Кроме того, я напомню, в данных есть ошибки с реквизитами организаций. Сильно меньше чем в других госреестрах, но доли процента записей (около 10 невалидных кодов ИНН).

В любом случае это лучше чем было, теперь реестр можно подвергать автоматическому анализу, как минимум.

Возвращаясь к изначальной теме, вся проблема с устареванием ссылок в реестрах как раз могла бы решаться через уникальные ссылки основанные на уникальном идентификаторе записи присвоенной приказом, а не техническом номере в базе данных.

В остальном же лучше публиковать данные дампами на дату и создавать раздел "Открытые данные" и у этого есть 2 причины:
1. Так просто напросто удобнее в работе с данными которые меняются со временем. Пример похожей модели - это данные ФИАС где регулярные дампы в XML и DBF и всегда можно их сравнить
2. Некоторые криворукие разработчики делают экспорт данных динамическим. Когда таким образом экспортируется от 10 до 100 записей проблем не возникает. Когда идёт экспорт всего реестра - это гарантированный способ положить всю систему DDoS атакой. Кешировать данные для экспорта - это, также, подставка для кривых рук. Регулярные (ежесуточные/еженедельные) дампы и API - это правильное решение.

А в целом реестров в стране десятки тысяч, я давно хочу написать что я думаю по тому как они должны быть/могли бы быть организованы уже в виде концептуального документа.

Ссылки:
[1] https://reestr.digital.gov.ru
[2] https://reestr.digital.gov.ru/reestr/330494/
[3] https://github.com/alphagov/open-standards/issues/75
[4] https://www.w3.org/Consortium/Persistence

#opendata #digital #registries
У 77% от общего числа или, в цифрах, у 3852 некоммерческих организаций в России в форме АНО, фондов, благотворительных фондов, общественных фондов, экологических фондов, религиозных организаций зарегистрированных в России за 2021 год в ЕГРЮЛ отсутствуют сведения об учредителях. Много это или мало? За 2021 год было зарегистрировано всего 5143 подобных НКО. Соответственно 77% от их числа - это очень много.

Примерно с 24 августа это касается всех зарегистрированных НКО подобного типа. с 24 августа по 7 ноября их было зарегистрировано 1056 организаций, ни по одной из них в ЕГРЮЛ недоступны сведения об учредителях.

Примеры организаций, коды ОГРН: 1216900011151, 1217400031012, 1212400022680

Проверить их можно в сервисах проверки контрагентов или в ЕГРЮЛ напрямую egrul.nalog.ru [1].

Для сравнения в 2020 году было зарегистрировано 5291 юридическое лицо в этих формах собственности и из них по 965 отсутствуют сведения об учредителях, это 18,2% от общего числа. Тоже много, тоже надо разбираться почему, но это куда меньше чем в этом году,

Отдельно надо разбираться что было в предыдущие годы, но рост неполноты данных от 18,2% до 77% - это очень серьёзно. Хочется надеяться что этому есть какое-то разумное объяснение.

А я напомню что один из проектов Инфокультуры - Открытые НКО (openngo.ru) [2] открытая база и открытые данные по всем некоммерческим организациям. База включает, в том числе, сведения из баз APICrafter'а и регулярно обновляется данными из ЕГРЮЛ. Полнота и точность сведений об учредителях организаций необходима для всех проверок контрагентов, задач проверок комплаенс и многого другого привычного в деловой практике.

Повторяется ли подобная ситуация для юридических лиц в иных формах собственности сказать не возьмусь, тотальная проверка всех зарегистрированных за 2021 год юр. лиц задача куда более трудоёмкая.

Ссылки:
[1] https://egrul.nalog.ru
[2] https://openngo.ru

#opendata #data #registries
Дмитрий Скугаревский из Европейского университета опубликовал в Рюмочной ИПП [1] результаты анализа полноты данных в ЕГРЮЛ, надеюсь он и его коллеги выложат в будущем результаты в виде статьи или иной завершённой работы с кодом и данными. От себя прокомментирую что коллеги охватили период до 1 января и анализировали полноту заполнения сведений.

Я же ранее писал 8 ноября о том что проблема не в общем списке юр. лиц, а только тех которые зарегистрированы в 2021 году. Это 3852 организации у которых полностью отсутствуют сведения об учредителях. Это аномально, странно, ненормально и, в принципе, противоречит открытости не то что некоммерческих организаций, но и деловой практике проверки контрагентов в принципе.

Причём это касается всех НКО, так что тут не может быть связи с санкционными рисками в чистом виде, а если и связано, то решение проблемы хуже самой проблемы. Я напомню что Инфокультура ведёт проект Открытые НКО где эти данные, также, необходимы.

#opendata #data #registries #ngos
Хорошая новость в том что Минцифры наконец-то начали чистить/приводить в порядок реестр отечественного ПО и опубликовали перечень правообладателей с нерелевантными сведениями [1] с призывом им зайти и обновить о себе информацию. Как сторонник повышения качества госданных лично я очень поддерживаю эту идею, все бы реестры можно было так почистить.

Контроль качества данных - это вообще очень нужное дело, нет ничего постыдного в наличии неактуальных сведений если есть понимание что с ними делать и как разрешать спорные ситуации недостоверности/неполноты сведений.

А, в целом, задача нетривиальная. В России многие юридические лица ликвидируются без ликвидации, их владельцы перестают ими заниматься и просто сдают нулевые балансы или переписывают на номиналов или ещё что-то, в общем компания есть в каком-нибудь реестре, на ней есть какие-нибудь лицензии, разрешения, ещё что-то, а контакты все нерелевантны и кроме как официальными письмами на юр. адрес с ними не связаться, а если и связаться то не факт что будет ответ.

Поэтому:
а) Хотелось бы чтобы и многие операторы российских реестров взяли такую практику на вооружение.
б) Если Вы относитесь к компаниям в этом списке или знаете тех кто к ним относится, не поленитесь и попросите их актуализировать сведения о себе.

А практику и качество ведения этого реестра и других реестров организаций предлагаю обсудить у меня в чате @begtinchat

Ссылки:
[1] https://reestr.digital.gov.ru/irrelevant_right_holders/

#registries #it #digital
По поводу "реестра токсичного контента" [1] который продвигает г-н Ашманов многие уже написали, а я добавлю что, конечно, жаль что в России нет закона о лоббизме потому что у Игоря Ашманова в данном случае есть прямой конфликт интересов поскольку правильно указывать аффиляцию Игоря Ашманова как бенефициара компании Крибрум (он её основатель), а общественные позиции не более чем инструмент повышения капитализации активов.

Крибрум не то чтобы лидер отрасли мониторинга контента. У них минимум заказов [2] по 44-ФЗ, но может быть по 223-ФЗ есть, нельзя сказать точно потому что данные не раскрываются. А с другой стороны резкий рост выручки за 2019-2020 годы, например, за 2020 год она составила 379 млн руб [3], что не так уж мало, но существенно меньше чем выручка Медиалогии в 1.7 млрд руб и сравнимо Брэнд Аналитикс (ООО Палитрумлаб) в 323 млн руб.

Почему вся эта инициатива выглядит сомнительно? Потому что мир идёт по пути регулирования платформ. Зачем мониторить и составлять реестр токсичного контента когда уже принято решение о приземлении платформ на российскую юрисдикцию? Контент или соответствуют российскому законодательству, или удаляется/блокируется модераторами платформу. Нельзя быть "чуть-чуть токсичным", тут либо налево, либо направо, третьего не дано.

Ссылки:
[1] https://habr.com/ru/news/t/590589/
[2] https://clearspending.ru/supplier/inn=7731661104&kpp=773101001
[3] https://bo.nalog.ru/organizations-card/378398#balance

#registries #ashmanov
Минцифры снова выложило реестр аккредитованных ИТ компаний, в формате ODS и пложенным к госуслуге "Отсрочка от армии"[1].

В реестре более 22 тысяч организаций, особенно стоит обратить внимание на:
- больницы
- университеты
- бюджетные учреждения

И ещё немало чего, особенно много изменений с начала марта 2022 года, догадайтесь сами почему.

Ссылки:
[1] https://www.gosuslugi.ru/armydelay

#government #registries #opendata
Признаться я не слежу именно за ПМЭФом, но немного слежу за тем что касается ИТ отрасли. В канале Минцифры приводят фразу Чернышенко (вице-премьер) , я воспроизведу её часть.
...По данным Минцифры, до конца года в реестре отечественного ПО будет зарегистрировано 35 тыс. компаний. Стоит отметить, что они приходят не только за льготами (а они беспрецедентны), мы понимаем, что условия для ведения ИТ-бизнеса в России выгоднее, чем во всем мире, отрасль уже начинает показывать результат...

Я, честно говоря, этот оптимизм не разделяю, но обратить внимание хочу на некоторые ошибки:
1. В реестре отечественного ПО совершенно точно нет и не может быть 35 тысяч компаний, в лучшем случае 4-5 тысяч. Не все российские ИТ компании создают, регистрируют, патентуют ПО, увы.
2. 35 тысяч компаний - это цифра близкая к реестру аккредитованных ИТ компаний. Я про этот реестр уже писал неоднократно, не надо путать аккредитованные компании с ИТ рынком. Среди аккредитованных ИТ компаний есть ЧОПы, родильные дома, поликлиники и Высшая школа экономики и ещё много чего не ИТшного. По хорошему этот реестр надо резать и оставлять в нём только тех кто имеет ИТ льготы (около 8-9 тысяч компаний).
3. Не дай то Бог конечно если ещё и реестр отечественного ПО превратится в такую же помойку как реестр аккредитованных ИТ компаний. Реестр отечественного ПО неидеален и, по хорошему, его надо расширять SaaS, PaaS, IaaS сервисами и ещё много чем, но я лично приветствую его систематизацию и развитие в сторону возможности анализа ИТ рынка.

Вот как-то так.

UPD: Ведущие телеграм канал Минцифры слова Чернышенко поправили и как говорят слушавшие его речь - говорил он про реестр аккредитованных, но проблемы мусорности реестра аккредитованных компаний это не отменяет.

Ссылки:
[1] https://t.iss.one/mintsifry/1215

#registries #it #itmarket
it_anomalies_20220801.zip
53.6 KB
Минцифры, конечно, почистили реестр аккредитованных компаний, да вот незадача, не до конца, не полностью и все. В архиве списки компаний для которых, за некоторым исключением, основная область - это не ИТ.
Эти списки включают ИНН,Название компании и статус после фильтрации, на сегодня. Многие уже не действуют, но те кто захотят посмотреть, найдут и действующие:
- avia.csv - компании имеющие лицензии в авиастроении и иных работах в авиаотрасли. Некоторые ИТ, не все
- finorgs.csv - финансовые организации, имеющие банковские и брокерские лицензии. Почти все не ИТ, большая часть аннулированы
- insurance.csv - страховые компании, почти все не ИТ. Действующая осталаль только АО "БУДУ" (бывшее - Ренессанс Страхование). Очень интересно, как это её оставили.
- universities.csv - Высшие учебные заведения. Аннулировали почти все. Почему не аннулировали аккредитацию Университета Иннополиса?
- ngos.csv - некоммерческие организации. Некоторые из них ИТ, но большая часть это ГОНГО, псевдоведомственные учреждения в регионах. Нехорошо, мало аннулировали
- radiotv.csv - телерадиокомпании имеющие лицензии на телевещание. Аннулировали не всех, у тех что не аннулировали по факту не ИТ деятельность.
- telecom.csv - телекоммуникационные компании. По моему в Минцифре РФ путают телеком и ИТ рынок, а это разные рынки. Хотя телеком компании к ИТ рынку наиболее близки, но выручка у них не с продажи софта
- hasgov.csv - организации с учредителями госкорпорациями, госучреждениями и госорганами. Много аннулированных, но как то избирательно. А почему про Федеральный ресурсный центр (ФБУ ФРЦ) забыли ? Он то точно не ИТ или почему ФКУ ФСИН по инженерному-обеспечению и вооружению в Тюменской области не с аннулированной аккредитацией?

Я могу ещё много задать вопросов, но в качества итога два тезиса:
1. Много самых вопиющих случаев исправлено.
2. Много не самых вопиющих случаев не исправлено
3. А ещё много каких компаний вообще никакой деятельности не ведут и их даже нет в этих списках. О них как-нибудь позже.

#itmarket #digital #registries