Я стараюсь находить на выходных по 1-2 часа времени для выкладки и актуализации старого кода и реестров.
Около 8 лет назад я занимался построением онтологии госуправления и экономической географии и в RDF/OWL моделировал и то и другое пытаясь сформировать эталонные справочники и правила их наполнения.
Далее эти справочники были нужны для незавершенного проекта по экономическим и социальным показателям/рейтингам по субъектам федерации.
Но других проектов идёт много, регулярно нужны эталонные справочники и такой справочник по субъектам федерации на выходных я раскопал, почистил и выложил сегодня в репозитории кода [1].
Многие из этих данных (не все) можно выковырять из Википедии и DBPedia, но в сведенном варианте их не было.
Справочник включает:
- наименованиях субъектов федерации
- коды субъектов (ОКАТО, КЛАДР, налоговые, автомобильные, коды по ISO 3166, коды по ГОСТ 67 и другие)
- сведения о макрорегионах в которые субъекты федерации входят
- сведения о пограничных регионах
- сведения о пограничных странах, если есть
- сведения о железных дорогах
- сведения о федеральных трассах
- сведения о морских побережьях (омывающих морях)
- сведения о наименованиях и ссылках органов власти субъектов федерации
Кому может пригодится такой справочник? Для каких задач?
1. Строите рейтинг по регионам и хотите сравнить позицию региона среди регионов входящих в тот же экономический район, федеральный округ, военный округ, с регионами с которыми у него общая граница и тд.
2. Ищите корреляции социально-экономического положения и других факторов, часть факторов есть в этих метаданных. Например есть ли у субъекта федерации выход к морю (is landlocked) или тип субъекта федерации (республика, область, город федерального значения) и так далее.
3. Нужно обогащение данных для организации навигации в своём проекте, расширение внутренних справочников и тд.
Наверняка есть другие области применения которые я не знаю.
Дальнейшие планы, в будущем:
1. Реестр должен быть актуализирован, поскольку многие ссылки не обновлялись с 2012 года.
2. Расширение реестра другими метаданными привязанными к субъектам федерации (площадь, численность населения и тд)
3. Постепенный охват крупнейших городов муниципальных образований и всех муниципальных образований в будущем
Если есть идеи и предложения какие ещё факторы/признаки/метаданные необходимы и полезны для работы, например, data scientist'ов, то обязательно напишите, реестр будет развиваться.
И, конечно, поскольку это открытый код/данные на Github то прямо в нем можно корректировать данные и вносить дополнения.
P.S. Я давно подумываю создать открытый репозиторий эталонных реестров и справочников, не только официальных государственных, а деятельностных, отсутствующих, но необходимых в работе.
Ссылки:
[1] https://github.com/infoculture/ruregions
#opendata #data #registries
Около 8 лет назад я занимался построением онтологии госуправления и экономической географии и в RDF/OWL моделировал и то и другое пытаясь сформировать эталонные справочники и правила их наполнения.
Далее эти справочники были нужны для незавершенного проекта по экономическим и социальным показателям/рейтингам по субъектам федерации.
Но других проектов идёт много, регулярно нужны эталонные справочники и такой справочник по субъектам федерации на выходных я раскопал, почистил и выложил сегодня в репозитории кода [1].
Многие из этих данных (не все) можно выковырять из Википедии и DBPedia, но в сведенном варианте их не было.
Справочник включает:
- наименованиях субъектов федерации
- коды субъектов (ОКАТО, КЛАДР, налоговые, автомобильные, коды по ISO 3166, коды по ГОСТ 67 и другие)
- сведения о макрорегионах в которые субъекты федерации входят
- сведения о пограничных регионах
- сведения о пограничных странах, если есть
- сведения о железных дорогах
- сведения о федеральных трассах
- сведения о морских побережьях (омывающих морях)
- сведения о наименованиях и ссылках органов власти субъектов федерации
Кому может пригодится такой справочник? Для каких задач?
1. Строите рейтинг по регионам и хотите сравнить позицию региона среди регионов входящих в тот же экономический район, федеральный округ, военный округ, с регионами с которыми у него общая граница и тд.
2. Ищите корреляции социально-экономического положения и других факторов, часть факторов есть в этих метаданных. Например есть ли у субъекта федерации выход к морю (is landlocked) или тип субъекта федерации (республика, область, город федерального значения) и так далее.
3. Нужно обогащение данных для организации навигации в своём проекте, расширение внутренних справочников и тд.
Наверняка есть другие области применения которые я не знаю.
Дальнейшие планы, в будущем:
1. Реестр должен быть актуализирован, поскольку многие ссылки не обновлялись с 2012 года.
2. Расширение реестра другими метаданными привязанными к субъектам федерации (площадь, численность населения и тд)
3. Постепенный охват крупнейших городов муниципальных образований и всех муниципальных образований в будущем
Если есть идеи и предложения какие ещё факторы/признаки/метаданные необходимы и полезны для работы, например, data scientist'ов, то обязательно напишите, реестр будет развиваться.
И, конечно, поскольку это открытый код/данные на Github то прямо в нем можно корректировать данные и вносить дополнения.
P.S. Я давно подумываю создать открытый репозиторий эталонных реестров и справочников, не только официальных государственных, а деятельностных, отсутствующих, но необходимых в работе.
Ссылки:
[1] https://github.com/infoculture/ruregions
#opendata #data #registries
GitHub
GitHub - infoculture/ruregions: Registry of all Russian regions and regional metadata like codes, borders, macro and subregions…
Registry of all Russian regions and regional metadata like codes, borders, macro and subregions and e.t.c. - GitHub - infoculture/ruregions: Registry of all Russian regions and regional metadata li...
В Коммерсанте заметка о том что Минэкономики России собирается создать реестр технологических стартапов [1] и о том что на его основе в том числе будут приниматься решения о господдержке и отслеживаться ее эффективность.
Для этого подготовлен проект поправок к закону «О науке и государственной научно-технической политике» в котором эти полномочия Минэкономразвития будут прописаны. Правда, буквально чуть менее чем 2 месяца назад уже был принят федеральный закон от 31.07.2020 № 309-ФЗ "О внесении изменений в Федеральный закон "О науке и государственной научно-технической политике" где вводили понятие венчурного капитала и др. определения.
Поможет ли как-либо стартапом наличие государственного реестра и государственного мониторинга их эффективности? Честно говоря у меня лично есть сомнения на этот счет и, нельзя не упомянуть проблему того что Минэкономразвития не очень ответственно подходит к ведению их реестров. Реестры СО НКО, пострадавших НКО и системообразующих предприятий опубликованные на data.economy.gov.ru имели большие проблемы с точки зрения полноты и качества данных, не говоря уже о методологии.
Ссылки:
[1] https://www.kommersant.ru/doc/4500503
#registries #opendata
Для этого подготовлен проект поправок к закону «О науке и государственной научно-технической политике» в котором эти полномочия Минэкономразвития будут прописаны. Правда, буквально чуть менее чем 2 месяца назад уже был принят федеральный закон от 31.07.2020 № 309-ФЗ "О внесении изменений в Федеральный закон "О науке и государственной научно-технической политике" где вводили понятие венчурного капитала и др. определения.
Поможет ли как-либо стартапом наличие государственного реестра и государственного мониторинга их эффективности? Честно говоря у меня лично есть сомнения на этот счет и, нельзя не упомянуть проблему того что Минэкономразвития не очень ответственно подходит к ведению их реестров. Реестры СО НКО, пострадавших НКО и системообразующих предприятий опубликованные на data.economy.gov.ru имели большие проблемы с точки зрения полноты и качества данных, не говоря уже о методологии.
Ссылки:
[1] https://www.kommersant.ru/doc/4500503
#registries #opendata
Коммерсантъ
Стартапы поставят на учет
Минэкономики займется новым IT-реестром
Не бывает нормальных госреестров, бывают недообследованные (с)
Чтобы для коллег из Минцифры которые читают мои публикации потом это не было неожиданностью, несколько фактов про реестр аккредитованных ИТ компаний [1]
1. Примерно у 1.5% записей недостоверные реквизиты, около 200 записей из 13543. Не точно потому что где-то записи дублируются, а где-то, например, перепутаны названия организаций и реквизиты ИНН/ОГРН соседних записей и требуется ручная проверка. Скорее всего реально записей с ошибками больше.
2. Многие ИТ компании одновременно являются образовательными учреждениями и я не понимаю как они заявляют (заявили) выручку от ИТ в 90%. Примеры: Университет Иннополис, Московский технологический университет, Прайм-Сервис и др.
3. В реестре ИТ компаний много госучреждений, ФГУПов и компаний учрежденных органами власти. Трудно отнести их к ИТ компаниям, хотя, формально под критерии они могут подпадать. Последний забавный пример, ФГУП «Главный научно-исследовательский вычислительный центр» Управления делами Президента Российской Федерации теперь также "ИТ компания" с пониженным налогообложением.
4. Это ещё не все вопросы. Самый главный вопрос всегда в достоверности того что основной выручкой компаний является ИТ деятельность.
И отдельная большая тема, интересная по другому, о том почему многие компании в ИТ рынке с большой выручкой не регистрируются в этом реестре.
Однажды у меня или коллег дойдут руки посмотреть на это всё более пристально. Пока же лишь обращаю на этот реестр внимание и на то что в других отраслях ситуация не сильно лучше и чаще сильно хуже и по достоверности данных и тому что в госреестры вносят. Достаточно вспомнить Минэкономразвития с реестром СО НКО который почистили от ошибок по формату и ничего не сделали со смысловыми ошибками.
Ссылки:
[1] https://digital.gov.ru/ru/activity/govservices/1/
#government #registries #it
Чтобы для коллег из Минцифры которые читают мои публикации потом это не было неожиданностью, несколько фактов про реестр аккредитованных ИТ компаний [1]
1. Примерно у 1.5% записей недостоверные реквизиты, около 200 записей из 13543. Не точно потому что где-то записи дублируются, а где-то, например, перепутаны названия организаций и реквизиты ИНН/ОГРН соседних записей и требуется ручная проверка. Скорее всего реально записей с ошибками больше.
2. Многие ИТ компании одновременно являются образовательными учреждениями и я не понимаю как они заявляют (заявили) выручку от ИТ в 90%. Примеры: Университет Иннополис, Московский технологический университет, Прайм-Сервис и др.
3. В реестре ИТ компаний много госучреждений, ФГУПов и компаний учрежденных органами власти. Трудно отнести их к ИТ компаниям, хотя, формально под критерии они могут подпадать. Последний забавный пример, ФГУП «Главный научно-исследовательский вычислительный центр» Управления делами Президента Российской Федерации теперь также "ИТ компания" с пониженным налогообложением.
4. Это ещё не все вопросы. Самый главный вопрос всегда в достоверности того что основной выручкой компаний является ИТ деятельность.
И отдельная большая тема, интересная по другому, о том почему многие компании в ИТ рынке с большой выручкой не регистрируются в этом реестре.
Однажды у меня или коллег дойдут руки посмотреть на это всё более пристально. Пока же лишь обращаю на этот реестр внимание и на то что в других отраслях ситуация не сильно лучше и чаще сильно хуже и по достоверности данных и тому что в госреестры вносят. Достаточно вспомнить Минэкономразвития с реестром СО НКО который почистили от ошибок по формату и ничего не сделали со смысловыми ошибками.
Ссылки:
[1] https://digital.gov.ru/ru/activity/govservices/1/
#government #registries #it
Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации
Аккредитация ИТ-компаний
Я всё искал живые примеры того как хорошо/плохо построена работа с данными и сколько иллюзий у граждан/бизнеса/пользователей. Многие, например, думают что госорганизации публикуют плохие данные специально, а где-то внутри и тайно хранят и используют хорошие. Такое бывает очень редко, а чаще миром правит худоумие, а не хитроумие. О многих историях об этом написать нельзя по разным причинам, но о каких-то публичных и общедоступных более чем необходимо.
Рассмотрим пример, Центр по лицензированию, сертификации и защите государственной тайны ФСБ России [1] в открытом доступе публикует 4 реестра [2], все в формате .docx файлов:
- Реестр лицензий на деятельность, связанную с шифровальными (криптографическими) средствами
- Реестр лицензий на деятельность по разработке и производству средств защиты конфиденциальной информации
- Реестр лицензий на деятельность по выявлению электронных устройств
- Реестр лицензий на деятельность, связанную с оборотом СТС
Среди них, первый реестр, лицензий на деятельность, связанную с шифровальными (криптографическими) средствами - это файл MS Word (.docx) состоящий из одной таблицы в 1985 страниц и 4880 записи. Алексей Лукацкий ранее писал что этот файл с коллосальным трудом открывается, действительно, это аномально вести реестр таким образом. Для тех у кого не получится его открыть, я когда-то делал специальную утилиту docx2csv [4], она умеет вытаскивать таблицы из .docx файлов и сохранять их как серию файлов CSV или один XLSX.
Поэтому то что этот и остальные реестры публикуются в docx формате - это проблема, но проблема скорее культурная. Если бы в центре реально хотели делать это максимально вредным способом то публиковали бы реестр в виде отсканированного PDF файла с утверждающей подписью руководителя и аргументами что "только так можно дать ему юридическую значимость". Но, слава Богу, это не наш случай. Наш случай - это культура ведения реестра.
Сравнительно недавно я делал другую утилиту для командной строки, undatum [5] специально для разного рода операций преобразования и проверки данных и с её помощью регулярно проверяю разного рода официальные реестры на достоверность самых базовых реквизитов ИНН и ОГРН. Причём на уровне самой-самой простой проверки на валидность, даже без поиска по ЕГРЮЛ, проверки соответствия наименованию, кросс-валидации и так далее.
Так вот из 4880 записей у 191 (3,9%) недостоверные сведения в поле ОГРН и у 120 (2.4%) недостоверные сведения в поле ИНН. Чаще это отсутствие кода, реже это неверно введённые коды. Всего есть 16 организаций в сведениях о которых нет указаний на их коды ИНН и ОГРН одновременно. Причём все они не секретны, у многих, например, АО КБ "Хлынов", есть другие лицензии в этом же реестре и при этом заполненные реквизитами.
Являются ли эти данные достоверными? Где совершена ошибка: при их внесении, при подаче заявки на лицензию заявителем или, быть может, логичнее предположить ещё на этапе организации ведения реестра. Если он ведётся даже не в Excel и уж точно для него нет даже самой простой системы ведения реестров, если у него нет синхронизации и проверки с ЕГРЮЛ, если у него нет регламента ведения и так далее, то в нём как и в сотнях других реестров государства и опубликованных данных - будут ошибки. Эти ошибки накапливаются и итоговые системы принятия решений основанные на этих данных дают значительные искажения.
Напомню что я писал о подобных случаях с реестрами Минюста, Минцифры, Минэкономразвития, Федерального Казначейства и других органов власти. Качество данных государства - это общая проблема, пока мало кем решённая.
Ссылки:
[1] https://clsz.fsb.ru
[2] https://clsz.fsb.ru/clsz/license.htm
[3] https://t.iss.one/alukatsky/3880
[4] https://github.com/ivbeg/docx2csv
[5] https://github.com/datacoon/undatum
#opendata #dataquality #registries
Рассмотрим пример, Центр по лицензированию, сертификации и защите государственной тайны ФСБ России [1] в открытом доступе публикует 4 реестра [2], все в формате .docx файлов:
- Реестр лицензий на деятельность, связанную с шифровальными (криптографическими) средствами
- Реестр лицензий на деятельность по разработке и производству средств защиты конфиденциальной информации
- Реестр лицензий на деятельность по выявлению электронных устройств
- Реестр лицензий на деятельность, связанную с оборотом СТС
Среди них, первый реестр, лицензий на деятельность, связанную с шифровальными (криптографическими) средствами - это файл MS Word (.docx) состоящий из одной таблицы в 1985 страниц и 4880 записи. Алексей Лукацкий ранее писал что этот файл с коллосальным трудом открывается, действительно, это аномально вести реестр таким образом. Для тех у кого не получится его открыть, я когда-то делал специальную утилиту docx2csv [4], она умеет вытаскивать таблицы из .docx файлов и сохранять их как серию файлов CSV или один XLSX.
Поэтому то что этот и остальные реестры публикуются в docx формате - это проблема, но проблема скорее культурная. Если бы в центре реально хотели делать это максимально вредным способом то публиковали бы реестр в виде отсканированного PDF файла с утверждающей подписью руководителя и аргументами что "только так можно дать ему юридическую значимость". Но, слава Богу, это не наш случай. Наш случай - это культура ведения реестра.
Сравнительно недавно я делал другую утилиту для командной строки, undatum [5] специально для разного рода операций преобразования и проверки данных и с её помощью регулярно проверяю разного рода официальные реестры на достоверность самых базовых реквизитов ИНН и ОГРН. Причём на уровне самой-самой простой проверки на валидность, даже без поиска по ЕГРЮЛ, проверки соответствия наименованию, кросс-валидации и так далее.
Так вот из 4880 записей у 191 (3,9%) недостоверные сведения в поле ОГРН и у 120 (2.4%) недостоверные сведения в поле ИНН. Чаще это отсутствие кода, реже это неверно введённые коды. Всего есть 16 организаций в сведениях о которых нет указаний на их коды ИНН и ОГРН одновременно. Причём все они не секретны, у многих, например, АО КБ "Хлынов", есть другие лицензии в этом же реестре и при этом заполненные реквизитами.
Являются ли эти данные достоверными? Где совершена ошибка: при их внесении, при подаче заявки на лицензию заявителем или, быть может, логичнее предположить ещё на этапе организации ведения реестра. Если он ведётся даже не в Excel и уж точно для него нет даже самой простой системы ведения реестров, если у него нет синхронизации и проверки с ЕГРЮЛ, если у него нет регламента ведения и так далее, то в нём как и в сотнях других реестров государства и опубликованных данных - будут ошибки. Эти ошибки накапливаются и итоговые системы принятия решений основанные на этих данных дают значительные искажения.
Напомню что я писал о подобных случаях с реестрами Минюста, Минцифры, Минэкономразвития, Федерального Казначейства и других органов власти. Качество данных государства - это общая проблема, пока мало кем решённая.
Ссылки:
[1] https://clsz.fsb.ru
[2] https://clsz.fsb.ru/clsz/license.htm
[3] https://t.iss.one/alukatsky/3880
[4] https://github.com/ivbeg/docx2csv
[5] https://github.com/datacoon/undatum
#opendata #dataquality #registries
Telegram
Пост Лукацкого
Хотите "убить" свой комп или комп своего коллеги? Пусть откроют файл со списком лицензиатов ФСБ с сайта регулятора - https://t.co/KwC7PZM55R Всего 1,5 Мб, в которых скрывается 1985 страниц (откуда в стране столько лицензиатов ФСБ???), открытие которых "убивает"…
Ещё один "мелкий нюанс" с новым реестром отечественного ПО [1] - это "гниение ссылок". Ссылки из старого реестра не открываются в новом заменой домена, а также при формировании ссылок в них указывается не номер программы в реестре, а на технический идентифкатор в базе данных. Вот пример: [2], код программы в реестре ПО 10269, а идентификатор в ссылке 330494 (reestr.digital.gov.ru/reestr/330494/). Такое вообще не редкость и бывает когда разработчики изначально не думают о пользователях. Я знаю десятки сайтов органов власти где подобное происходило неоднократно при замене CMS системы или создании нового сайта госоргана/госучреждения.
Эта проблема есть не только у госорганов. Например, в Великобритании достаточно давно, с 2017 года, обсуждают об создании постоянных ссылок для государственных документов [3] и рассматривают DOI в этом качестве. Казалось бы какая очевидная идея и можно было бы применять не только для цифровых документов, но "почему то", такие инновации внедряются с большим трудом и не только в государстве.
Но есть и примеры постоянных ссылок с момента появления организации. W3C имеет W3C URI Persistence Policy [4] с 1999 года и все опубликованные документы W3C всегда доступны по тем ссылкам что они были размещены.
Впрочем, надо отдать должное коллегам из Минцифры, экспорт в XML из реестра, наконец-то, заработал, что, отчасти снимает проблему устаревания ссылок поскольку в экспортированных данных есть уникальные идентификаторы ПО. Но, счастье было бы полным, если бы экспорт в XML содержал _все_ данные по карточкам ПО, например, сейчас не экспортируются код ОГРН владельца ПО.
Кроме того, я напомню, в данных есть ошибки с реквизитами организаций. Сильно меньше чем в других госреестрах, но доли процента записей (около 10 невалидных кодов ИНН).
В любом случае это лучше чем было, теперь реестр можно подвергать автоматическому анализу, как минимум.
Возвращаясь к изначальной теме, вся проблема с устареванием ссылок в реестрах как раз могла бы решаться через уникальные ссылки основанные на уникальном идентификаторе записи присвоенной приказом, а не техническом номере в базе данных.
В остальном же лучше публиковать данные дампами на дату и создавать раздел "Открытые данные" и у этого есть 2 причины:
1. Так просто напросто удобнее в работе с данными которые меняются со временем. Пример похожей модели - это данные ФИАС где регулярные дампы в XML и DBF и всегда можно их сравнить
2. Некоторыекриворукие разработчики делают экспорт данных динамическим. Когда таким образом экспортируется от 10 до 100 записей проблем не возникает. Когда идёт экспорт всего реестра - это гарантированный способ положить всю систему DDoS атакой. Кешировать данные для экспорта - это, также, подставка для кривых рук. Регулярные (ежесуточные/еженедельные) дампы и API - это правильное решение.
А в целом реестров в стране десятки тысяч, я давно хочу написать что я думаю по тому как они должны быть/могли бы быть организованы уже в виде концептуального документа.
Ссылки:
[1] https://reestr.digital.gov.ru
[2] https://reestr.digital.gov.ru/reestr/330494/
[3] https://github.com/alphagov/open-standards/issues/75
[4] https://www.w3.org/Consortium/Persistence
#opendata #digital #registries
Эта проблема есть не только у госорганов. Например, в Великобритании достаточно давно, с 2017 года, обсуждают об создании постоянных ссылок для государственных документов [3] и рассматривают DOI в этом качестве. Казалось бы какая очевидная идея и можно было бы применять не только для цифровых документов, но "почему то", такие инновации внедряются с большим трудом и не только в государстве.
Но есть и примеры постоянных ссылок с момента появления организации. W3C имеет W3C URI Persistence Policy [4] с 1999 года и все опубликованные документы W3C всегда доступны по тем ссылкам что они были размещены.
Впрочем, надо отдать должное коллегам из Минцифры, экспорт в XML из реестра, наконец-то, заработал, что, отчасти снимает проблему устаревания ссылок поскольку в экспортированных данных есть уникальные идентификаторы ПО. Но, счастье было бы полным, если бы экспорт в XML содержал _все_ данные по карточкам ПО, например, сейчас не экспортируются код ОГРН владельца ПО.
Кроме того, я напомню, в данных есть ошибки с реквизитами организаций. Сильно меньше чем в других госреестрах, но доли процента записей (около 10 невалидных кодов ИНН).
В любом случае это лучше чем было, теперь реестр можно подвергать автоматическому анализу, как минимум.
Возвращаясь к изначальной теме, вся проблема с устареванием ссылок в реестрах как раз могла бы решаться через уникальные ссылки основанные на уникальном идентификаторе записи присвоенной приказом, а не техническом номере в базе данных.
В остальном же лучше публиковать данные дампами на дату и создавать раздел "Открытые данные" и у этого есть 2 причины:
1. Так просто напросто удобнее в работе с данными которые меняются со временем. Пример похожей модели - это данные ФИАС где регулярные дампы в XML и DBF и всегда можно их сравнить
2. Некоторые
А в целом реестров в стране десятки тысяч, я давно хочу написать что я думаю по тому как они должны быть/могли бы быть организованы уже в виде концептуального документа.
Ссылки:
[1] https://reestr.digital.gov.ru
[2] https://reestr.digital.gov.ru/reestr/330494/
[3] https://github.com/alphagov/open-standards/issues/75
[4] https://www.w3.org/Consortium/Persistence
#opendata #digital #registries
GitHub
A standard for persistently identifying documents · Issue #75 · alphagov/open-standards
Create A Challenge I am creating this challenge on behalf of the Data Standards Authority, based on suggestions from the community Title A standard for persistently identifying documents and datase...
У 77% от общего числа или, в цифрах, у 3852 некоммерческих организаций в России в форме АНО, фондов, благотворительных фондов, общественных фондов, экологических фондов, религиозных организаций зарегистрированных в России за 2021 год в ЕГРЮЛ отсутствуют сведения об учредителях. Много это или мало? За 2021 год было зарегистрировано всего 5143 подобных НКО. Соответственно 77% от их числа - это очень много.
Примерно с 24 августа это касается всех зарегистрированных НКО подобного типа. с 24 августа по 7 ноября их было зарегистрировано 1056 организаций, ни по одной из них в ЕГРЮЛ недоступны сведения об учредителях.
Примеры организаций, коды ОГРН: 1216900011151, 1217400031012, 1212400022680
Проверить их можно в сервисах проверки контрагентов или в ЕГРЮЛ напрямую egrul.nalog.ru [1].
Для сравнения в 2020 году было зарегистрировано 5291 юридическое лицо в этих формах собственности и из них по 965 отсутствуют сведения об учредителях, это 18,2% от общего числа. Тоже много, тоже надо разбираться почему, но это куда меньше чем в этом году,
Отдельно надо разбираться что было в предыдущие годы, но рост неполноты данных от 18,2% до 77% - это очень серьёзно. Хочется надеяться что этому есть какое-то разумное объяснение.
А я напомню что один из проектов Инфокультуры - Открытые НКО (openngo.ru) [2] открытая база и открытые данные по всем некоммерческим организациям. База включает, в том числе, сведения из баз APICrafter'а и регулярно обновляется данными из ЕГРЮЛ. Полнота и точность сведений об учредителях организаций необходима для всех проверок контрагентов, задач проверок комплаенс и многого другого привычного в деловой практике.
Повторяется ли подобная ситуация для юридических лиц в иных формах собственности сказать не возьмусь, тотальная проверка всех зарегистрированных за 2021 год юр. лиц задача куда более трудоёмкая.
Ссылки:
[1] https://egrul.nalog.ru
[2] https://openngo.ru
#opendata #data #registries
Примерно с 24 августа это касается всех зарегистрированных НКО подобного типа. с 24 августа по 7 ноября их было зарегистрировано 1056 организаций, ни по одной из них в ЕГРЮЛ недоступны сведения об учредителях.
Примеры организаций, коды ОГРН: 1216900011151, 1217400031012, 1212400022680
Проверить их можно в сервисах проверки контрагентов или в ЕГРЮЛ напрямую egrul.nalog.ru [1].
Для сравнения в 2020 году было зарегистрировано 5291 юридическое лицо в этих формах собственности и из них по 965 отсутствуют сведения об учредителях, это 18,2% от общего числа. Тоже много, тоже надо разбираться почему, но это куда меньше чем в этом году,
Отдельно надо разбираться что было в предыдущие годы, но рост неполноты данных от 18,2% до 77% - это очень серьёзно. Хочется надеяться что этому есть какое-то разумное объяснение.
А я напомню что один из проектов Инфокультуры - Открытые НКО (openngo.ru) [2] открытая база и открытые данные по всем некоммерческим организациям. База включает, в том числе, сведения из баз APICrafter'а и регулярно обновляется данными из ЕГРЮЛ. Полнота и точность сведений об учредителях организаций необходима для всех проверок контрагентов, задач проверок комплаенс и многого другого привычного в деловой практике.
Повторяется ли подобная ситуация для юридических лиц в иных формах собственности сказать не возьмусь, тотальная проверка всех зарегистрированных за 2021 год юр. лиц задача куда более трудоёмкая.
Ссылки:
[1] https://egrul.nalog.ru
[2] https://openngo.ru
#opendata #data #registries
openngo.ru
Полная база данных о некоммерческих организациях | Открытые НКО
Найдите информацию о том, чем занимаются НКО, кем и как финансируются : финансы, источники доходов, арбитраж, общая информация о некоммерческой организации
Дмитрий Скугаревский из Европейского университета опубликовал в Рюмочной ИПП [1] результаты анализа полноты данных в ЕГРЮЛ, надеюсь он и его коллеги выложат в будущем результаты в виде статьи или иной завершённой работы с кодом и данными. От себя прокомментирую что коллеги охватили период до 1 января и анализировали полноту заполнения сведений.
Я же ранее писал 8 ноября о том что проблема не в общем списке юр. лиц, а только тех которые зарегистрированы в 2021 году. Это 3852 организации у которых полностью отсутствуют сведения об учредителях. Это аномально, странно, ненормально и, в принципе, противоречит открытости не то что некоммерческих организаций, но и деловой практике проверки контрагентов в принципе.
Причём это касается всех НКО, так что тут не может быть связи с санкционными рисками в чистом виде, а если и связано, то решение проблемы хуже самой проблемы. Я напомню что Инфокультура ведёт проект Открытые НКО где эти данные, также, необходимы.
#opendata #data #registries #ngos
Я же ранее писал 8 ноября о том что проблема не в общем списке юр. лиц, а только тех которые зарегистрированы в 2021 году. Это 3852 организации у которых полностью отсутствуют сведения об учредителях. Это аномально, странно, ненормально и, в принципе, противоречит открытости не то что некоммерческих организаций, но и деловой практике проверки контрагентов в принципе.
Причём это касается всех НКО, так что тут не может быть связи с санкционными рисками в чистом виде, а если и связано, то решение проблемы хуже самой проблемы. Я напомню что Инфокультура ведёт проект Открытые НКО где эти данные, также, необходимы.
#opendata #data #registries #ngos
Telegram
Рюмочная ИПП
Неофициальная рюмочная Института проблем правоприменения при Европейском университете в Санкт-Петербурге.
Больше о нас: https://enforce.spb.ru
Больше о нас: https://enforce.spb.ru
Хорошая новость в том что Минцифры наконец-то начали чистить/приводить в порядок реестр отечественного ПО и опубликовали перечень правообладателей с нерелевантными сведениями [1] с призывом им зайти и обновить о себе информацию. Как сторонник повышения качества госданных лично я очень поддерживаю эту идею, все бы реестры можно было так почистить.
Контроль качества данных - это вообще очень нужное дело, нет ничего постыдного в наличии неактуальных сведений если есть понимание что с ними делать и как разрешать спорные ситуации недостоверности/неполноты сведений.
А, в целом, задача нетривиальная. В России многие юридические лица ликвидируются без ликвидации, их владельцы перестают ими заниматься и просто сдают нулевые балансы или переписывают на номиналов или ещё что-то, в общем компания есть в каком-нибудь реестре, на ней есть какие-нибудь лицензии, разрешения, ещё что-то, а контакты все нерелевантны и кроме как официальными письмами на юр. адрес с ними не связаться, а если и связаться то не факт что будет ответ.
Поэтому:
а) Хотелось бы чтобы и многие операторы российских реестров взяли такую практику на вооружение.
б) Если Вы относитесь к компаниям в этом списке или знаете тех кто к ним относится, не поленитесь и попросите их актуализировать сведения о себе.
А практику и качество ведения этого реестра и других реестров организаций предлагаю обсудить у меня в чате @begtinchat
Ссылки:
[1] https://reestr.digital.gov.ru/irrelevant_right_holders/
#registries #it #digital
Контроль качества данных - это вообще очень нужное дело, нет ничего постыдного в наличии неактуальных сведений если есть понимание что с ними делать и как разрешать спорные ситуации недостоверности/неполноты сведений.
А, в целом, задача нетривиальная. В России многие юридические лица ликвидируются без ликвидации, их владельцы перестают ими заниматься и просто сдают нулевые балансы или переписывают на номиналов или ещё что-то, в общем компания есть в каком-нибудь реестре, на ней есть какие-нибудь лицензии, разрешения, ещё что-то, а контакты все нерелевантны и кроме как официальными письмами на юр. адрес с ними не связаться, а если и связаться то не факт что будет ответ.
Поэтому:
а) Хотелось бы чтобы и многие операторы российских реестров взяли такую практику на вооружение.
б) Если Вы относитесь к компаниям в этом списке или знаете тех кто к ним относится, не поленитесь и попросите их актуализировать сведения о себе.
А практику и качество ведения этого реестра и других реестров организаций предлагаю обсудить у меня в чате @begtinchat
Ссылки:
[1] https://reestr.digital.gov.ru/irrelevant_right_holders/
#registries #it #digital
По поводу "реестра токсичного контента" [1] который продвигает г-н Ашманов многие уже написали, а я добавлю что, конечно, жаль что в России нет закона о лоббизме потому что у Игоря Ашманова в данном случае есть прямой конфликт интересов поскольку правильно указывать аффиляцию Игоря Ашманова как бенефициара компании Крибрум (он её основатель), а общественные позиции не более чем инструмент повышения капитализации активов.
Крибрум не то чтобы лидер отрасли мониторинга контента. У них минимум заказов [2] по 44-ФЗ, но может быть по 223-ФЗ есть, нельзя сказать точно потому что данные не раскрываются. А с другой стороны резкий рост выручки за 2019-2020 годы, например, за 2020 год она составила 379 млн руб [3], что не так уж мало, но существенно меньше чем выручка Медиалогии в 1.7 млрд руб и сравнимо Брэнд Аналитикс (ООО Палитрумлаб) в 323 млн руб.
Почему вся эта инициатива выглядит сомнительно? Потому что мир идёт по пути регулирования платформ. Зачем мониторить и составлять реестр токсичного контента когда уже принято решение о приземлении платформ на российскую юрисдикцию? Контент или соответствуют российскому законодательству, или удаляется/блокируется модераторами платформу. Нельзя быть "чуть-чуть токсичным", тут либо налево, либо направо, третьего не дано.
Ссылки:
[1] https://habr.com/ru/news/t/590589/
[2] https://clearspending.ru/supplier/inn=7731661104&kpp=773101001
[3] https://bo.nalog.ru/organizations-card/378398#balance
#registries #ashmanov
Крибрум не то чтобы лидер отрасли мониторинга контента. У них минимум заказов [2] по 44-ФЗ, но может быть по 223-ФЗ есть, нельзя сказать точно потому что данные не раскрываются. А с другой стороны резкий рост выручки за 2019-2020 годы, например, за 2020 год она составила 379 млн руб [3], что не так уж мало, но существенно меньше чем выручка Медиалогии в 1.7 млрд руб и сравнимо Брэнд Аналитикс (ООО Палитрумлаб) в 323 млн руб.
Почему вся эта инициатива выглядит сомнительно? Потому что мир идёт по пути регулирования платформ. Зачем мониторить и составлять реестр токсичного контента когда уже принято решение о приземлении платформ на российскую юрисдикцию? Контент или соответствуют российскому законодательству, или удаляется/блокируется модераторами платформу. Нельзя быть "чуть-чуть токсичным", тут либо налево, либо направо, третьего не дано.
Ссылки:
[1] https://habr.com/ru/news/t/590589/
[2] https://clearspending.ru/supplier/inn=7731661104&kpp=773101001
[3] https://bo.nalog.ru/organizations-card/378398#balance
#registries #ashmanov
Хабр
Ашманов предложил создать реестр токсичного контента
По информации издания «Ведомости», член Совета при президенте России по развитию гражданского общества и правам человека Игорь Ашманов, а также представители общественных организаций, связанных с...
Минцифры снова выложило реестр аккредитованных ИТ компаний, в формате ODS и пложенным к госуслуге "Отсрочка от армии"[1].
В реестре более 22 тысяч организаций, особенно стоит обратить внимание на:
- больницы
- университеты
- бюджетные учреждения
И ещё немало чего, особенно много изменений с начала марта 2022 года, догадайтесь сами почему.
Ссылки:
[1] https://www.gosuslugi.ru/armydelay
#government #registries #opendata
В реестре более 22 тысяч организаций, особенно стоит обратить внимание на:
- больницы
- университеты
- бюджетные учреждения
И ещё немало чего, особенно много изменений с начала марта 2022 года, догадайтесь сами почему.
Ссылки:
[1] https://www.gosuslugi.ru/armydelay
#government #registries #opendata
Признаться я не слежу именно за ПМЭФом, но немного слежу за тем что касается ИТ отрасли. В канале Минцифры приводят фразу Чернышенко (вице-премьер) , я воспроизведу её часть.
...По данным Минцифры, до конца года в реестре отечественного ПО будет зарегистрировано 35 тыс. компаний. Стоит отметить, что они приходят не только за льготами (а они беспрецедентны), мы понимаем, что условия для ведения ИТ-бизнеса в России выгоднее, чем во всем мире, отрасль уже начинает показывать результат...
Я, честно говоря, этот оптимизм не разделяю, но обратить внимание хочу на некоторые ошибки:
1. В реестре отечественного ПО совершенно точно нет и не может быть 35 тысяч компаний, в лучшем случае 4-5 тысяч. Не все российские ИТ компании создают, регистрируют, патентуют ПО, увы.
2. 35 тысяч компаний - это цифра близкая к реестру аккредитованных ИТ компаний. Я про этот реестр уже писал неоднократно, не надо путать аккредитованные компании с ИТ рынком. Среди аккредитованных ИТ компаний есть ЧОПы, родильные дома, поликлиники и Высшая школа экономики и ещё много чего не ИТшного. По хорошему этот реестр надо резать и оставлять в нём только тех кто имеет ИТ льготы (около 8-9 тысяч компаний).
3. Не дай то Бог конечно если ещё и реестр отечественного ПО превратится в такую же помойку как реестр аккредитованных ИТ компаний. Реестр отечественного ПО неидеален и, по хорошему, его надо расширять SaaS, PaaS, IaaS сервисами и ещё много чем, но я лично приветствую его систематизацию и развитие в сторону возможности анализа ИТ рынка.
Вот как-то так.
UPD: Ведущие телеграм канал Минцифры слова Чернышенко поправили и как говорят слушавшие его речь - говорил он про реестр аккредитованных, но проблемы мусорности реестра аккредитованных компаний это не отменяет.
Ссылки:
[1] https://t.iss.one/mintsifry/1215
#registries #it #itmarket
...По данным Минцифры, до конца года в реестре отечественного ПО будет зарегистрировано 35 тыс. компаний. Стоит отметить, что они приходят не только за льготами (а они беспрецедентны), мы понимаем, что условия для ведения ИТ-бизнеса в России выгоднее, чем во всем мире, отрасль уже начинает показывать результат...
Я, честно говоря, этот оптимизм не разделяю, но обратить внимание хочу на некоторые ошибки:
1. В реестре отечественного ПО совершенно точно нет и не может быть 35 тысяч компаний, в лучшем случае 4-5 тысяч. Не все российские ИТ компании создают, регистрируют, патентуют ПО, увы.
2. 35 тысяч компаний - это цифра близкая к реестру аккредитованных ИТ компаний. Я про этот реестр уже писал неоднократно, не надо путать аккредитованные компании с ИТ рынком. Среди аккредитованных ИТ компаний есть ЧОПы, родильные дома, поликлиники и Высшая школа экономики и ещё много чего не ИТшного. По хорошему этот реестр надо резать и оставлять в нём только тех кто имеет ИТ льготы (около 8-9 тысяч компаний).
3. Не дай то Бог конечно если ещё и реестр отечественного ПО превратится в такую же помойку как реестр аккредитованных ИТ компаний. Реестр отечественного ПО неидеален и, по хорошему, его надо расширять SaaS, PaaS, IaaS сервисами и ещё много чем, но я лично приветствую его систематизацию и развитие в сторону возможности анализа ИТ рынка.
Вот как-то так.
UPD: Ведущие телеграм канал Минцифры слова Чернышенко поправили и как говорят слушавшие его речь - говорил он про реестр аккредитованных, но проблемы мусорности реестра аккредитованных компаний это не отменяет.
Ссылки:
[1] https://t.iss.one/mintsifry/1215
#registries #it #itmarket
Telegram
Минцифры России
⚡️ «ИТ-отрасль пронизывает все отрасли нашей жизни. Первые меры, которые принял Президент, касаются ИТ-отрасли. Видим, что поддержка оценена. По данным Минцифры, до конца года в реестре будет зарегистрировано 35 тыс. компаний. Стоит отметить, что они приходят…
it_anomalies_20220801.zip
53.6 KB
Минцифры, конечно, почистили реестр аккредитованных компаний, да вот незадача, не до конца, не полностью и все. В архиве списки компаний для которых, за некоторым исключением, основная область - это не ИТ.
Эти списки включают ИНН,Название компании и статус после фильтрации, на сегодня. Многие уже не действуют, но те кто захотят посмотреть, найдут и действующие:
- avia.csv - компании имеющие лицензии в авиастроении и иных работах в авиаотрасли. Некоторые ИТ, не все
- finorgs.csv - финансовые организации, имеющие банковские и брокерские лицензии. Почти все не ИТ, большая часть аннулированы
- insurance.csv - страховые компании, почти все не ИТ. Действующая осталаль только АО "БУДУ" (бывшее - Ренессанс Страхование). Очень интересно, как это её оставили.
- universities.csv - Высшие учебные заведения. Аннулировали почти все. Почему не аннулировали аккредитацию Университета Иннополиса?
- ngos.csv - некоммерческие организации. Некоторые из них ИТ, но большая часть это ГОНГО, псевдоведомственные учреждения в регионах. Нехорошо, мало аннулировали
- radiotv.csv - телерадиокомпании имеющие лицензии на телевещание. Аннулировали не всех, у тех что не аннулировали по факту не ИТ деятельность.
- telecom.csv - телекоммуникационные компании. По моему в Минцифре РФ путают телеком и ИТ рынок, а это разные рынки. Хотя телеком компании к ИТ рынку наиболее близки, но выручка у них не с продажи софта
- hasgov.csv - организации с учредителями госкорпорациями, госучреждениями и госорганами. Много аннулированных, но как то избирательно. А почему про Федеральный ресурсный центр (ФБУ ФРЦ) забыли ? Он то точно не ИТ или почему ФКУ ФСИН по инженерному-обеспечению и вооружению в Тюменской области не с аннулированной аккредитацией?
Я могу ещё много задать вопросов, но в качества итога два тезиса:
1. Много самых вопиющих случаев исправлено.
2. Много не самых вопиющих случаев не исправлено
3. А ещё много каких компаний вообще никакой деятельности не ведут и их даже нет в этих списках. О них как-нибудь позже.
#itmarket #digital #registries
Эти списки включают ИНН,Название компании и статус после фильтрации, на сегодня. Многие уже не действуют, но те кто захотят посмотреть, найдут и действующие:
- avia.csv - компании имеющие лицензии в авиастроении и иных работах в авиаотрасли. Некоторые ИТ, не все
- finorgs.csv - финансовые организации, имеющие банковские и брокерские лицензии. Почти все не ИТ, большая часть аннулированы
- insurance.csv - страховые компании, почти все не ИТ. Действующая осталаль только АО "БУДУ" (бывшее - Ренессанс Страхование). Очень интересно, как это её оставили.
- universities.csv - Высшие учебные заведения. Аннулировали почти все. Почему не аннулировали аккредитацию Университета Иннополиса?
- ngos.csv - некоммерческие организации. Некоторые из них ИТ, но большая часть это ГОНГО, псевдоведомственные учреждения в регионах. Нехорошо, мало аннулировали
- radiotv.csv - телерадиокомпании имеющие лицензии на телевещание. Аннулировали не всех, у тех что не аннулировали по факту не ИТ деятельность.
- telecom.csv - телекоммуникационные компании. По моему в Минцифре РФ путают телеком и ИТ рынок, а это разные рынки. Хотя телеком компании к ИТ рынку наиболее близки, но выручка у них не с продажи софта
- hasgov.csv - организации с учредителями госкорпорациями, госучреждениями и госорганами. Много аннулированных, но как то избирательно. А почему про Федеральный ресурсный центр (ФБУ ФРЦ) забыли ? Он то точно не ИТ или почему ФКУ ФСИН по инженерному-обеспечению и вооружению в Тюменской области не с аннулированной аккредитацией?
Я могу ещё много задать вопросов, но в качества итога два тезиса:
1. Много самых вопиющих случаев исправлено.
2. Много не самых вопиющих случаев не исправлено
3. А ещё много каких компаний вообще никакой деятельности не ведут и их даже нет в этих списках. О них как-нибудь позже.
#itmarket #digital #registries