Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Для тех кто хочет поработать с данными из OS Places по России, на Хаб открытых данных выложен датасет в формате parquet на 3 096 012 точек [1] и общим объёмом 309 мегабайт.

Ожидаемо, у тех точек где есть привязка к региону, более всего точек у Москвы и Санкт-Петербурга. А вообще датасет можно использовать и для проверки алгоритмов повышения качества данных потому что у более чем половины точек, к примеру, нет указания региона, города и адреса, только координаты.

Датасет большой, идей по его применению может быть очень много

Ссылки:
[1] https://hubofdata.ru/dataset/ru-os-places

#opendata #russia #geodata #datasets
В рубрике закрытых данных в РФ с 2023 года перестал работать домен rosrid.ru на котором были доступны научные работы из ЕГИСУ НИОКТР (Единая государственная информационная система учета. научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) и вместо него теперь работает сайт gisnauka.ru [1].

Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].

Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.

Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew

#opendata #closeddata #russia #openaccess
Читаю в Российской газете про идею создания научного дата-хаба [1] и думаю как это прокомментировать.

Начну с того что для его создания регулирования не нужно, необходимо лишь чтобы ключевые органы власти и ряд учреждений сдали бы туда данные и чтобы ими можно было пользоваться. Это вопрос не регулирования, а как принято говорить "политической воли" или, если угодно, "государственного насилия" в отношении государственных же структур не участвующих в обмене данными.

И поэтому, разговоры про регулирование стоит воспринимать как опасный звоночек потому что не имея возможность потребовать от госорганов и госкорпораций данные, пр-во начнет регулировать бизнес сдавать данные в этот дата хаб. Вот тут регулирование нужно в полный рост, но это уже плохая форма государственного принуждения, выгодная только ограниченному числу ИИ компаний и ряду госорганов.

Ссылки:
[1] https://rg.ru/2024/11/25/rossijskij-ii-obuchat-na-otechestvennyh-dannyh.html

#opendata #data #ai #regulation #russia
Свежее регулирование выдачи сертификатов российского НУЦ [1] предполагающее выдачу сертификатов национального удостоверяющего центра веб сайтам/сервисам и это к вопросу о том когда сайты российских госорганов и госучреждений начнут выпадать из поисковиков Google, Bing, а также более не архивироваться в Интернет Архиве.

Из интернет архива многие госсайты уже повыпадали [2] [3] [4] и многие другие могут исчезнуть в будущем.

Я бы сказал что уже давно переходить к архивации всех сайтов российских госорганов, но задача эта не только трудоёмкая, но и финансово затратная - на оборудование и на хранение, пока мы своими силами в рамках Национального цифрового архива [5] не решили. Нехватает времени/ресурсов даже нормальный каталог заархивированного сделать.

Но острота проблемы с недоступностью и потенциальной потерей контента не снимается.

Ссылки:
[1] https://t.iss.one/ep_uc/2981
[2] https://web.archive.org/web/20240000000000*/https://minjust.gov.ru
[3] https://web.archive.org/web/20240000000000*/https://rkomi.ru
[4] https://web.archive.org/web/20240000000000*/https://www.mnr.gov.ru
[5] https://ruarxive.org

#digitalpreservation #webarchival #russia
Написал большой текст про особенности российской официальной статистики
Российская статистика: немашиночитаемая институциональная фрагментация
в этот раз там не столько про машиночитаемость, и даже не столько про цифровизацию Росстата, сколько про его территориальные подразделения и про гигантское дробление данных и публикаций которые они создают.

Я не стал этого добавлять в большой текст, добавлю здесь. В среднем на сайте терр. органа Росстата опубликовано от 500 до 2000 документов, примерно такое же число публикаций выпущенных ими на бумаге. Если все эти документы собрать вместе то был бы каталог от 50 до 200 тысяч статистических публикаций и это было бы даже каталогом данных, наполовину,уж точно.

Но этого никогда не будет до тех пор пока подразделения Росстата торгуют данными.

#opendata #data #statistics #russia
Пишут что российское Минцифры предложило запретить использование иностранных мессенджеров в рабочих целях [1].

Очень трудно удержаться от того чтобы такое не прокомментировать. А что после этого и других подобных инициатив удивительно что все квалифицированные ИТ спецы кто могут стараются не работать из России и уезжают, кто далеко, кто недалеко? Я готов поспорить что есть прямая корреляция между запретами на коммуникацию, а также любыми ограничениями вызванными политической целесообразностью и профессиональной деятельностью.

Неважно где это происходит, в России, в Турции, или ещё в каких странах.

Государство не должно лезть в твою постель, в твой телефон и в твою голову.

P.S. И в твои данные, конечно же, тоже.

Ссылки:
[1] https://www.interfax.ru/russia/996664

#russia #government
В рубрике закрытых данных в РФ с декабря 2021 года с портала данных Министерства культуры РФ [1] исчезло 8 наборов данных. Было 62 [2], а стало 54 на начало декабря 2024 г. Новости портала не обновлялись также с середины 2021 года [3]

Хорошая новость в том что оставшиеся наборы данных пока ещё обновляются.

А когда-то это был один из лучших порталов открытых данных в России. Говорю как человек которые уже пересмотрел тысячи сайтов с открытыми данными.

Ссылки:
[1] https://opendata.mkrf.ru/opendata
[2] https://web.archive.org/web/20211130053406/https://opendata.mkrf.ru/opendata
[3] https://opendata.mkrf.ru/item/newslist

#closeddata #data #opendata #russia #culture
В рубрике закрытых данных Росстат прекратил публикацию оценок месячных оборотов розницы по компонентам о чём пишет Коммерсант в статье от 12 декабря [1].

От себя добавлю что одна из сложностей в мониторинге исчезновения данных Росстата, в том что большая часть их публикацией - это не данные как данные, а таблицы как документы HTML, Word, реже Excel. Хочется сказать что спасибо что не сканированные PDF, но в целом это вызывает оторопь как и совершенно жуткая фрагментация публикаций. Нужно буквально знать где что лежит на сайте Росстата потому что так просто не найти, даже через внешний поиск сложно найти.

Поэтому отследить исчезновение их материалов могут, как правило, те кто работает с ними постоянно.

Ну и похоже что пора архивировать официальный сайт Росстата и другие их ресурсы. Просто чтобы была архивная копия, на всякий случай.

Правда, если сайт ещё можно сохранить, то с их BI системой [2] или с витринами данных [3] или с ЕМИСС [4] всё куда сложнее.

Витрины изначально были устроены так что требуют отдельного скрипта для сбора данных, BI система вообще не приспособлена к этому, а ЕМИСС с виду кажется что вот они данные, только качай, только публикация открытых данных сделана там через ... не через голову, в общем. То что выводится на страницах и то что опубликовано в разделе открытых данных - не бьются. Тоже требуется код чтобы полноценно собирать эти данные.

Ссылки:
[1] https://www.kommersant.ru/doc/7364997
[2] https://bi.gks.ru
[3] https://showdata.gks.ru
[4] https://fedstat.ru

#opendata #closeddata #russia #statistics
Много лет я писал что Гостех в РФ - это мертворождённый проект. Вначале от него отказались в Пр-ве Москвы, потом в Пр-ве Казахстана, а теперь и федералы слили его. Если честно в какой-то момент меня перестала беспокоить его судьба, потому что заниматься большими международными данными куда интереснее чем российская госинформатизация. Но тем не менее. Итог закономерный и это радует.

#russia #government #govtech
Каждый имеет право на ответ (с)

Публикую текст от пресс-секретаря Росстата по ситуации с доступностью данных о розничных продажах.

#opendata #rosstat #statistics #russia
В российском Форбс статья [1] о том что гос-во в лице Минцифры запланировало сбор "обезличенных геотреков" со всех сотовых операторов обо всех россиянах. В статье мой комментарий тоже есть, а я добавлю тезисов тут:
1. Надо понимать что государство ключевой маркетмейкер всего что касается закупки данных, сервисов и геоаналитики. Разговоры про сбор данных в госозеро - это де-факто национализация данных, отъём их от участников рынка и предоставление госсервисов на их основе. Госсервисов которые будут монопольны и поубивают частные потому что ни у одного сотового оператора такой базы не будет. Закончится это тем что государство, либо создаст отдельный бизнес юнит для торговли такими сервисами, или делегирует одному из имеющихся госАО, госГБУ, госАНО и тд. Как бы ни был "тяжёл" частный рынок, монополия будет хуже. Акции всех сотовых операторов и будущие доходы тоже просядут.
2. Что бы там не говорили про обезличивание по геотрекам очень просто восстановить информацию о конкретном человеке. Объектами слежки, чтобы кто там ни думал, будут не рядовые граждане, а сами же чиновники. Ничто не помешает приходящим в РФ к власти "консервативным силам" вычислить всех министров, замминистров, директоров департаментов нетрадиционной ориентации и ловить их во время очередного рейда по ночным клубам. Это и сейчас не так сложно, получая данные от сотовых операторов, но с геотреками будет ещё больше.

Я бы тут ещё много тезисов добавил, но не могу, сбоит внутренний переводчик с простого русского просторечного на русский публицистический. Но, в общем, все меня поняли;)

Ссылки:
[1] https://www.forbes.ru/tekhnologii/527832-mesta-znat-nado-gosudarstvo-hocet-sobirat-mobil-nye-geodannye-rossian-u-operatorov

#regulation #russia #privacy
В рубрике закрытых российских данных Росавиация опубликовала общую статистику за 2023 год [1] и убрала с своего сайта все архивные данные статистики начиная с 2010 года в виде файлов и статистику на 2021-2022 годы. Они доступны теперь только в веб архив е [2]. Также на официальном сайте более недоступны статистика перевозки пассажиров и статистика перевоза грузов и почты по авиакомпаниям. Они, также, теперь есть только в архиве Интернет-архива [3] включая исторические данные с 2010 года.

Лично я отдельной новости о закрытии этих сведений не нашёл, но произошло это относительно недавно. Последний раз архивная копия фигурирует за апрель 2024 года.

Всё это к вопросу о том зачем надо архивировать содержимое российских госсайтов.

Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-stat-dannie/
[2] https://web.archive.org/web/20240227060215/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[3] https://web.archive.org/web/20240228103322/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/

#government #russia #diigitalpreservation #airtraffic #statistics
Немного отвлекаясь от сугубо технических тем и возвращаясь к сбору геотреков граждан государством в РФ, а ранее историям про госозеро и про огосударствление биометрических данных.

Помимо шуток и не шуток про тотальную слежку тут важно понимать что сама ситуация абсолютно уникальная. Я лично не знаю ни одну страну где государство де-факто национализировало бы данные бизнеса в таких количествах. Обычно всё происходит иначе и взаимоотношения гос-ва и дата-корпораций состоит из 3-х частей:
1) Корпорации и общественность лоббируют доступность тех или иных госданных которые предоставляются по разным моделям: открытые данные, доверенные операторы, покупка и продажа и тд.
2) Власти принуждают корпорации отдавать свои данные рынку, через антимонопольное давление, через программы по обмену данными (data sharing), через иные формы поощрения использования и предоставления данных
3) Спецслужбы/разведки разными непубличными способами взаимодействуют с крупнейшими сборщиками и операторами данных для решения госзадач в их ведении.

Собственно первые два типа взаимоотношений мы регулярно наблюдаем, про третий тип иногда происходят утечки, но в целом это то как мир развивается.

В России всё происходит иначе. Государство в лице фед. пр-ва шаг за шагом национализирует даже не просто базы данных, а целые блоки общественной жизни которые находятся у разного рода владельцев, дата корпораций и тд. и далее может раздавать эти данные кому надо. Скорее всего тем кто окажется ближе к лицам принимающающим решения.

Данные дата-корпораций становятся из их актива в государственный ресурс сдачи и раздачи. Мне это напоминает описанное в книгах Симона Гдальевича Кордонского, но перенесённое из физического пространства, в цифровое. Цифровые компании превращаются в цифровых бояр (или помещиков), оказываются во всё большей зависимости от федеральной власти, должны жить по определённым правилам игры не все из которых изложены нормативно.

Усиливаться эти цифровые бояре могут только путём приобретения адм. ресурса и укрупнением. Собственно подобное развитие отношений государство-бизнес, вместе с другими факторами, естественно ведёт к чеболизации всей этой сферы.

Честно говоря у меня каких-либо выводов нет, современный цифровой государственный патернализм стремительно набирает обороты, и пока какой-то большой цифровой катастрофы не произойдёт, то и шансов на то что этот процесс остановится или замедлится, нет.

P.S. Хочется добавить что такими темпами цифровая катастрофа неизбежна как один из чёрных лебедей который поломает цифровую инфраструктуру и что всё это выглядит довольно хрупко, но, думаю, что это и так очевидно.

#thoughts #russia #privacy