Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике интересных наборов данных Subnational HDI [1] индекс человеческого развития на региональном уровне, например, департаментов во Франции, субъектов федерации в России, штатов в США и тд. Публикуются Global Data Lab, единственное ограничение просят зарегистрироваться у них на сайте перед выгрузкой,

На основе их данных есть самая простая визуализация по регионам.

А вот у команды Mozaiks есть уже совсем не простая визуализация и модель данных [2] для отображения этого индекса на гиперлокальном уровне.

Собственно они в марте 2023 г. опубликовали научную работу Global High-Resolution Estimates of the United Nations Human Development Index Using Satellite Imagery and Machine-learning [3]

Визуализация получается весьма наглядная.

Ссылки:
[1] https://globaldatalab.org/shdi/table/shdi/
[2] https://www.mosaiks.org/hdi
[3] https://www.nber.org/papers/w31044

#opendata #datasets #un #dataviz
Про чистку ведомственных баз данных от излишков информации. Часть 1 из 2

Тут все активно обсуждают выступление главы Минцифры Максута Шадаева по поводу того чтобы сделать инвентаризацию данных и не выдавать данные из контуров ведомств [1] и пытаются проделать интерпретации этого выступления.

Признаться я не услышал в нём ничего нового, это ровно что и есть публичное подтверждение достаточно давнего тренда - тренда на ограничение доступа к данным в России. Этот тренд начался не с выступления министра и даже не с введения состояния мобилизационной экономики, этому тренду более 9 лет. Ещё в 2013 году Путин совместно с главами G8 подписывал декларацию открытости данных, а уже в 2014 году G8 превратилось в G7. Какое-то время в России шло два тренда параллельно, с одной стороны шла интенсивная информатизация и попытки формировать инновационный рынок, а с другой растущее число работ журналистов расследователей на данных, которые были доступны, именно благодаря цифровизации экономических отношений. Конечно системы ЕГРН, ЕГРЮЛ, госзакупок и др. создавались не для журналистов, они создавались для ускорения и развития экономических отношений, развития рынков, стартапов и интеграции государственных систем, а также выполнения тех международных обязательств которые имели место быть. Где-то года до 2020 российские госорганы ещё обращали внимание на позиции в международных рейтингах, например, Минфин волновали позиции России в Open Budget Index.

Но, параллельно с этим, закрывались данные о субсидиях, получателях госконтрактов по ряду направлений (госкорпорации по 223-ФЗ), в 2021 году скрыли данные об учредителях НКО, постепенно начали закрытие данных ЕГРН, быстро не могли это сделать из-за огромного рынка стройки и оборота недвижимости и земли, последствия были бы тяжёлыми и так далее. Тренд на закрытость постепенно перебивал тренд на открытость.

В основе этого тренда на закрытость два важнейших страха - страх экономического ущерба, государству, компанию и отдельным людям, в виде попадания под прямые и опосредованные санкции и страх деятельности журналистов расследователей. Причём первое многократно критичнее второго.

Всё это не только про открытые данные в строгом смысле (свободные лицензии, машиночитаемость), но и про доступные данные продаваемые гос-вом, данные в разных, не только машинных форматах и даже сведения к которым доступом получали на чёрном рынке пробива информации. Последнее самое сложное, до сих пор многим сотрудникам госорганов платят не настолько хорошо чтобы у них не возникало соблазна такой подработки.

Централизация данных, особенно персональных, лишь повышала вероятность появления если не утечек, то доступа к рынку пробива.

Но централизованные системы создавались, только делать их дозволялось и дозволяется не всем. Поэтому мне сложно до конца верить словам Максута, в первую очередь потому что относительно недавно был создан единый регистр населения и вот уже создаётся (создан?) реестр военнообязанных. Это системы объединяющие данные разных ведомств, я не поверю что данные там только по запросу. Собственно вся затея с НСУД была как раз для того чтобы избежать "ведомственного огораживания", как раз для интеграции данных для госуслуг и других задач. Фактически слова Максута противоречат политике Минцифры РФ как минимум последних лет.

Продолжение в следующем посте

#opendata #closeddata #data #russia #itmarket
Про чистку ведомственных баз данных от излишков информации. Часть 2 из 2

Важнее разговор про инвентаризацию. Инвентаризация данных, в нормальных, мирных условиях проводится с целью обмена ими. Данные - это ценный экономический ресурс, который может быть доступ в рамках открытости гос-ва (open data) или программ обмена данными (data sharing), но практически всегда конвертируется в новые продукты, бизнесы, научные работы, статьи, исследования и так далее. Инвентаризация же с целью информационной безопасности - это подтверждение что работа с данными в России окончательно переходит из режима развития в режим военной экономики. Для рынка информационной безопасности - это прекрасная новость, для рынков торговли данными, создания продуктов на их основе и любой аналитики - это растянувшаяся катастрофа. Это длительная неопределенность и непонимание того какой источник данных закроют завтра, послезавтра?

Мы уже видим это на примерах закрытого портала data.gov.ru, который при его никчёмности, номинально демонстрировал что в России госинициатива по открытости данных на федеральном уровне жива. Его закрыли тоже на инвентаризацию? Мы видим это на примере огромных штрафов за раскрытие данных ЕГРН, до 600 тысяч. Я думаю что всем очевидно что их применять будут, в первую очередь, к расследовательским СМИ и расследователям.

Всё это вызывает опасения закрытия всех иных "чувствительных и необходимых" данных. ЕГРЮЛ ещё доступен хотя бы и без данных о учредителях. Ограничат? Данные о госторгах и госзакупках ещё публикуются. Скроют и их? Про статистические показатели мы уже поняли что депутаты разрешили Пр-ву скрывать любую официальную статистику. Интересно, хотя бы постановления Пр-ва РФ по поводу сокрытия данных будут открытые или их тоже засекретят? Иногда мне удивительно что ещё законодательство страны не переводят в полу-секретный режим, это же тоже базы данных.

Как бы то ни было, мои финальные выводы из происходящего в том что ставки на экономическое развитие и малый и средний бизнес более нет. Есть военная экономика, есть несколько десятков Дзайбацу [2] на которых делается ставка, и окончательно нет малого-среднего бизнеса и все инновационной экономики. Учитывая что только развитие инновационной экономики было единственной более-менее допустимой опорой в части доступа к государственным данным, то и можно говорить об окончательной заморозке этой темы в России.

При этом надо понимать что не Максут Шадаев принимает об этом решения, он, в лучшем случае, озвучивает уже произошедшее. Система госуправления в России выстроена так что даже федеральные министры лишены значительной части субъектности, а решения принимаются на уровне премьера, вице-премьеров и ограниченного числа ключевых госкорпоратов и политической элиты. И началось всё не с его речи, конечно же, мы лишь услышали подтверждение того что было и раньше

Ссылки:
[1] https://rg.ru/2023/04/18/mincifry-zajmetsia-reviziej-vedomstvennyh-baz-dannyh.html
[2] https://ru.wikipedia.org/wiki/Дзайбацу

#opendata #closeddata #russia #data #itmarket
This media is not supported in your browser
VIEW IN TELEGRAM
Совсем свежая статья с видеопримерами от команды NVIDIA про языковую модель по генерации видео на основе описания текстом [1]. Проще говоря: генеративный ИИ текст-в-видео.

Что характерно там не только примеры общей модели, но и обучения на видеозаписях, например, кота и генерации видео на их основе. Иначе говоря, возможность создавать персонализированный видео-контент на основе предоставленных материалов.

Про математическую и техническую реализацию лучше посмотреть в самой статье, а я про практическое применение.

Возможно полнометражные фильмы появятся ещё не скоро, но что неизбежно появится очень быстро и будет иметь различные социальные и экономические последствия - это:
1) Персонифицированная порнография и падение доходов у порноактрис и эротических моделей, поскольку можно нагенерировать множество изображений и видео предобучив на имеющихся. Это уже происходит для изображений, теперь будет и для видео.

2) Оживление мёртвых людей в виртуальном пространстве. Продажа вечной "цифровой жизни" и тд. Оно и так есть, оно и так развивается, а генерация качественного видео это усилит.

Ссылки:
[1] https://research.nvidia.com/labs/toronto-ai/VideoLDM/

#ai #research
Пока мы тут обсуждаем кого ИИ лишит профессии, спешу сказать что разработчикам и инженерам не стоит надеяться на скорое исчезновение их профессий (что хорошо) и даже на то что ИИ очень сильно облегчит жизнь (что не так хорошо). Почему? Потому что большую часть инженеров и разработчиков что я знаю на реальных продуктах и проектах - это отладка и legacy, это разгребание накопленного непотребства, создание кривых подпорок из кривых подпорок и ещё много чего. За исключением очень редких уникальных случаев когда это не так. ИИ может лишить интересной работы по созданию чего-то абсолютно с нуля и ещё сильнее усложнить переход разработчиков из джунов в миддлы, потому что чуть ли не главные их отличия - это умение работать самостоятельно и самостоятельно вести отладку.

#ai #profession #dataengineering
На чём Google обучает свой чат-бот, журналисты Washington Post заглянули внутрь Google C4 [1] набора данных для обучения языковой модели. Более всего там базы патентов из patents.google.com которая собрана из открытых баз патентов США и других стран, там же база публичных отчётов компаний sec.gov и ещё многие другие открытые государственные данные, в основном из США. Другой немаловажный источник - Википедия.

Просто интересно, вместе с запретом Википедии депутаты в России чат боты обученные на ней тоже запретят?

А по факту именно свободные знания и открытые государственные знания создают существенную долю языковых моделей на которых создаются новые ИИ инструменты.

Ссылки:
[1] https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

#opendata #ai #datasets #google
Продолжая про проект Common Data Index, для тех кто интересуется какие каталоги данных есть в мире в Github'е в репозитории [1] уже собрано описание более чем 1450 каталогов с данными, а это включает то на каком ПО они работают, какие там точки подключения к API и многое другое.
Причём вначале было около 1700, но более чем 350 уже не существуют и были удалены и около 100 ещё добавлено.

Тем кто хочет посмотреть на список то он есть в виде наборов данных в JSON lines [2] и CSV [3].

Так вот что я могу сказать, так это повторить предыдущие выводы:
1. Геоданные составляют основную часть открытых и общедоступных данных, если не считать отдельные агрегаторы научных данных вроде zenodo.org, после их индексирования скорее всего несколько это изменится
2. Проблема в том что геокаталогов много, а списков их нет. Например, инсталляций Geonetwork уже собрано 111 и их ещё очень много и искать их долго. А число инсталляций GeoNode, GeoServer просто не сосчитать. Правда обычно там и данных публикуется до 100 наборов данных, максимум.
3. Россия родина изобретателей велосипедов (с). Не шучу, какое-то неимоверное число собственных разработок порталов данных и геопорталов. Хороших мало, но тоже есть. Поражает скорее расточительность. Это резко контрастирует с европейскими странами и более всего похоже на Китай.
4. Я частично уже понимаю как собирать метаданные с большинства порталов данных , это положительный момент, большую часть наборов данных можно охватить используя примерно 10-15 схем метаданных. Это типовое ПО и крупные проекты вроде Zenodo, DataOne и др.

А самое главное что на основе это уже удалось собрать индекс первичных данных на 3.1 миллионов наборов данных.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry
[2] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs.jsonl
[3] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs_export.csv

#opendata #datasets #geodata #datacatalogs
Тем временем в Великобритании Правительство закрывает проект по цифровой закупке продуктов [1] в рамках Digital Marketplace. Многие из тех кто продавали таким образом госструктурам ПО и услуги считают что это большой шаг назад [2]. Мне вот не удалось найти объяснения этого шага, он выглядит довольно странно со стороны.

В лекциях чиновникам я регулярно рассказывал про эту инициативу как пример правильного подхода, жаль что на него теперь уже не сослаться.

Ссылки:
[1] https://www.digitalmarketplace.service.gov.uk/
[2] https://twitter.com/dominiccampbell/status/1649015861913477124?s=46&t=zIrjZL532Q-g_BoBMdJtaQ

#government #uk #procurement #digital
В рубрике интересных наборов данных, мало кто знает что в Испании кроме официальной статистики, есть так называемая экспериментальная статистика, показатели которой рассчитываются, в основном, из разного рода информационных систем и которая прежде чем стать официальной проверяется, но при этом тоже общедоступна. Раздел с экспериментальной статистикой есть на сайте их Института статистики [1] и включает, например:
- Демографический профиль компании
- Распределение расходов резидентов во время их поездок за границу по странам назначения
- Оценка заполняемости туристических объектов с использованием данных с цифровых платформ
- Исследования по мобильности на основе мобильного телефона
- Распределение расходов иностранных гостей на посещение Испании

И ещё много чего, интересное там есть.

Вот та же статистика по расходам иностранцев в Испании очень любопытна [2] по всем ключевым странам источникам туристов они собирают данные по транзакциям по банковским картам. Происхождение туриста определяется по местонахождению банка эмитента карты. Из постсоветских стран там только Россия и только до 1 квартала 2022 года, до отключения от карт Visa и Mastercard для российских пользователей. Видно также предпочтение по территориям. Россияне больше тратили в Каталонии, Валенсии и Андалусии, а мексиканцы в Мадриде и тд.

Обновляют ежеквартально, все данные можно скачать как CSV, XLSX и др. форматы.

Ссылки:
[1] https://www.ine.es/en/experimental/experimental_en.htm
[2] https://www.ine.es/en/experimental/gasto_tarjetas/trimestral.htm

#opendata #dataviz #datasets #spending #tourism #statistics
В рубрике как это устроено у них Единый портал научных данных Республики Корея DataOn [1].

Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.

Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.

Репозиторий был создан в декабре 2018 года и с той поры активно развивается.

Ссылки:
[1] https://dataon.kisti.re.kr/

#opendata #datasets #openaccess #openresearch #datacatalogs #korea
У меня уже целая коллекция поисковиков по данным, напомню самый известный и популярный в мире это Google Dataset Search, но это не значит что нет попыток создать другие агрегаторы и поисковые системы по наборам данных. Я ранее писал про Auctus, и ряд других, а вот нашёл ещё один IDRA [1] небольшой проект от итальянской компании Engineering, они создают этот проект на средства одной из исследовательских программ Евросоюза.

Судя по документации умеют харвестить данные из примерно 10 видов каталогов, к ним есть коннекторы, но в примере приведены только 9 каталогов 2-х типов: CKAN и DKAN.
Из интересного, делают акцент на поддержке протокола Orion Context Broker (NGSI v2) которые относятся скорее к инженерному миру чем к дата-инженерному или открытым данным, полагаю что это следствие интересов именно этой команды.

По многим параметрам выглядят неплохо, в первую очередь по охвату потенциальных источников данных. Поэтому лично я за этим проектом наблюдаю, но считаю что надо идти другим путём и этот путь в создании итеративно: реестра каталогов данных, базу первичных индексов и только потом поисковую систему.

Об этом всём я тоже рассказываю в телеграм канале. А пока +1 пример поисковой системы по данным.

Ссылки:
[1] https://idra.opsi-lab.it/IdraPortal/#/about

#opendata #data #datasearch #opensource
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Открытые данные Минэка больше недоступны

Ровно месяц прошел с «закрытия» Портала открытых данных и бодрого обещания Минэка «присылать данные по запросу». В день закрытия портала отправила запрос на получение данных Минэка, которые сейчас недоступны, т.к. публиковались только на Портале открытых данных, что противоречит законодательству.

Спустя месяц получаем следующую картину:

- Портал открытых данных недоступен, вместе с этим и недоступен ни один набор данных Минэкономразиватия
- Запрос на получение открытых данных, отправленный на почту [email protected], рассматривается месяц в рамках рассмотрения обращений граждан
- В ответе на запрос (напомню, готовили его месяц) дублируется информация, которая была опубликована на сайте Минэка: «Портал временно закрыт, но данные можно получить по запросу». Фактически это больше похоже на «Данных нет, но вы держитесь», т.к. данные-то я запросила, но не получила.
- Вся контактная информация для запросов данных повторно удалена с портала открытых данных и заменена на заглушку: «Ведутся технические работы», телеграм-чат, созданный Минэком, молчит.

Пруф с ответом прикреплен к посту.
Я несколько раз писал про то сколько открытых данных публикуют в Китае, в первую очередь в научной сфере, в централизованной базе SciDb.cn для исследовательских данных. Но, честно говоря, я уже ощущаю что сильно недооценивал масштаб их публикаций. А он таков что практически у каждой из провинций Китая есть портал открытых данных, данные на них регулярно обновляются. Их, китайская специфика, в большом числе открытых API и акценте на данных городской/провинциальной инфраструктуры в виде API к их инфраструктурным информационным системам.

И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.

В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.

Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.

В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.

Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.

Ссылки:
[1] https://open.baidu.com/
[2] https://ifopendata.cn/

#opendata #china #data
В рубрике интересных инструментов работы с данными AutoProfiler [1]

Расширение для Jupyter Notebook для автоматической визуализации данных в дата фреймах. Выглядит просто, когда видишь в первый раз кажется что "это же очевидно!", а на практике имеет большую пользу. Интересно останется ли только поддержка Pandas или добавят и Polars, например?

В любом случае это полезный практический инструмент.

Внутри него используется библиотека Vega-Altair [2] которая для таких визуализацией представляется весьма практичной.

А сама идея сопровождать таблицы данных визуализациями не нова, вот такой подход с отображением технических параметров датасета мне нравится, в первую очередь пригодностью к автоматизации.


Ссылки:
[1] https://github.com/cmudig/AutoProfiler
[2] https://altair-viz.github.io/index.html

#data #datatools #opensource #codenotebooks
Интересное чтение про данные, технологии и не только:
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?

- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.

- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.

- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.

- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.

Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/

#opendata #technology #readings #data #games #open