Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.55K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике больших открытых наборов данных стандарт сериализации данных HDT [1], используется для бинарной сериализации данных в формате RDF, используемом при разработке проектов в области семантического веба и онтологий. На сайте стандарта опубликовано множество датасетов [2] самый большой из них - набор данных Wikidata размером в 149GB.

Для работы с этим форматом есть библиотеки для C++ и Java, а также настольное приложение.

Ссылки:
[1] https://www.rdfhdt.org/
[2] https://www.rdfhdt.org/datasets/

#opendata #datasets
Вышла версия 2.0 Meltano [1] ELT движка интегрированного в Modern Data Stack, все изменения как раз про эту интеграцию. В частности там поддерживается:
- dbt для трансформации данных
- Great Expectations для качества данных
- Airflow для управления потоками данных
- Superset для аналитики

И ещё много чего. На поляне ELT у Meltano сейчас возможно наилучший потенциал, растущее сообщество и хорошее развитие продукта. Если думать с каким ELT движком интегрировать свои продукты то Meltano - это хороший вариант.

Ссылки:
[1] https://meltano.com/blog/meet-meltano-2-0/

#opensource #datatools #etl #elt #moderndatastack
Я довольно давно хочу написать рефлексию по поводу продолжающегося закрытия данных в России, о причинах этого и о причинах того почему ранее открытость государства/информации/данных в какой-то форме присутствовали.

Дело в том что открытость - это одна из характеристик жизни экосистемы. Например, пока была хоть какая-то внешняя и внутренняя политическая жизнь в России то и были доступны данных связаны с этой политической жизнью.

Пока была живая экономика - открытость присутствовала потому что доступность информации необходима для инвесторов, владельцев бизнеса и иных лиц принимающих решения. В странах с сильным фондовым рынком финансовая и экономическая открытость данных очень высока и, обычно, если и имеет ограничения то только стоимостные.

Пока была жива какая-то внутрироссийская невоенная повестка была жива тема данных характеризующих качество жизни. Она и сейчас жива, в ней всегда были и есть разнонаправленные тенденции интересов держателей ресурсов и "подневольного населения", но сама тема и проблема никуда не исчезала.

Пока была жива наука там была повестка открытости и из-за мирового движения к Open Access, и из-за необходимости понимать что же за исследования по факту происходят. Сейчас ключевой вопрос открытости науки в России, в том а кому эта открытость будет нужна? Кто будет воспроизводить исследования если международной повестки более нет?

И так далее, какую тему не возьми, всюду открытость, является одной из характеристик жизни. Собственно когда доступная информация начинает превращаться в индикаторы смерти или глубокой болезни какой-то среды, то и политические власти, регуляторы, иные заинтересованные лица делают всё возможное для искажения данных или полного их сокрытия.

#opendata #thoughts
OpenOwnership, международный проект по стандартизации и содействию раскрытия реальных бенефициаров юридических лиц по всему миру, опубликовали руководство-обзор-рекомендации по введению санкций против стран которые не обеспечивают раскрытие информации о бенефициарных владельцах [1].

Документ полезный для специалистов по комплаенс и для понимания развития регулирования в мире в части прозрачности информации о владении компаниями.

Для тех кто не отслеживал мои прошлые публикации про Open Ownership, это одна из интересных международных инициатив по стандартизации публикации открытых данных с фокусом на раскрытие данных о реальных владельцах. Это главное что отличает их от проекта OpenCorporates где собрана информация только о учредителях. Уже сейчас по стандарту Open Ownership опубликованы реестры нескольких стран: Словакий, Украина, Великобритания, Дания и ряд других.

Ссылки:
[1] https://www.openownership.org/en/publications/designing-sanctions-and-their-enforcement-for-beneficial-ownership-disclosure/

#opendata #datastandards
У Ben Stancil очередное замечательное рассуждение Microsoft, Google, and the original purple people [1] о том как устроены экосистемы продуктов по работе с данными и, что мне отметилось, он разбирает экосистему Microsoft и Google и отмечает что большое преимущество Microsoft в хорошей упаковке и совместной работе продуктов несмотря на то что по отдельности их продукты хуже некоторых на рынке, но интеграция между ними реально хороша.

У Google такого нет и слишком часто каждый их продукт это вещь в себе, тяжелая в интеграции даже с другими Google продуктами.

Хороший текст, мне нравятся рассуждения Бена, для основателя стартапа он на редкость вдумчив и пишет без маркетинговых лозунгов, но так что вчитываешься.

Его рассуждения натолкнули и меня про рассуждения про российские облачные продукты.

И тут у меня есть тезис - их не существует. Не существует не в том смысле что их нет на рынке, вроде как есть там что-то у VK и даже Яндекс.Облако, как бы существует, а кто-то ещё вспомнит про Selectel и других, но, есть существенная проблема - ни Яндекс, ни VK существенной ставки на их продукты не делают. А все остальные слегка в незрелом состоянии. По идее они все должны были с начала февраля запускать программу миграции с зарубежных сервисов и вложится в маркетинг, предлагать бесплатные 2-3 месяца тем кто переезжает, предлагать услуги по миграции, потому что, казалось бы, вот такая гигантская рыночная возможность. Ну как её упустить?

Но ни Яндекс, ни VK, не рассматривают облака и сетевую инфраструктуру как инструмент заработка или рыночного доминирования. Как это делают Amazon, Google, Microsoft и ещё ряд международных big tech компаний.

Инфраструктуру обработки данных всё ещё удобнее делать не в России, а в международных облачных провайдерах. Если есть валюта, и возможность, конечно. Тем кто может это делать.

Кстати знает ли кто-либо в России какую-либо крупную инфраструктурную компанию похожую на Яндекс или VK, но с прицелом на облачную инфраструктуру или я прав утверждая что таких нет?


Ссылки:
[1] https://benn.substack.com/p/the-original-purple-people

#datainfrstructure #clouds #data #readings
Toolkit on Digital Transformation for People-Oriented Cities and Communities [1] руководство по цифровой трансформации городов от ITU и UNDP (структуры ООН).

Включает курс с рассказом о используемых инструментах. Также включает гайд в виде книжки [2].

В модуле 3 [3] Data Processing and Management одним из инструментов являются открытые данные в контексте доказательной политики (evidence- based policy making).

В целом ООН во всех сферах делает акцент на открытых данных, создаёт собственные порталы, упоминает в материалах всех своих структур.

Ссылки:
[1] https://toolkit-dt4c.itu.int/
[2] https://www.itu.int/en/publications/Documents/tsb/2022-Toolkit-on-digital-transformation-for-people-oriented-cities-and-communities/index.html
[3] https://toolkit-dt4c.itu.int/module-3/

#opendata #undp #itu
dyn.webm
837.8 KB
Dynamic World [1] проект World Resource Institute и Google по визуализации изменений на карте мира после катастроф, таких как пожары, наводнения, войны, извержения вулканов. На сайте карта с разрешением до 10 метров, много примеров катастроф и научная работа посвящённая этому проекту [2].

Главное что обещают, почти реальное время обновления данных. 5000 изображений обновляется ежесуточно, в зависимости от локации общее время обновления составляет от 2 до 5 дней.

Проекту не хватает разве что API и возможности исследователям работать с первичными данными напрямую, но думаю что это скоро появится причём в связке с UNDP и Humanitarian Data Exchange, уж очень эти проекты комплиментарны и подходят друг другу.

Ссылки:
[1] https://www.dynamicworld.app/
[2] https://www.nature.com/articles/s41597-022-01307-4

#data #google #wri #dataproducts
Для тех кто регулярно пользуется ETL/ELT инструментами, обновился Apache Hop, визуальный ETL движок с большим числом встроенных трансформаций над данными [1]. В новой версии 2.0 осуществили переход на Java 11 и кучу новых плагинов [2].

Лично я не отношу себя к фанатам Hop да и других ETL продуктов из экосистемы Apache, всё таки продукты вроде Meltano, Dagster, Prefect и др. написанные на Python, Go и тд. представляются мне куда более практичными, но для ряда задач инструменты вроде Hop могут быть полезны. Например, когда изначально инфраструктура построена на других продуктах из экосистемы Apache и основной язык разработки Java.

Ссылки:
[1] https://hop.apache.org/
[2] https://hop.apache.org/blog/2022/06/hop-2.0.0/

#datatools #etl #opensource
it_companies_taxes_20220612.xlsx
288.1 KB
В рубрике полезных наборов данных, реестр ИТ компаний имеющих подтверждённые налоговые льготы в ФНС и работа в которых позволяет получать льготную ипотеку. Не путайте с реестром аккредитованных ИТ компаний где чего только нет!

Данные в формате Excel для журналистов и аналитиков, потом эти и другие данные загрузим в каталог данных DataCrafter.

Больше о наборах данных будет в новостях на @apicrafter.

#datasets #opendata
Издание Собака собрало мнения про то что будет если Россию отключат от европейских точек обмена трафиком [1]. Я там тоже прокомментировал как смог. Ключевое - надо понимать что любые ограничения трафика всегда вредят потребителям, с чьей бы стороны эти ограничения не возникали.

Ссылки:
[1] https://www.sobaka.ru/city/internet/151253

#network #connectivity
Юлия Старостина в The Bell пишет о том что Минфин РФ засекретил данные оперативного отчета о бюджете [1] и в опубликованных данных теперь нет детализации расходов.

Действительно, если сравнить предварительную оценку исполнения федерального бюджета за январь-апрель 2022 года опубликованную 17 мая Минфином [2] и предварительную оценку исполнения федерального бюджета за январь-май 2022 года [3] то видно что данные закрыты.

Туда же я бы добавил то что Федеральное Казначейство перестало публиковать оперативные отчеты по исполнению федерального бюджета, последний был на 1 апреля 2022 г. и опубликован 15 апреля и изменен 25 апреля [4], а также с февраля 2022 года не публикуется ежемесячная статистика государственных финансов [5] и ещё много чего.

Как тут не вспомнить что ещё недавно речь шла про высокую степень открытости российского бюджета, а теперь нет никого из официальных лиц кто мог бы сказать о том что закрывать данные бюджета ошибочно.

Недавно я писал о том что открытость - это признак жизни [6] экономической системы и общественной жизни, чуть позже я доделаю на эту тему большой текст, я как раз над ним работаю.

Закрытие данных о бюджете укладывается в идею "омертвения" бюджетной активности. Не стоит верить тем кто утверждает что оно нужно для сокрытия военных расходов или усложнения работы разведчиков других стран. Причины закрытия подобных данных куда более прозаичны.

Первое - это сокрытие сигналов о реальном состоянии экономики от внутренних экономических агентов. Без достоверной информации многие не могут планировать свои действия. Закрытие данных один из сигналов _крайне плохого состояния_ сейчас и в будущем

Второе - это перераспределение финансовых (бюджетных) потоков. Фактически это означает что ограниченная группа лиц близкая к политическому руководству будет иметь значительно больше информации и, как следствие, ещё большую монополию на распределение бюджетных ресурсов.


Ссылки:
[1] https://thebell.io/minfin-zasekretil-dannye-po-raskhodam-rossiyskogo-byudzheta
[2] https://minfin.gov.ru/ru/press-center/?id_4=37915-predvaritelnaya_otsenka_ispolneniya_federalnogo_byudzheta_za_yanvar-aprel_2022_goda
[3] https://minfin.gov.ru/ru/press-center/?id_4=37970-predvaritelnaya_otsenka_ispolneniya_federalnogo_byudzheta_za_yanvar-mai_2022_goda
[4] https://roskazna.gov.ru/ispolnenie-byudzhetov/federalnyj-byudzhet/1021/
[5] https://roskazna.gov.ru/ispolnenie-byudzhetov/statistika-gosudarstvennykh-finansov-rf/1038/
[6] https://t.iss.one/begtin/3955

#budget #openness #govfinances #government
Довольно много обсуждений сейчас в профессиональных сообществах о том кто такие дата инженеры, как и кто их готовит, чем они занимаются. А я не могу не напомнить Data Engineering Manifesto [1].

Если заниматься самоидентификацией, я бы отнес себя именно к дата инженерам. Сомнения лишь в том что кроме технических задач я много лет занимаюсь просветительством, популяризацией, открытыми данными, публицистикой и общественной деятельностью. Но если спросить меня про профессию с которой я бы идентифицировал себя, я бы начал именно с инженерии данных.

Ссылки:
[1] https://www.dataminded.com/data-engineering-manifesto

#dataengineering
Написал лонгрид расширяя тему открытости как признака жизни цифровых экосистем [1] и всё больше склоняюсь к тому что единственный способ поддержания открытости, включая открытость данных, это наличие активных и институциональных потребителей этой открытости.

Это примерно как то что открытость науки не работает без науки, а открытость данных для дата-журналистов не работает без живой журналистики и так далее.

Ещё в лонгриде я не приводил такого примера, но вот можно посмотреть на ту же законопроектную деятельность у нас в стране. Она довольно таки открыта, можно увидеть результаты голосования депутатов, тексты законопроектов, есть данные, видеозаписи и тд. Вот только в виду конструкции политической системы от этой открытости нет практического толка, поскольку она не позволяет как-либо влиять на принятие решений.

Помимо этого почти все те кто могли бы эту открытость использовать, либо признаны инагентами, либо на грани признания.

Ссылки:
[1] https://begtin.substack.com/p/26?sd=pf

#opendata #openness #opengov
Признаться я не слежу именно за ПМЭФом, но немного слежу за тем что касается ИТ отрасли. В канале Минцифры приводят фразу Чернышенко (вице-премьер) , я воспроизведу её часть.
...По данным Минцифры, до конца года в реестре отечественного ПО будет зарегистрировано 35 тыс. компаний. Стоит отметить, что они приходят не только за льготами (а они беспрецедентны), мы понимаем, что условия для ведения ИТ-бизнеса в России выгоднее, чем во всем мире, отрасль уже начинает показывать результат...

Я, честно говоря, этот оптимизм не разделяю, но обратить внимание хочу на некоторые ошибки:
1. В реестре отечественного ПО совершенно точно нет и не может быть 35 тысяч компаний, в лучшем случае 4-5 тысяч. Не все российские ИТ компании создают, регистрируют, патентуют ПО, увы.
2. 35 тысяч компаний - это цифра близкая к реестру аккредитованных ИТ компаний. Я про этот реестр уже писал неоднократно, не надо путать аккредитованные компании с ИТ рынком. Среди аккредитованных ИТ компаний есть ЧОПы, родильные дома, поликлиники и Высшая школа экономики и ещё много чего не ИТшного. По хорошему этот реестр надо резать и оставлять в нём только тех кто имеет ИТ льготы (около 8-9 тысяч компаний).
3. Не дай то Бог конечно если ещё и реестр отечественного ПО превратится в такую же помойку как реестр аккредитованных ИТ компаний. Реестр отечественного ПО неидеален и, по хорошему, его надо расширять SaaS, PaaS, IaaS сервисами и ещё много чем, но я лично приветствую его систематизацию и развитие в сторону возможности анализа ИТ рынка.

Вот как-то так.

UPD: Ведущие телеграм канал Минцифры слова Чернышенко поправили и как говорят слушавшие его речь - говорил он про реестр аккредитованных, но проблемы мусорности реестра аккредитованных компаний это не отменяет.

Ссылки:
[1] https://t.iss.one/mintsifry/1215

#registries #it #itmarket
Много в последнее время новостей которые сложно не прокомментировать. Вот, к примеру, про то что ВЭБ.РФ собирается расширять свой индекс качества жизни в городах и предложил АСИ, Сбербанку, АНО Диалог и РАНХиГС [1] делать это вместе.

Признаться я не могу не отнестись к этой затее с глубочайшим пессимизмом особенно в текущей ситуации. Вижу что распилить бюджетные средства сейчас на этом могут многие и, показывать начальству красивые картинки, в том числе, а по факту результат, скажем так, не может быть сомнительным по определению.

Изложу тезисами:
1. ВЭБ.РФ и все заявленные участники - это государственные (правительственные) агенты, так или иначе, или выполняющие прямые поручения федеральной исполнительной власти, или находящиеся под прямым влиянием. Индекс не может не проходить жёсткую цензуру усиленную военную временем и общим трендом сокрытия федеральным правительством ключевых сведений о экономическом и социальном состоянии страны (это и есть данные про качество жизни).
2. ВЭБ.РФ изначально не нейтральный игрок, а агент правительства со своей стратегией осуществления инвестиций. Нет гарантий и подтвержденной воспроизводимой методологии с защитой от искажения подобного индекса в собственных интересах.
3. Ключевые индикаторы качества жизни известны, есть много примеров в мире как их измерять и именно они находятся в ведении фед. органов. Это уровень преступности, качество образования, качество здравоохранения. Все эти индикаторы недоступны на гиперлокальном уровне до уровня городов и детальнее, а иногда недоступны и на уровне регионов. Сейчас вместо прямых индикаторов составители индекса используют десятки косвенных, что достоверности индексу не добавляет. Можно ли доверять индексам без этих индикаторов? Я бы не доверял.

Резюме - вместо раскрытия данных о качестве жизни органами власти мы получаем очередной агрегированный суррогат в виде индекса составленными квазигосударственными структурами. Что дальше? На вопрос где данные о качестве жизни Минздрав, МВД и Минобрнауки будут говорить - "так вот же, смотрите, вам составили индекс добрые люди. Его и используйте, а от нас отстаньте".

Поэтому доверять этой инициативе можно будет только тогда когда её авторы официально и в явной и недвусмысленной форме заявят о работе с ФОИВами над раскрытием гиперлокальных данных о качестве жизни в форме открытых данных. А без этого - веры нет, доверия нет, результат бессмысленнен.

Ссылки:
[1] https://t.iss.one/mislinemisli/11094

#opendata #lifequality
Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.


Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/

#digitalpreservation #webarchival
Forwarded from Bloomberg
❗️Власти Великобритании одобрили экстрадицию основателя WikiLeaks Джулиана Ассанжа в США, сообщает WikiLeaks, защита обжалует это решение. 2022[BBG]
Помните как Saxo банк публиковал весьма забавные и немного странные прогнозы? Вот я давно подумывал не начать ли писать похожие прогнозы по развитию рынка ИТ в России до конца года.
Всё написанное исключительно мои домыслы, никаких инсайдов у меня нет и, вообще, (с).

VPN станет госуслугой
Запрещать не будут, но сделают госуслугой или госмонопольной услугой, с авторизацией через Госуслуги и оказываемой, например, монопольно Ростелекомом. Все остальные VPN сервисы в России будут запрещены под угрозой уголовного преследования их создателей, тех кто их продвигает и пользователей. Основание - тотальная деанонимизация. Прогноз - 3 месяца

Весь российский ИТ сектор попадёт под санкции
Потому что ИТ сервисы обеспечивает инфраструктуру для всей экономики, а цель санкций - это максимальный ущерб именно всей экономике. Прогноз - 3 месяца

Госрасходы на ИТ сократятся минимум вдвое
Но мы об этом не узнаем или узнаем минимально потому что их начнут секретить и переводить в неконкурентные торги. Прогноз - анонс предварительной структуры бюджета на 2023 г, прогноз - 3-5 месяцев.

Появится сословие ИТшников
Создадут их реестр по аналогии с реестром ИТ компаний, зарегистрировавшись можно будет получить сертификат с гербовой печатью, личную печать, введут награждения заслуженного и народного артиста ИТшника.
А также будут как купцы по категориям: 1-й, 2-й, 3-й (senior, middle, junior)․ Все льготы привяжут к нахождению в этом реестре, по части персонифицированных льгот он заменит реестр(ы) ИТ компаний.
Прогноз - полгода

ИТшников будут ненавидеть больше чем москвичей
Потому что: а) сословие б) льготы в) [не]лёгкий снобизм как производное первого и второго.
Прогноз - полгода

#humour #predictions
В рубрике интересных продуктов для работы с данными SteamPipe. Это фреймворк для доступа к более чем 200+ источникам данных через SQL запросы [1].

Идея проста - любые данные должны иметь SQL интерфейс для этого у StreamPipe 78 плагинов [2] для доступа к большинству известных СУБД и к разного рода онлайн сервисам и протоколам.

Например, доступ к почтовому ящику IMAP через SQL [3] или доступ к сетевой информации сертификатов, доменов, IP адресов через SQL [4].

Сама идея подкупает своей универсальностью и реализация вполне рабочая. Скорее всего там есть существенные ограничения в работе с рядом иерархических данных, но, с другой стороны преимущества универсального доступа велики.

Проект написан на Go командой стартапа Turbot [5], доступен с открытым кодом и активно развивается [7].

Проект должен хорошо вписываться в любой ELT/ETL инструмент и стоит ожидать новых ETL продуктов на Go с его поддержкой.

Ссылки:
[1] https://steampipe.io/
[2] https://hub.steampipe.io/plugins
[3] https://hub.steampipe.io/plugins/turbot/imap
[4] https://hub.steampipe.io/plugins/turbot/net
[5] https://turbot.com/
[6] https://github.com/turbot/steampipe

#opensource #datatools #etl
Не секрет что поисковиков по данным очень мало, основной - это Google Dataset Search [1] который всё ещё скорее исследовательский проект и где просто ну очень много SEO спама поскольку проект основан на самостоятельной разметке объектов пользователями по стандарту Schema.org объектам типа Dataset [2].

Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.

Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).

Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.

Ссылки:
[1] https://datasetsearch.research.google.com/
[2] https://schema.org/Dataset
[3] https://people.csail.mit.edu/tarfah/papers/dataset.pdf
[4] https://www.kaggle.com/datasets/googleai/veracity-of-schemaorg-for-datasets-labeled-data

#opendata #datasets #search #research