Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В Эстонии пишут о высоком уровне открытости данных в стране [1]. Они заняли 2-е место в оценках открытости Global Data Barometer [2]. На первом месте США, что, в целом справедливо, и в GDB довольно точно указано что в США высокий уровень прозрачности по всем направлениям, кроме реестра компаний. Это известная тема с тем что общенационального реестра компаний в США нет до сих пор.

А вот с тем что сейчас измерено в России по открытости, к сожалению, это возможно последние такие результаты. Всё быстро идёт к постепенному закрытию данных по каждому из направлений. Вернее к закрытию или не открытию там где должно быть.

Особенно вопиющая ситуация в том что касается качества жизни и COVID-19. За всё время пандемии российское правительство не опубликовало _ни одного набора данных_ по теме пандемии. Медиа материалов - сколько угодно, наборов данных - ни одного.


Ссылки:
[1] https://e-estonia.com/estonia-is-leading-the-world-in-the-use-of-data/
[2] https://globaldatabarometer.org/results/

#opendata #gdb
Журналисты вчера буквально завалили меня запросами на комментарии по куче ИТ тем, причём я на часть вопросов старался отвечать: "мнения не имею, спросите специалистов".

Но какие-то комментарии важно уточнять чтобы не было кривотолков:
1. По поводу того что СМИ пишут про увольнения украинских ИТ специалистов и людей с украинским гражданством. Я таких несколько случаев знаю, где-то с результатом увольнения, где-то повышенного внимания. Ничего хорошего в этом не вижу. Системы комплаенс проверки в том числе сейчас учитывают гражданство проверяемых. Повторюсь каких-либо данных у меня лично нет, знаю только конкретные случаи и в очень небольших компаниях в рынке инфобеза. Сейчас мои слова активно трактуют СМИ не так как я их произносил, поэтому уточняю и конкретизирую.

2. По поводу рейтингов цифровой трансформации. Я повторюсь что мне не нравится то чем сейчас занимаются руководители по цифровой трансформации (РЦТшники) и как написаны ВПЦТ (ведомственные программы цифровой трансформации). Смысл в них выхолощен, тема открытости полностью исчезла из их работы. Я категорически не согласен что сервисы (госуслуги) должны быть приоритетом их работы и новый рейтинг РЦТшников оцениваю
столь же скептически как предыдущий

3. По поводу смены критерии включения ИТ компаний в реестр аккредитованных. Я бы сказал так, и хорошо, и плохо. Хорошо будет тем кто сейчас под эти критерии попадёт. А плохо будет когда налоговики и следаки оголодают и будут доначислять "незаконно полученную выгоду" от применения пониженных налоговых ставок. Сейчас в реестре аккредитованных есть те кто вообще никак нигде и никаким образом не может быть ИТ компанией. Но они там есть. И их оттуда не исключают.

В общем не читайте советских газет по утрам. Никому не верьте, мне можно (с)

#it #politics #comments
Сегодня такой день что без мелкого троллинга ну никак не получается обойтись. Вот тут [1] в справочнике "Субъекты Российской Федерации" опубликованным Минздравом России на портале НСИ Госуслуг можно увидеть как у полей "Субъекты РФ", "ОКАТО_2", "Конституционно-правовой статус" и других стоит пометка "Нецензурная лексика".

Я конечно всё понимаю, конституционно правовые статусы у многих могут вызывать яркие эмоции, но неужели вот прям настолько?

Даже не смею догадываться как так получилось.

Ссылки:
[1] https://esnsi.gosuslugi.ru/classifiers/5709/structure

#opendata #data #it #humour
Forwarded from Инфокультура
Новые порталы и каталоги данных в проекте datacatalogs.ru

Добавлены:
- Геопортал ИВиС ДВО РАН
- Геопортал ТИГ ДВО РАН
- Геопортал СВКНИИ ДВО РАН
Портал интеграции данных РФ из мировых музеев (минералы)
- «Информационные ресурсы Единой геофизической службы РАН» (БД ИР ЕГС РАН)

Все они относятся к научным порталам и каталогам данных и метаданных, доступных либо в открытом режиме, либо по запросу.

Всего в проекте datacatalogs.ru собрано 263 ресурса с данными в России или о России. Если Вы ведете каталог данных и Ваш ресурс в каталоге отсутствует, заполните форму https://www.datacatalogs.ru/add-resource и мы обязательно его добавим.

#datacatalogs #dataportals
Подборка актуального чтения про открытость данных:
- началась расшифровка и публикация геномов вируса обезьяньей оспы на сайте Nextstrain [1]
- The Future of Open Data [2] книга о будущем открытости данных от канадских исследователей Teresa Scassa и Pamela Robinson. В книге есть отдельный акцент на открытых государственных геопространственных данных.
- Policy Brief: Harnessing data to accelerate the transition from disaster response to recovery [3] рекомендации по управлению данными в ситуациях восстановления при катастрофах
- в Новой Зеландии публикуют данные лидаров нескольких территорий [4]
- власти Великобритании планируют принять закон [5] переводящий в открытые данные данные о городском планировании
- открытый каталог не-открытых данных Ирландии [6], фактически это каталог данных находящихся в управлении органов власти Ирландии, но не публикуемых в силу наличия в них персональных данных или иной чувствительной информации.
- данные и визуализация изменения потребления, генерации и цены на электричество в мире [7] особенно заметен сейчас резкий рост цен на электричество в Европе
- свежее исследование о низком качестве исследовательских данных [8], это отдельная большая работа объяснять учёным как и зачем публиковать данные в пригодном для работы формате.

Ссылки:
[1] https://nextstrain.org/monkeypox
[2] https://ruor.uottawa.ca/handle/10393/43648
[3] https://zenodo.org/record/6566685
[4] https://t.co/YeSmZbOF1Z
[5] https://www.computerweekly.com/news/252518138/Government-levelling-up-bill-promotes-open-data-based-digital-planning
[6] https://datacatalogue.gov.ie/
[7] https://ember-climate.org/data/data-explorer/
[8] https://royalsocietypublishing.org/doi/full/10.1098/rspb.2021.2780

#opendata #reading
Написал очередной текст на английском про будущее NoSQL в Modern Data Stack [1]. В этот раз не писал с нуля, а перевел свою февральскую статью [2] с русского на английский.

Заметка о том почему NoSQL продукты вроде MongoDB выпадают из современного стека данных и что с этим можно поделать.

Ссылки:
[1] https://medium.com/@ibegtin/future-of-nosql-in-modern-data-stack-f39303bc61e8
[2] https://begtin.substack.com/p/23

#data #datacatalogs #nosql #moderndatastack
Не могу не поделиться мыслями о том что все соцсети, профессиональные или личные со временем превращаются в болото маркетологов. Если поначалу туда приходят те кто хочет читать и писать о личном, или рабочем, или ином, то через некоторое время существенная доля сообщений, запросов на френдование и не только становятся исключительно рекламными.

Я читаю сейчас многих зарубежных специалистов ругающих то во что превратился LinkedIn, а он превратился в какой-то бесконечный индийский спам и минимальную профессиональную коммуникацию. Вижу как постепенно Github используется в маркетинговых целях. Для автоматизированных рассылок предложений о работе, для рекламы продуктов в стиле "Вы поставили звезды продуктам в категории А и Б, значит Вам понравится и наш продукт". Про фэйсбук и все остальные даже речи нет.

Вопрос в том куда уходит профессиональная коммуникация? Какое будущее её ждёт? Обречены ли все соцсети вырождаться в пастбища для маркетологов или есть альтернативы?

#thoughts
В новости про 85% «вернувшихся ИТшников», отслеженных по СИМ картам, ключевое слово - не вернувшиеся, а отслеженные.

За нами следят (с)
Прощай родная конституция
Прощай гражданские права
ИТ почти как проституция
Следят за нами на раз-два

И не лепит никто горбатого
Сдавшим нас сотовым операторам
Написал на английском языке заметку Headless and reverse [data] products [1], это перевод моей русскоязычной статьи [2] о безголовых и обратных продуктах для работы с данными такими как headless BI и reverse ETL.

Тема эта широкая, в качестве упражнения можно даже потренироваться и выписать 3 колонки:
- направление работы с данными
- безголовость (headless)
- обратность (reverse)

Направления можно взять из Modern Data Infrastructure [3], а можно из любых других областей ИТ.

Ссылки:
[1] https://medium.com/@ibegtin/headless-and-reverse-data-products-a20dc163b382
[2] https://begtin.substack.com/p/19?s=w
[3] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

#architecture #data #reading
Полезное чтение про открытые данные
- Open data: The building block of 21st century (open) science [1] статья в Data & Policy о том что открытость данных должна быть одним из KPI работы исследователей.
- New Guidance to Ensure Federally Funded Research Data Equitably Benefits All of America [2] свежее руководство по обязательному раскрытию научных данных финансируемых из госбюджета в США
- Let’s stop the UK’s underground data going the same way as its address data [3] - о том что правительство Великобритании обсуждает судьбу национального реестра подземных ресурсов и что многие опасаются что он станет закрытым и за деньги

Ссылки:
[1] https://www.cambridge.org/core/journals/data-and-policy/article/open-data-the-building-block-of-21st-century-open-science/E7D3B6EE5F05606D92A69FA55F76E001
[2] https://www.whitehouse.gov/ostp/news-updates/2022/05/26/new-guidance-to-ensure-federally-funded-research-data-equitably-benefits-all-of-america/
[3] https://openaddressfile.uk/2022/05/27/lets-stop-the-uks-underground-data-going-the-same-way-as-its-address-data/

#opendata #opengov
Очень не хочется, но иногда сложно не писать не про технологии и не комментировать всё те же высказывания вроде 85% "вернувших
ИТ-шников".

Говорящие, или не понимают, или лукавят.

Мобильны, в первую очередь люди, уезжают именно они практически во всех производствах где есть наукоёмкие технологии.

Субъективно отток очень большой, просто на поверхности все слышат про отъезд людей "свободных профессий" (журналистов, блоггеров, знаменитостей и тд.). Они на слуху, но, при всём уважении, экономика основана не на них.

Отъезд профессионалов заметен только находясь внутри конкретных отраслей. Я бы даже сказал что количественно измерять некорректно, нужны градации уровней специалистов и оценка оттока по этим уровням.

Специалисты мирового уровня, с большим числом научных публикаций, патентов и востребованные в мире - уезжают совершенно стремительно. Уезжают ИТ предприниматели бизнес которых не был связан с государством. Джуниоры в ИТ и начинающие специалисты в любых высокотехнологических может и хотели бы, но просто не могут.

Всё это я к тому что тут качественная социология важнее количественной, а количественная требует качественной дифференциации.

Поэтому весь этот токсичный позитив про уехало то всего-ничего или большинство осталось - это попытки закрыть глаза на реальную проблему.

И, наконец, это важно, что понимать что волн отъезжающих будет много и после пары месяцев панического отъезда, будут уезжать уже те кто к отъезду готовился дольше, потом, осенью, когда догонит ухудшение экономической ситуации и тд.

Лично я могу сказать что никакие меры сейчас полноценно малый ИТ бизнес не поддерживают, потому что главные проблемы - проблема невозможности кредитования и проблема резкого сокращения ИТ бюджетов у большинства заказчиков - государственных и корпоративных. Кто-то и где-то найдёт новые ниши, но надо понимать что все разговоры про это происходят про новые ниши на сужающемся рынке.

Я продолжаю оставаться в убеждении что принятых мер для ИТ категорически недостаточно и нужны совершенно экстраординарные меры чтобы ситуация не усугублялась.

#it
Роскомсвобода пишет что Генпрокуратура заблокировала сайт НКО "Мемориал" [1], организации, ликвидированной Минюстом России в конце прошлого года.

Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.

Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.

Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF

#memorial #webarchives #archives #digitalpreservation
Для тех кто интересуется, напомню что много лет Инфокультура поддерживает проект Открытые НКО [1] с базой и открытыми данными по всем некоммерческим организациям в России. В какой-то момент нам пришлось переносить их с одного хостинга на другой и миграция затянулась и оказалось сложной, но сейчас сайт снова доступен.

Проект, к сожалению, вот уже много лет почти не развивается. Его финансирование закончено, мы поддерживаем его за счёт собственных ресурсов, но закрывать не планируем.

Ссылки:
[1] https://openngo.ru

#openngo #opendata #data #ngo #infoculture
В рубрике интересных продуктов для работы с данными:
- MissionKontrol [1] админская панель для управления данными в базах данных MySQL и Postgres․ Создаёт NoCode интерфейс поверх таблиц и распространяется с открытым кодом
- Query.me [2] построитель запросов к СУБД с элементами коллаборации и в стиле а-ля Notebook. Облачный и платный
- Atlas [3] утилита командной строки для описания схем баз данных и организации их миграции. Написана на Go, с открытым кодом, поддерживает основные open-source СУБД, не поддерживает NoSQL. Хорошо документирована
- Sandman2 [4] автоматический генератор API на основе SQL СУБД
- Dragonfly [5] более производительная замена Redis. С открытым кодом

Ссылки:
[1] https://www.missionkontrol.io
[2] https://query.me/
[3] https://atlasgo.io/
[4] https://github.com/jeffknupp/sandman2
[5] https://github.com/dragonflydb/dragonfly

#opensource #datatools
О противодействии коррупции с помощью открытых данных. У Open Data Charter не так давно появился интерактивный инструмент подготовки программ противодействия коррупции [1] через публикацию данных.

К России он малоприменим в ближайшей исторической перспективе, поскольку содержит отсылки к проектам финансируемым "нежелательными организациями" и к Open Government Partnership.

Но стоит обратить внимание что противодействие коррупции в мире сейчас - это доступность машиночитаемых данных о контрактах, имуществе, декларациях, бюджетах, добывающих отраслях и ещё много что.

Ссылки:
[1] https://fightcorruption.opendatacharter.net/

#opendata #opengov
В качестве регулярного напоминания кто я, зачем и о чём пишу, особенно для недавно подписавшихся.

Я возглавляю АНО "Инфокультура" (@infoculture), создаю общественные проекты и продукты на открытых данных и для их популяризации такие как Национальный цифровой архив (@ruarxive), а также развиваю коммерческие продукты на данных такие как APICrafter и DataCrafter и возглавляю небольшую ИТ компанию для создания дата-продуктов подобных этим. До этого 2 года я вел проект Госрасходы (spending.gov.ru) в Счетной палате РФ, а сейчас его ведёт моя коллега Ольга, канал @ahminfin.

Я пишу заметки в блоге на английском на Medium, на них также можно подписаться. Также веду рассылку на Substack на русском языке и реже пишу в свой блог на личном сайте begtin.tech.

Кроме всего прочего я регулярно читаю лекции госслужащим, общественным организациям, в просветительском или образовательном формате. Сейчас реже поскольку всё более концентрируюсь на разработке ИТ продуктов, но как минимум 5-6 лекций в год, до пандемии было до 20.

Этот телеграм канал @begtin я создавал, в первую очередь, как записную книжку, для личных публичных заметок. Читаю что-то, думаю о чём и рассуждаю вслух здесь. Реже я здесь же публикую какую-либо аналитику связанную с одним из наших проектов или моими хобби.

Поэтому подписываясь будьте готовы что здесь будет много публикаций про данные, инструменты работы с ними, госполитику в этой области, цифровую архивацию и тому подобное

#channel #topics #overview
Свежий апдейт по проекту metacrafter.

Обновился реестр семантических типов данных metacrafter-registry [1], теперь там появился раздел инструментов [2] со списком, пока, из 9 инструментов и того какие семантические типы данных они поддерживают.

Список неполный потому что есть инструменты вроде Microsoft Presidio [3] которые по факту поддерживают ещё и многие типы данных которые пока в этот реестр не входят, но их систематизация хотя бы начата. Каждый инструмент описывается в виде yaml файла с описанием, например, yaml файл metacrafter'а.

Сейчас metacrafter с базовыми правилами распознает 48 семантических типов данных [4], а как веб сервис поддерживает 118 семантических типов [5].

На самом деле, конечно, если говорить про ширину охвата, то можно упростить распознавание сведя все численные типы к одному семантическому типу. Например, так сделано в Google Data Studio, а можно наоборот усложинить добавив множество градаций и подтипов. Как это сделано в Metabase где есть отдельные типы данных "Creation Date", "Updated Date" и тд.


Ссылки:
[1] https://registry.apicrafter.io/
[2] https://registry.apicrafter.io/tool
[3] https://registry.apicrafter.io/tool/presidio
[4] https://github.com/apicrafter/metacrafter-registry/blob/main/data/tools/detectors/metacrafter.yaml
[5] https://github.com/apicrafter/metacrafter-registry/tree/main/data/tools
[4] https://registry.apicrafter.io/tool/metacrafter
[5] https://registry.apicrafter.io/tool/metacrafterpro

#opensource #datatools #apicrafter #metadata #pii
​​Скатывание вниз по эскалатору, идущему вверх.
Падение позиций России в глобальной экосистеме стартапов.

Динамика состояния экосистемы стартапов – один из лучших показателей технологического будущего страны.
И если хотите уже сегодня понять, каким может стать это будущее, не пропустите новый 400 страничный отчет о состоянии глобальной экосистемы стартапов в 2022 году.
Отчет содержит рейтинги (интегральные и покомпонентные) ста лучших стран-экосистем и тысячи лучших городов-хабов, обзоры по регионам и индустриям с анализом текущего состояния и динамики за последние годы.

Смотреть на показатели России жутко и больно. А ведь еще год назад все было, хоть и не великолепно, но вполне прилично.

Теперь же, в сравнении с 2021, стремительное падение всех индексов:
• - 12 позиций по интегральному индексу
• -20 позиций у Москвы по индексу городов-хабов
• - 38 позиций у Санкт-Петербурга
• у остальных городов-хабов просто кошмар: -127 позиций у Казани, -177 у Томска, -189 у Новосибирска и т.д.

У Украины, по понятным причинам, ситуация еще хуже (-16 по интегральному, -45 у Киева, -348 у Одессы).

А мир едет себе дальше.
Группа лучших цветет и пахнет (ТОР 20 стран и городов см. на приложенных диаграммах.
• Лидеры (США, Великобритания, Израиль, Сан-Франциско, Нью-Йорк) держат позиции, как вкопанные.
• Китай и Пекин болтает, но Шанхай уже круче Бангалора

Группа преследователей рвётся вперед (Ангола +18, Исландия +14, Норвегия и Индонезия +7, Австрия +5).

Отчет здесь: https://www.startupblink.com/
#Стартапы
В рубрике полезных инструментов по работе с данными сервис My MLOps Stack [1] позволяет собрать собственный стек технологий для Machine Learning выбрав инструменты под определенные задачи. К инструментам есть пояснения, их категоризация и целевое назначение. Также сильный акцент на open-source инструменты, без упоминания больших платформ. Но как один из инструментов моделирования технологического стека весьма полезный инструмент.

Ссылки:
[1] https://mymlops.com/

#datatools #moderndatastack #mlops