Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Кратко о платформах работы с данными на которые стоит обратить внимание и лично я отслеживаю:
- Streamr [1] платформа для распространения данных в реальном времени
- Data.world [2] уже 5-летний стартап-платформа для публикации данных, одна из попыток сделать Git для данных
- Splitgraph [3] продукт с интересной идеей предоставления доступа к 40 тысячам наборов открытых данных через СУБД на базе PostgreSQL. Работать можно как с любой другой базой данных стандартными средствами.
- DoltHub [4] другой Git для данных, с удобной командной строкой, но без открытого кода. Продуманное версионирование данных
- Quilt [5] большой каталог очень больших данных на 3.7 петабайт 10.2 миллиарда объектов (чаще файлов) в 30 блоках Amazon Web Services

Ссылки:
[1] https://streamr.network/
[2] https://data.world/
[3] https://www.splitgraph.com/
[4] https://www.dolthub.com/
[5] https://open.quiltdata.com/

#opendata #data #platforms
Судя по всему, и тому всё более подтверждений [1], Роскомнадзор взялся за кеширующие сервера Google в России. Пока трудно понять до конца все последствия того к чему приведет их отключение, как минимум, снижение российского трафика, рост трафика зарубежного и замедление Youtube. Отразится ли это на скорости и качестве работы других сервисов Google ? Вот в чём вопрос

Ссылки:
[1] https://t.iss.one/zatelecom/15810

#runet
Forwarded from Эшер II A+
👉 Когда вы смотрите картинки Google или YouTube, то зачастую вы не технически не ходите по проводам в США, а забираете данные с так называемых «Google Global Cache» (GGC). Это сервера, установленные по всему миру. Google старается расположить их у каждого более-менее заметного провайдера. В каждой его сети. Что будет, если их прямо сейчас снять? Будет тормозить ютубчик и возрастёт доля зарубежного трафика. Причем настолько возрастет, что может поменять ценовую политику

👉 Несколько лет назад у кого-то «засвербило» и провайдеров пытались заставить сертифицировать эти сервера или снять. Не без активной помощи всем известного анонимного бывшего федерального чиновника Google «родил» декларацию соответствия и от GGC отстали

⚡️⚡️⚡️ Но что-то опять пошло не так...

В целях оценки по обеспечению устойчивого, безопасного и целостного функционирования на территории Российской Федерации информационно-телекоммуникационной сети «Интернет» в соответствии с положениями Федерального закона от 1 мая 2019 г. № 90-ФЗ «О внесении изменений в Федеральный закон «О связи» и Федеральный закон «Об информации, информационных технологиях и о защите информации» просим представить информацию об установленном или планируемом к установке на Ваших сетях специализированном иностранном телекоммуникационном оборудовании «Google Global Cache».

Информацию просим направить в Управление по надзору в сфере информационных технологий Роскомнадзора по адресу: 109992, г. Москва, Китайгородский проезд, д. 7, стр. 2 и на адрес электронной почты [email protected] в возможно короткие сроки.

‼️ Возможно это утка, но за сутки никто не опроверг. Я не знаю как это искать. Роскомнадзор ни разу мне не ответил по делу быстро, так что я им просто не пишу уже. Но все, кому пришло, воспринимают это за чистую монету

💥 Мне всегда нравились многие обоснования каких-то действий чиновников. «В целях запаха моего обеденного супа». Людмила Бокова перешла работать в Роскомнадор? Кто будет предложения согласовывать? Причем тут вообще №90-ФЗ от 01 мая 2019 г.? Название красивое и слово «безопасность» есть?

☝️ Чем им помешал кэш — не понятно. Вот уж у американцев точно хватает на российских сетях разведывательных устройств кроме GGC
Свежий пост/рассылка через Substack по теме "#3. Государственные доклады, государственный открытый код и другие результаты государственных контрактов" [1]

Подписаться можно в моём блоге/рассылке на Substack [2], это формат под большие тексты которые никак целостно не помещаются в формат телеграм канала

Ссылки:
[1] https://begtin.substack.com/p/3-
[2] https://begtin.substack.com/

#data #procurement #government
Счетная палата опубликовала рейтинг ИТ расходов федеральных органов власти. О нем можно прочитать в новости на сайте СП РФ [1], а с самим рейтингом ознакомиться на сайте проекта Госрасходы [2] и о нем пишет Ольга Пархимович у себя в канале "Ах, этот Минфин" [3].

Рейтинг можно скачать в XLSX или CSV формате, сделать выводы как просмотрев его визуально, так и машинным образом обработав данные.

Обратите внимание что:
1. Охвачены не только ФОИВы, но и другие федеральные ГРБС
2. У некоторых органов власти доля прямых ИТ расходов по госконтрактам превышает 25%.
3. В рейтинге учитываются не только контракты, но и ИТ-субсидии подведомственным учреждениям.
4. Для полноты картины, конечно, интересно сделать не рейтинг, а визуализацию структуры расходов органов власти хотя бы по таким группам как: ИТ, строительство, автотранспортное обслуживание, и тд. Но это уже скорее не рейтинг, а большой аналитический материал.
5. Подробная методология составления рейтинга тоже опубликована [4], она будет полезна всем кто анализирует ИТ расходы.

Ссылки:
[1] https://ach.gov.ru/news/ckolko-ministerstva-i-vedomstva-tratyat-na-it-novyy-reyting-portala-gosraskhody-
[2] https://spending.gov.ru/analytics/ratings/it/
[3] https://t.iss.one/ahminfin/289
[4] https://spending.gov.ru/analytics/ratings/it/methodology/

#spending #opendata #it
Тема не про IT, но весьма интересная. Люди подвержены микроэволюции и эволюция людей ускорилась за последние 250 лет. Австралийские исследовали выяснили [1].

Например:
- челюсти и рты людей становятся меньше
- всё меньше людей рождается с зубами мудрости
- появилось больше артерий в предплечьях, для питания кистей рук
- стали сохраняться медианные артерии

Подробнее в статье Recently increased prevalence of the human median artery of the forearm: A microevolutionary change [2]

Ссылки:
[1] https://news.sky.com/story/human-microevolution-sees-more-people-born-without-wisdom-teeth-and-an-extra-artery-12099689
[2] https://onlinelibrary.wiley.com/doi/10.1111/joa.13224

#research #humans
Несмотря на то что я много пишу тут в телеграме, тексты в СМИ и ещё веду много разной консультационной работы, программирование я почти никогда не бросал и хотя бы несколько часов в неделю всегда стараюсь найти, как минимум для того чтобы поддерживать навыки ну и просто потому что это же страшно интересно. Но если лет 15 назад моя работа состояла из программирования и проектирования ПО, а то как устроено государство и данные было хобби, то последние лет 8-9 скорее она состоит из всего остального, а программирование почти превратилось в хобби.

Для тех кто интересуется открытым кодом работы с данными напоминаю что и я и мои коллеги публикуем открытый код как минимум здесь:
- https://github.com/ivbeg
- https://github.com/infoculture
- https://github.com/ruarxive
- https://github.com/datacoon
- https://code.ach.gov.ru/public

Это такие инструменты для работы с данными:
- https://github.com/datacoon/undatum - Undatum, инструмент командной строки для обработки файлов JSON Lines, преобразованию форматов и тд. Создан под обработку особенно больших jsonl файлов, таких как дампы из проекта Госрасходы.
- https://github.com/datacoon/russiannames - парсер русскоязычных ФИО с идентификацией пола и идентификацией того как ФИО написаны
- https://github.com/datacoon/datadifflib - библиотека создания diff'ов, дельт изменений между разными версиями одного набора данных в CSV или JSON
- https://github.com/ruarxive/apibackuper - утилита по архивации данных публикуемых через API
- https://github.com/datacoon/apiready - давний инструмент командной строки по быстрому созданию API из CSV или JSON файла

Инструменты извлечения данных:
- https://github.com/ivbeg/newsworker - продвинутая библиотека извлечения новостей из веб-сайтов у которых нет экспорта новостей в RSS/ATOM.
- https://github.com/ivbeg/lazyscraper - утилита командной строки для скрейпинга данных для ленивых. Полезно когда совсем лень писать код
- https://github.com/ivbeg/docx2csv - утилита извлечения таблиц из файлов DOCX и сохранения их в CSV формат. Оказывается нужно чаще чем хотелось бы
- https://github.com/ivbeg/qddate - библиотека идентификации и разбора дат написанных на любом языке и в любом стиле, без знания об этом стиле и языке заранее

Репозитории по созданию датасетов:
- https://github.com/infoculture/govdomains - реестр всех госдоменов (сейчас мигрирует в Airtable, а в репозиторий выкладываю слепки)
- https://github.com/infoculture/ruregions - реестр метаданных по российским регионам

Наверное есть ещё что-то на чём можно сделать акцент, но я и сам уже всё не припомню. Открытость кода - это хорошо, многое не получается выложить только от того что не хватает времени всё документировать.

#opensource
Forwarded from Городские данные (Andrey Karmatsky)
Разработчики из GeoAlert разработали алгоритм и технологию автоматического картографирования по спутниковым снимкам: нейросеть распознаёт форму зданий и классифицирует их по типам.

Такие проекты уже были, но в данном случае речь идёт об открытых данных территории нашей необъятной. Ребята публикуют получившиеся данные по регионам России и активно принимают заявки какие из регионов нужно картографировать.

https://link.medium.com/kzQzWCqIxab
Вышел доклад Ответственное машинное обучение, Responsible Machine Learning [1] подготовленный ORelly. Документ полезный для тех кто уже думает о политиках ответственности систем искусственного интеллекта и алгоритмических систем.

Ссылки:
[1] https://www.h2o.ai/resources/ebook/responsible-machine-learning/

#ai #privacy
Для тех кто хочет поработать с большими данными, но не знает с какими, Национальная библиотека Новой Зеландии опубликовала набор данных Papers Past [1] включающей 235GB сканов газет Новой Зеландии с 1839 по 1899 годы и CSV файл с метаданными описывающими эти газеты. Всё вместе после распаковки 1.6TB данных

Ссылки:
[1] https://natlib.govt.nz/about-us/open-data/papers-past-metadata/papers-past-newspaper-open-data-pilot/dataset-papers-past-newspaper-open-data-pilot

#opendata #nz #papers #culture
Как публиковать данные по коронавирусу наиболее правильным образом? В виде открытых данных для исследователей и в виде графиков для рядовых пользователей. В Великобритании на портале GOV.UK Coronavirus (COVID-19) in the UK [1] публикуются данные о:
- тестировании [2]
- выявленных случаях [3]
- нагрузке на систему здравоохранения [4]
- смертности [5]

Всё с детализацией до муниципального района, ежедневно, начиная с марта 2020 года.

Для разработчиков доступно API и SDK [6]

Ссылки:
[1] https://coronavirus-staging.data.gov.uk/
[2] https://coronavirus-staging.data.gov.uk/details/testing
[3] https://coronavirus-staging.data.gov.uk/details/cases
[4] https://coronavirus-staging.data.gov.uk/details/healthcare
[5] https://coronavirus-staging.data.gov.uk/details/deaths
[6] https://coronavirus-staging.data.gov.uk/details/developers-guide

#opendata #covid-19 #uk
Для тех кто хочет поработать с большими данными, изучает публикации в специализированных отраслях или, в принципе, заинтересован в исследовании научной мысли, ещё в апреле 2020 года Crossref выложили набор данных в 65GB и 112.5 миллионов записей [1]. В распакованном виде это около 1 терабайта. Эти данные всегда были доступны через их API api.crossref.org, но теперь стали доступны ещё и сразу для массовой выгрузки. С технической точки зрения эти данных хороши для построения больших графов и поиска взаимосвязей, аномалий и перспективных научных направлений.

Ссылки:
[1] https://www.crossref.org/blog/free-public-data-file-of-112-million-crossref-records/

#opendata #data
В блоге Facebook заметка о Nemo [1], их внутреннем инструменте для Data Discovery, продукте котором можно назвать каталогом данных, но правильнее называть инструментом обнаружения и использования данных для работы внутренних команд. Они не первые создавшие такой инструмент в Airbnb, Lyft, Netflix, и Uber есть свои аналогичные продукты. На рынке существует несколько десятков продуктов по созданию каталогов данных все из которых можно разделить на три условные категории:
- внутрикорпоративные каталоги данных (от метаданных до баз/таблиц/озер данных)
- порталы открытых данных
- порталы для открытых научных репозиториев

При этом именно внутрикорпоративные каталоги сейчас переживают бум расцвета, но со своей сильной спецификой на том что они ориентированы на интеграцию с разного рода корпоративными системами хранения и продуктами. И, как правило, предусматривают строгий контроль метаданных и их гармонизацию.

Есть определить основные характеристики этих всех продуктов то их отличия можно описать следующим образом.

Порталы открытых данных
- почти всегда публичны
- предполагают отсутствие контроля за первоисточниками
- включают метаданные характеризующие доступность данных, например, лицензии
- интегрированы на уровне сбора метаданных (OAI-PMH, CKAN Metadata и др)
- иногда предусматривают, но почти никогда не обеспечивают на 100% гармонизацию метаданных
- либо включают очень много наборов данных или фокус на конкретную область их применения (отрасль)

Порталы открытых научных данных (репозитории научных данных)
- почти всегда публичны
- не контролируют первоисточники, но устанавливают требования к структуре метаданных публикуемых материалов
- чаще всего созданы на базе репозиториев научных работ или связаны с ними общей логикой формирования метаданных
- почти всегда включают регистрацию уникальных ссылок (пермалинков) и инструменты генерации цитат в выбранном стиле для научного цитирования
- интегрированы на уровне сбора метаданных (OAI-PMH)

Внутрикорпоративные каталоги данных / порталы данных и системы метаданных
- непубличны
- интегрированы с внутренними озерами и данных и хранилищами данных
- предполагают полный или преимущественный контроль за хранимыми данными
- включают описания бизнес-словаря метаданных и гармонизацию метаданных

Из всего вышеперечисленного именно внутрикорпоративные каталоги данных - это самый трудоёмкий формат работы с данными именно из-за огромной работы с метаданными. Она требует выстраивания процессов так чтобы все изменения в таблицах регистрировались в каталоге в специальной форме описания метаданных. Это хорошо работает при небольшом числе контролируемых внутренних источников и плохо работает при большом числе внешних неконтролируемых источников данных.

Из открытых инструментов с открытым исходным кодом есть Apache Atlas [2] выступающий как репозиторий метаданных для контроля уровня чувствительности данных и Amundsen [3], для удобства специалистов по data science

Ссылки:
[1] https://engineering.fb.com/data-infrastructure/nemo/
[2] https://atlas.apache.org
[3] https://github.com/amundsen-io/amundsen

#opendata #data #opensource
Для тех кто хочет поработать с большими данными оцифрованных газет, Национальная библиотека Люксембурга опубликовала коллекцию датасетов отканированных газет 19-го века [1] сразу в нескольких форматах:
- от 250 мегабайт до 257 гигабайт отсканированных газет, максимальный за 10 лет (1860-1869)
- 2 гигабайта обработанных текстов за 38 лет (1841-1878)
- 125 мегабайт монографий за 228 лет (1690-1918)

Всё это данные высокого качества, с перепроверкой, вычисткой, в международных стандартах METS и ALGO. А также с открытыми лицензиями CC0.

Также на сайте у них есть API, ожидаются другие данные и открытый код публикуется на Github [2]

Можно лишь посетовать что про Россию там скорее всего немного и ничего на русском языке.

Ссылки:
[1] https://data.bnl.lu/data/historical-newspapers/
[2] https://github.com/natliblux

#opendata #openglam #data #libraries
Хорошо ли или плохо регулирование российской ИТ отрасли сейчас? Полезно ли было изменение схемы налогообложения?

Что-то всё хуже и хуже. Разработчики ПО с 1 января повышают цену на продукты продаваемые в России, поскольку закладывают туда НДС. Сегодня мне пришло такое письмо от Jetbrains.

У них одни из лучших продуктов для работы на многих языках программирования и не только, понятно что даже после повышения цен мы будем ими пользоваться. Но нельзя сказать что деятельность правительства реально помогает ИТ бизнесу

#it
Интернет архив ведет архивацию сайтов публикующих информацию о COVID-19. Их архив собран в специальной коллекции [1]. Анонс был ещё в феврале 2020 года [2] и было собрано уже 9019 сайтов на 51 языке, но, на удивление, нет ни одного веб сайта от России. Скорее всего потому что мало кто системно у нас в стране занимается архивацией сайтов на время COVID'а.

Если Вам не лень, потратьте немного времени и отправьте на архивацию те ресурсы про короновирус о которых Вы знаете, через форму отправки [3].

Если каждый раз заполнять форму тяжело, присылайте мне на [email protected] или в телеграм, мы соберем полный список ресурсов и отправим в IIPC и Archive.org для обязательной архивации.

Ссылки:
[1] https://archive-it.org/collections/13529
[2] https://netpreserveblog.wordpress.com/2020/02/13/cdg-collection-novel-coronavirus/
[3] https://docs.google.com/forms/d/e/1FAIpQLSc4jyson7OGxe8HWaAm2s5BWvAug8mgastWEtNxbFYQbZX62g/viewform

#digitalpreservation #archive
Новый термин RegTech, регуляторные технологии, о которых вышла публикация Regulatory Technology [1] из австралийского Council of Federal Financial Relations.

Если вкратце то это технологии позволяющие обеспечивать лучшее регулирование и достигать регуляторных целей.

В публикации практически все примеры из австралийского регулирования, однако основным рынком для продуктов RegTech называют США.

У RegTech много пересечений с технологиями мониторинга и контроля которые осуществляют органы власти, но, конечно, само это направление имеет собственную ценность.

Ссылки:
[1] https://www.pc.gov.au/research/completed/regulatory-technology

#regtech #governance #regulation
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.

Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.

Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.



Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/

#opendata #data #search #google