Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Вышла моя колонка "Надзорное государство. Как новые технологии и пандемия сняли ограничения для российского Большого брата"[1] в Republic на основе большого текста в моей рассылке на begtin.substack.com которую я ранее размещал в канале.

С этой колонки можно начинать серию итогов 2020 года с точки зрения открытости и приватности.

Ссылки:
[1] https://republic.ru/posts/98869

#articles #privacy
...Реальность такова, что если бы Рособрнадзор и Минпросвещения двигались в сторону открытости, то и региональные власти такие сведения не скрывали бы. В ситуации, когда у нас образование закрыто чуть ли не больше, чем силовые органы, граждане по умолчанию относятся к политике в этой области без всякого доверия...

Вышла моя колонка "Государство скрывает данные по ЕГЭ " в Ведомостях [1]

P.S. На самом деле моя колонка была примерно в 3 раза больше и не влезла в формат издания. Я далее раскрою и другие темы доступности данных о качестве жизни.

P.P.S. В Ведомости я колонку писал, в Коммерсант писал, в Forbes писал, в РБК писал. Куда бы мне ещё колонку написать?

Ссылки:
[1] https://www.vedomosti.ru/opinion/articles/2021/03/25/863248-gosudarstvo-ege

#articles #opendata
Весьма познавательное интервью [1] с George Fraser, сооснователем Fivetran, стартапа и продукта по сбору данных из многочисленных публичных источников/API и тд. В интервью он говорит про SQL, открытый код и революцию которую в это всё принесло появление dbt как продукта позволяющего создавать программные библиотеки для работы с SQL кодом.

Я уже несколько раз ранее писал что dbt стремительно набирает популярность, а создатели этого продукта уже привлекли огромные венчурные инвестиции.
При том что их облачный продукт для России уже малоактуален, а вот open source версия более чем востребована. В каком-то смысле это уникальный ренессанс работы с данными с помощью SQL, никем не ожидавшийся ещё несколько лет назад.

Ссылки:
[1] https://future.a16z.com/sql-needs-software-libraries/

#data #sql #dbt #articles #reading
Я продолжаю писать на английском языке о инструментах для работы с данными которые делал последние несколько лет. Написал заметку [1] про утилиту APIBackuper используемую для извлечению данных из API. Не открою большого секрета если скажу что большая часть данных в DataCrafter[2] собрана с её помощью. Слишком многие данные в России доступны только как API.

Но в заметке пример сбора данных с недокументированного API аэропорта Берлина.

Ссылки:
[1] https://medium.com/@ibegtin/apibackuper-a-command-line-tool-to-archive-backup-data-api-calls-3eb0e98e1a3b

#tools #datatools #opensource #articles
Написал очередной текст на английском о семантических типах данных и интеграции их идентификации с Wikidata [1] и особенностях ведения реестра metacrafter'а. Через какое-то время переведу его на русский на пишу в рассылку [2]. Для технологических лонгридов буду теперь писать, чаще всего, именно в такой последовательности.

Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-metadata-sources-wikidata-wikipedia-and-other-e6023e4d7431
[2] https://begtin.substack.com

#data #articles #opensource
Интересная свежая научная статья The Semantic Scholar Open Data Platform [1] как видно из названия посвящена Semantic Scholar [2], огромной базе данных научных статей и научного цитирования созданная и развиваемая Allen Institute for Artificial Intelligence.

Очень интересно для всех кто занимается наукометрией и, также, в статье много подробностей о том как проект устроен внутри, исходном коде отдельных компонентов и многое другое.

Ещё интересны цифры и сравнение с другими проектами. Крупнейшая база статей на сегодняшний день Aminer [3], с оговоркой что реальный объём базы Google Scholar неизвестен.

Интересно, кстати, что такие проекты - это проекты с большой частью дата-инженерии. И, хотя там нет сверхплотных потоков ежесекундных транзакций, но решаемые задачи весьма непросты как в части сбора, так и в части обогащения данных.

Ссылки։
[1] https://www.semanticscholar.org/reader/cb92a7f9d9dbcf9145e32fdfa0e70e2a6b828eb1
[2] https://www.semanticscholar.org
[3] https://aminer.org

#readings #articles #opendata #openscience #openaccess
Интересное чтение про данные, технологии и не только, подборка научных статей։
- Open data-set identifier for open innovation and knowledge management [1] авторы рассуждают о создании OpenDatId, уникального идентификатора для открытых данных. Сама статья, к сожалению, не к открытом доступе.

- Towards a Common Definition of Open Data Intermediaries [2] статья вокруг нового понятия open data intermediaries или по-русски "посредники открытых данных". Любопытно, но слегка наукообразно, а не практично. Статья в открытом доступе

- Open science: Scientists are in favor, what about the librarians? [3], по-русски Открытая наука: учёные – «за», а библиотекари? автор Людмила Шевченко из ГПНТБ СО РАН [4]. О том что библиотекарям необходимо пересмотреть отношение к открытой науке. Статья в открытом доступе

- How the Digital Transformation Changed Geopolitics [5] о том как цифровая трансформация (гос-ва и не только) поменяло геополитику. Статья политизирована насквозь, но отражает один из взглядов последствий развития дата-экономики (data-driven economy).

Ссылки։
[1] https://www.emerald.com/insight/content/doi/10.1108/JKM-07-2022-0514/full/html
[2] https://dl.acm.org/doi/10.1145/3585537
[3] https://ntb.gpntb.ru/jour/article/view/1081
[4] https://www.spsl.nsc.ru/professionalam/bibliosfera/avtorskij-ukazatel/shevchenko-lyudmila-borisovna/
[5] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4378419

#opendata #data #readings #articles
Полезный материал для тех кто изучает ценность и стоимость данных, научная статья What is the value of data? A review of empirical methods [1] в первую очередь относится к данным общедоступным, создаваемым для предоставления другим и продаваемым на маркетплейсах и иначе монетизируемых. Полезно для разговоров с про обоснование стоимости данных и не только. Полезно для измерения ценности открытия данных.

Ссылки:
[1] https://onlinelibrary.wiley.com/doi/full/10.1111/joes.12585

#opendata #articles #readings