Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Open Data Armenia
🏆 Results of the Open Data Armenia Contest Announced

Nomination "Data Visualization"

2nd place:
- Armenia's Energy Profile project (https://rasscrom.github.io/armenia-energy/). Authors: Beisenbaev Alikhan, Kushlevich Artem, Akynzhanov Tolegen.

3rd place:
- Armenian newborn children 2014-2023 project (https://yuu.space/2024/02/18/armenian-names-of-newborns-statistics). Author Ani Hovhannisyan.

- Project “Geoportal of Armenia build on new "Sloy" engine» (https://sloy.io/armenia). Authors:

- Project Խաղողագործության բնագավառի խնդիրները (Problems of viticulture sphere) (https://multimedia.alttv.am/page43582628.html). Authors: Khachik Danielyan, Angela Stepanyan.

Nomination "Cultural Apps"

2nd place:
- Armenian Literature project (https://arm-lit-archive.vercel.app). Author Mushegh Movsisyan.

Congratulations and thank you for your participation! In the coming days, the organizers will contact the authors of the prize-winning projects.
Свежие и полезные инструменты с открытым кодом для загрузки и обработки данных:
- PyAirbyte [1] библиотека для Python от команды Airbyte для того чтобы перенести логику этого движка по сбору данных в Python. Поддерживает все коннекторы Airbyte ранее написанные на Python
- dlt [2] Data Load Tool, явно созвучное dbt, библиотека для Python для реализации принципа Extract-Load-Transform. Выглядит довольно целостно, стоит изучить внимательнее
- ingestr [3] утилита командной строки по переносу баз данных из одного источника в другой. Поддерживает основные SQL СУБД
- sling [4] инструмент для выгрузки/загрузки данных с большинства основных СУБД включая облачные, файловых систем и различных дата файлов. Реализован на Go, важное ограничение GPL 2 лицензия (для сравнения у dlt лицензия Apache 2, а у ingestr MIT).

И конечно остаются такие инструменты как Meltano, Dagster, CloudQuery и многие другие

Ссылки:
[1] https://airbyte.com/blog/announcing-pyairbyte
[2] https://dlthub.com
[3] https://github.com/bruin-data/ingestr
[4] https://github.com/slingdata-io/sling-cli

#opensource #dataengineering
В рубрике как это работает у них городская панель управления (city dashboard) города Тайбэя [1].

Распространяется как открытый код [2] под лицензией AGPL, используется городскими властями внутри и для публики доступно общедоступное demo.

А также к продукту есть обширная документация [3].

Городские дашборды в юго-восточной Азии не редкость, например, есть такой у Гонконга как часть портала открытых данных [4], но к нему не припомню открытого кода.

А вот в Ирландии есть целый проект Building City Dashboards [5] с разными дашбордами, научными работами и открытым кодом. Можно сказать что системный подход к вопросу.

Ссылки:
[1] https://citydashboard.taipei/dashboard-demo/dashboard?index=childcare
[2] https://github.com/tpe-doit/Taipei-City-Dashboard
[3] https://tuic.gov.taipei/documentation/front-end/introduction
[4] https://data.gov.hk/en/city-dashboard#city
[5] https://dashboards.maynoothuniversity.ie/

#dataviz #opensource #opendata #opengov #cities #roc
В качестве регулярного напоминания, 6 лет назад мы в Инфокультуре @infoculture сделали множество карт данных, наглядной визуализации того где данные лежат. Это совершенно неформальный термин для простой и наглядной инфографики. Эти карты никуда не исчезли и по прежнему доступны на сайте [1]. При этом, конечно, за 6 лет уже произошли многие изменения, поэтому посмотреть на карты интересно и с точки зрения того как это было 6 лет назад и сравнить с тем что есть сейчас.

А я для полноты картины добавляю оригинальные карты данных которые создавались изначально в виде майндмапов.

Майндмапы удобны не всем, поэтому на сайте Инфокультуры инфографика в виде плакатов.

Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/

#opendata #infoculture #data #russia #datamaps
Один мой товарищ на вопрос "Как дела?" отвечал "Ну как, в моменте хорошо, но это такой момент, секунда, когда ты летишь между 99 и 98 этажами, пока летишь то хорошо, но летишь то вниз".

Если говорить о том как в России с открытыми данными и общедоступностью информации, то в моменте хорошо и даже если с другими странами сравнивать, в моменте, то тоже будет не так уж плохо. Главное не забывать что это момент полёта между 99 и 98 этажами.

Тем не менее, 6 марта онлайн пройдет День открытых данных в форме мини-конференции с докладами.

Доклады будут на разные темы текущего состояния открытости/закрытости российских данных, проектах на их основе и многом другом.

Не забудьте зарегистрироваться и присоединиться!

#opendata #opendataday #events #russia
В рубрике интересных наборов данных данные по тестированию дисков от облачного провайдера Backblaze [1] огромный датасет замеров работы почти 270 тысяч жестких дисков, с зарегистрированными фактами почти 17 тысяч отказов.

Общий объём датасета более 100GB, там же много аналитики от Backblaze про сами диски и это бесценная информация для всех кто выбирает диски для долгосрочного хранения. У них же очень интересная аналитика [2] за многие годы.

Ссылки:
[1] https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data
[2] https://www.backblaze.com/blog/backblaze-drive-stats-for-2023/

#opendata #data #datasets
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
День открытых данных: 6 марта с 11:00

6 марта с 11:00 в онлайн-формате пройдет ежегодный День открытых данных. В этом году будут представлены выступления об открытых данных в российской науке, об особенностях работы со статистикой внешней торговли, презентация нового проекта Dateno и многое другое.

В 12:45 расскажу о том, что происходит в области открытых госфинансов: повышается ли уровень финансовой открытости, доступ к каким наборам данных мы потеряли, что ожидать в ближайшее время и над какими проектами мы сейчас работаем.

Заспойлерю несколько скриншотов обновленной версии сайта проекта «Госзатраты», расскажу как мы собираем 5 тысяч исторических документов о госфинансах и как мы победили в конкурсе СПб «Твой Бюджет 2.0», по результатам которого Петербургские госорганы опубликуют в открытом доступе 150 тысяч страниц о финансах Петербурга за 100 лет.

Регистрация по ссылке: https://opendataday.ru/msk
Завтра в День открытых данных я буду в 12:15 по Москве рассказывать про поисковую систему по датасетам над которой работал весь прошлый год. Сейчас подробностей рассказывать не буду, иначе неинтересно будет слушать, но могу сказать что целью было и есть создать альтернативу Google Data Search и собрать так много данных как только возможно и сделать удобный поисковик по ним всем. Полгода назад я рассказывал о том как шла работа над проектом на конференции Smart Data, там было много технических подробностей, но ещё не готовый продукт. А теперь продукт готов для бета пользователей.

Это будет второе публичное представление, первое было на ODD в Армении 2 марта, в оффлайне, для совсем небольшой аудитории. А это будет уже с записью и, можно сказать, как финальная тренировка перед представлением на весь мир.

#opendata #data #datasets #datacatalogs #datasearch
Моя презентация с сегодняшнего дня открытых данных , а также можно уже посмотреть работающую версию поисковика Dateno.

Он пока ещё в режиме работающей беты, а то есть ошибок много, дубликатов много, метаданные в оригинальных источниках часто кривые и ещё много чего, лучше посмотреть презентацию чтобы понять.

Но... им уже можно пользоваться. Можно задавать вопросы, можно присылать мне фидбек, можно зарегистрироваться в Discord'е чтобы задавать вопросы разработчикам. Главное помнить что в дискорде проекта рабочий язык английский.

Всего в Dateno сейчас 10M наборов данных из 4.9 тысяч каталогов. До когда 2024 года планы достигнуть 30M наборов данных, значительно улучшить веб интерфейс, добавить ещё много интересных возможностей.

У проекта есть API, оно скоро будет открытым также. Много доступно как открытый код тут. А в основе проекта реестр каталогов данных о котором я писал весь прошлый и этот годы.

#opendata #datasets #projects #datasearch #data
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Открытые данные в Армении

На прошлых выходных мы провели первый Open Data Day в Армении. Он прошел в уютной атмосфере лофта Еревана с выступлениями представителей госорганов, дата-специалистов и журналистов.

Армения находится в начале своего пути работы с открытыми данными, поэтому на Дне открытых данных планами Министерства Высокотехнологичной Промышленности поделился Аршак Левонович Керобян, начальник Управления цифровизации.

Самым интересным, на мой взгляд, является намерение Министерства поддерживать концепцию open by default - открытость по умолчанию. В этой концепции все, что не является закрытым, должно быть доступным и открытым. Россия не придерживается концепции открытости по умолчанию, поэтому существует (устаревший) список наборов данных, которые должны быть открытыми.

Вторым интересным моментом является инвентаризация всех государственных данных и публикация созданного каталога. При этом, была озвучена идея о том, что госорганы не могут пользоваться и ссылаться на те данные, которые не включены в каталог. На мой взгляд, это отличное решение для того, чтобы госорганы своевременно вносили информацию о своих наборах данных (тем самым актуализируя каталог) и не забывали публиковать их в открытом доступе.

Рассказывали также доработке закона О свободе информации и о том, какую бурную дискуссию он вызвал даже среди потенциальных бенефициаров, которые так долго боролись за повышение открытости и прозрачности.

Закон о персональных данных также сейчас разрабатывают. Удивительно, что для регистрации информации о гражданах существует несколько не связанных друг с другом реестров, каждый из которых устаревает через пять минут.

Надеюсь, что все это (ну или хотя бы то, что касается открытых данных) в ближайшее время будет реализовано.

Кстати, некоторое время назад мы запустили общественный портал открытых данных Армении (https://data.opendata.am), загрузив первые 815 наборов данных. Государственный портал армянское правительство тоже анонсировало.