Команда Clickhouse выложила ClickBench [1] методологию, инструмент и результаты сравнения аналитических баз данных. Сравнивают много что: Aurora, Athena, Clickhouse, MySQL, Druid, Greenplum и тд. Около 30 разных продуктов в разных конфигурациях.
Что особенно хорошо - методология и реализация с открытым кодом [2] При этом по թ-м из 4-х метрик Clickhouse лидирует: Hot Run и Storage Size, по остальным находит в лидерах, уступая Snowflake по Cold Run и Athena по Load Time. Ценно также в отображении проблем которые возникают у многих движков в работе с большим объёмом данных.
Для тех кто выбирает инструмент для построения аналитического продукта это сравнение будет весьма полезным.
Но, всегда важно помнить ограничения, несмотря на хорошую проработку бенчмарка, странно не увидеть в нём прямых конкурентов Clickhouse вроде Starrocks, которые ещё недавно писали что превосходят Clickhouse по производительности [3].
Ссылки:
[1] https://benchmark.clickhouse.com/
[2] https://github.com/ClickHouse/ClickBench/
[3] https://starrocks.com/blog/benchmark-test
#datatools #dbms #data #benchmarks #clickhouse
Что особенно хорошо - методология и реализация с открытым кодом [2] При этом по թ-м из 4-х метрик Clickhouse лидирует: Hot Run и Storage Size, по остальным находит в лидерах, уступая Snowflake по Cold Run и Athena по Load Time. Ценно также в отображении проблем которые возникают у многих движков в работе с большим объёмом данных.
Для тех кто выбирает инструмент для построения аналитического продукта это сравнение будет весьма полезным.
Но, всегда важно помнить ограничения, несмотря на хорошую проработку бенчмарка, странно не увидеть в нём прямых конкурентов Clickhouse вроде Starrocks, которые ещё недавно писали что превосходят Clickhouse по производительности [3].
Ссылки:
[1] https://benchmark.clickhouse.com/
[2] https://github.com/ClickHouse/ClickBench/
[3] https://starrocks.com/blog/benchmark-test
#datatools #dbms #data #benchmarks #clickhouse
GitHub
GitHub - ClickHouse/ClickBench: ClickBench: a Benchmark For Analytical Databases
ClickBench: a Benchmark For Analytical Databases. Contribute to ClickHouse/ClickBench development by creating an account on GitHub.
В связи с тем что вышла куча новых законов и законопроектов по регулированию цифрового рынка, данных и тд. журналисты задают мне много вопросов, я где могу комментирую, но часто приходится говорить "вопрос точно не ко мне".
Так что я что могу и понимаю, прокомментирую, номера законов и проектов законов указывать не буду, они все и так на слуху:
1. Передача данных бизнеса государству для обезличивания
Очень плохая идея, похуже чем многие другие инициативы. Фактически даёт возможность государству потребовать у владельцев данных эти данные бесплатно и кому-то ещё их передать "обезличенными". Это рынок ломает и создает административный рынок. Причём это не подкреплено обоснованиями по работе с монопольными рынками или предварительной аналитической работой. Иначе говоря никакой доказательной политики тут нет. Поэтому это просто очень плохая инициатива с плохими последствиями.
2. Сбор биометрии без согласия граждан
Ничего хорошего не только с точки зрения того что государство [сверх]концентрирует [сверх]личные данные, но и в том что фактически это начинает происходить насильственным образом через коммерческих операторов услуг которым будут навязывать биометрию. Понятно что это навязывание не сейчас родилось и не в этом НПА, а именно это НПА просто делает ещё один шаг в сборе таких данных.
3. Наказание за утечки данных
Я уже об этом писал недавно. То что взяли мою идею с компенсационным фондом - хорошо. То что развивается модель штрафов, а не прокачка рынка инфобеза - плохо. Я считаю самую адекватную модель страховую и аудиторскую, а Минцифра могла бы ввести реестр аудиторов по инфобезу. Ну или ФСТЭК, ну или ещё кто. Но это понятная модель существования рынка в целом.
4. Блокировки за "порочащие сведения"
К ИТ рынку никакого отношения не имеет, имеет отношение к СМИ. По хорошему пусть это комментируют редактора СМИ и контентных проектов которые под это попадут. Хорошо это или плохо, опять же пусть оценивают участники "рынка компромата". Я лично считаю что "порочащие сведения" не являются синонимом "лжи", поэтому это тоже цензура.
#data #regulation #laws #privacy
Так что я что могу и понимаю, прокомментирую, номера законов и проектов законов указывать не буду, они все и так на слуху:
1. Передача данных бизнеса государству для обезличивания
Очень плохая идея, похуже чем многие другие инициативы. Фактически даёт возможность государству потребовать у владельцев данных эти данные бесплатно и кому-то ещё их передать "обезличенными". Это рынок ломает и создает административный рынок. Причём это не подкреплено обоснованиями по работе с монопольными рынками или предварительной аналитической работой. Иначе говоря никакой доказательной политики тут нет. Поэтому это просто очень плохая инициатива с плохими последствиями.
2. Сбор биометрии без согласия граждан
Ничего хорошего не только с точки зрения того что государство [сверх]концентрирует [сверх]личные данные, но и в том что фактически это начинает происходить насильственным образом через коммерческих операторов услуг которым будут навязывать биометрию. Понятно что это навязывание не сейчас родилось и не в этом НПА, а именно это НПА просто делает ещё один шаг в сборе таких данных.
3. Наказание за утечки данных
Я уже об этом писал недавно. То что взяли мою идею с компенсационным фондом - хорошо. То что развивается модель штрафов, а не прокачка рынка инфобеза - плохо. Я считаю самую адекватную модель страховую и аудиторскую, а Минцифра могла бы ввести реестр аудиторов по инфобезу. Ну или ФСТЭК, ну или ещё кто. Но это понятная модель существования рынка в целом.
4. Блокировки за "порочащие сведения"
К ИТ рынку никакого отношения не имеет, имеет отношение к СМИ. По хорошему пусть это комментируют редактора СМИ и контентных проектов которые под это попадут. Хорошо это или плохо, опять же пусть оценивают участники "рынка компромата". Я лично считаю что "порочащие сведения" не являются синонимом "лжи", поэтому это тоже цензура.
#data #regulation #laws #privacy
Telegram
Ivan Begtin
Я несколько дней комментировал СМИ по поводу нового законопроекта (почти закона) вводящего оборотные штрафы за утечки персональных данных и, вроде бы, ещё не писал здесь.
Сформулирую несколько ключевых тезисов:
1. Утечки персональных и иных конфиденциальных…
Сформулирую несколько ключевых тезисов:
1. Утечки персональных и иных конфиденциальных…
Если бы я не знал Python, я бы выучил язык R. Для работы с данными - это, пожалуй, два наиболее актуальных и полезных языка для разработчиков и аналитиков. Но, если Python создавался изначально как язык общего назначения, то R именно как язык для изучения аналитиками. Ему, например, обучают сотрудников Счетной палаты Индии, во многом из-за простоты обучения
Я лично почти ничего не пишу об этом языке, но это не значит что у R нет большого сообщества и большой востребованности.
Среди авторов я лично могу порекомендовать Алексея Селезнева и его канал R4Marketing
Алексей пишет кратко и доходчиво, это как раз Телеграм формат.
P.S. А если Вы ещё не определились изучать Python или R, рекомендую посмотреть обзор Python vs R на DataCamp
#recommendations #telegram #rlang
Я лично почти ничего не пишу об этом языке, но это не значит что у R нет большого сообщества и большой востребованности.
Среди авторов я лично могу порекомендовать Алексея Селезнева и его канал R4Marketing
Алексей пишет кратко и доходчиво, это как раз Телеграм формат.
P.S. А если Вы ещё не определились изучать Python или R, рекомендую посмотреть обзор Python vs R на DataCamp
#recommendations #telegram #rlang
Telegram
R4marketing | канал Алексея Селезнёва | Язык R
Автор канала Алексей Селезнёв, украинский аналитик, автор ряда курсов по языку R и пакетов расширяющих его возможности.
В канале публикуются статьи, доклады, новости, уроки и заметки по языку R.
Для связи: @AlexeySeleznev
Реклама: https://bit.ly/39MwJCY
В канале публикуются статьи, доклады, новости, уроки и заметки по языку R.
Для связи: @AlexeySeleznev
Реклама: https://bit.ly/39MwJCY
Как реагировать на новость то что Пенсионный фонд объединили с Фондом социального страхования? [1]
В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.
Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.
В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org
#digitalpreservation #webarchives
В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.
Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.
В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]
Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org
#digitalpreservation #webarchives
publication.pravo.gov.ru
Федеральный закон от 14.07.2022 № 236-ФЗ ∙ Официальное опубликование правовых актов
Федеральный закон от 14.07.2022 № 236-ФЗ
"О Фонде пенсионного и социального страхования Российской Федерации"
"О Фонде пенсионного и социального страхования Российской Федерации"
Про текущее состояние открытости данных на примере Фонда социального страхования (ФСС РФ).
ФСС РФ формально не является федеральным органом исполнительной власти, но, тем не менее выполняет многие его функции и с 2015 года фондом публиковались открытые данные.
У фонда было де-факто два способа раскрытия данных
- раздел на портале data.gov.ru [1] на который осталась ссылка на сайте фонда. Данные не обновлялись более 5 лет, ну и в целом это наименьшие по объёму стат показатели и административные справочники
- портал открытых данных data.fss.ru [2] на него уже нет ссылок с официального сайта ФСС РФ и сам портал всё ещё в статусе "тестового режима". На нем последние актуальные данные 4-х летней давности, опубликованы в 2018 году.
В результате актуальных ведомственных данных ФСС РФ нет уже более 4-х лет, а проекты по открытости заброшены.
Ссылки:
[1] https://data.gov.ru/organizations/7736056647
[2] https://data.fss.ru
#opendata #government #russia #fssrf
ФСС РФ формально не является федеральным органом исполнительной власти, но, тем не менее выполняет многие его функции и с 2015 года фондом публиковались открытые данные.
У фонда было де-факто два способа раскрытия данных
- раздел на портале data.gov.ru [1] на который осталась ссылка на сайте фонда. Данные не обновлялись более 5 лет, ну и в целом это наименьшие по объёму стат показатели и административные справочники
- портал открытых данных data.fss.ru [2] на него уже нет ссылок с официального сайта ФСС РФ и сам портал всё ещё в статусе "тестового режима". На нем последние актуальные данные 4-х летней давности, опубликованы в 2018 году.
В результате актуальных ведомственных данных ФСС РФ нет уже более 4-х лет, а проекты по открытости заброшены.
Ссылки:
[1] https://data.gov.ru/organizations/7736056647
[2] https://data.fss.ru
#opendata #government #russia #fssrf
В рубрике как это работает у них, шотландский общественный портал открытых данных opendata.scot
• создан в 2021 г. на базе JKAN [1] статического генератора сайтов поверх известного инструмента с открытым кодом Jekyll․
• агрегирует данные из нескольких десятков порталов открытых данных Шотландии, в основном на базе ArcGIS и CKAN.
• автор Jack Gilmore [2] разработчик в одном из госорганов в Шотландии, делал его в свое свободное время
• весь открытый код доступен [3] и заодно и данные собираемые в Github.
• а также доступна аналитика в разных разрезах [4], автор собрал список госорганов в Шотландии, провязал его с данными из Wikidata и собрал список тех которые публикуют открытые данные и тех которые это не делают.
• автор активно использует Github для управления задачами сбора данных и мониторинга доступности сайтов [5]
В целом это очень простой проект, в котором можно обратить внимание на:
- его дешевизну, он почти ничего не стоит
- агрегацию имеющихся данных
- использование Github как хостинга
Главный недостаток в том что оригинальный автор JKAN забросил проект много лет назад [6], но учитываю простоту этого движка это не критично.
Ссылки:
[1] https://github.com/OpenDataScotland/jkan
[2] https://github.com/JackGilmore
[3] https://github.com/OpenDataScotland/the_od_bods
[4] https://opendata.scot/analytics/platform-health/
[5] https://github.com/OpenDataScotland/the_od_bods/actions
[6] https://github.com/timwis/jkan
#opendata #scotland #dataportals
• создан в 2021 г. на базе JKAN [1] статического генератора сайтов поверх известного инструмента с открытым кодом Jekyll․
• агрегирует данные из нескольких десятков порталов открытых данных Шотландии, в основном на базе ArcGIS и CKAN.
• автор Jack Gilmore [2] разработчик в одном из госорганов в Шотландии, делал его в свое свободное время
• весь открытый код доступен [3] и заодно и данные собираемые в Github.
• а также доступна аналитика в разных разрезах [4], автор собрал список госорганов в Шотландии, провязал его с данными из Wikidata и собрал список тех которые публикуют открытые данные и тех которые это не делают.
• автор активно использует Github для управления задачами сбора данных и мониторинга доступности сайтов [5]
В целом это очень простой проект, в котором можно обратить внимание на:
- его дешевизну, он почти ничего не стоит
- агрегацию имеющихся данных
- использование Github как хостинга
Главный недостаток в том что оригинальный автор JKAN забросил проект много лет назад [6], но учитываю простоту этого движка это не критично.
Ссылки:
[1] https://github.com/OpenDataScotland/jkan
[2] https://github.com/JackGilmore
[3] https://github.com/OpenDataScotland/the_od_bods
[4] https://opendata.scot/analytics/platform-health/
[5] https://github.com/OpenDataScotland/the_od_bods/actions
[6] https://github.com/timwis/jkan
#opendata #scotland #dataportals
GitHub
GitHub - OpenDataScotland/jkan: A lightweight, backend-free open data portal, powered by Jekyll, based on the JKAN project
A lightweight, backend-free open data portal, powered by Jekyll, based on the JKAN project - OpenDataScotland/jkan
С точки зрения цифровой архивации смена руководителя крупной госструктуры - это всегда сигнал к потере данных, контента и цифровых материалов. Не потому что предыдущий или новый руководитель плохой или хороший, а потому что в России нет обязательных требований по сохранению цифровых материалов и из публичного доступа они исчезают, часто очень быстро.
К примеру, к вопросу о Роскосмосе и смене его руководителя.
У Роскосмоса было и частично есть несколько сайтов, проектов
- www.roscosmos.ru - основной сайт, работает
- online.roscosmos.ru - сайт онлайн трансляций, минимальная информация
- ntk.roscosmos.ru - Орбита молодежи 2022, пока работает
- en.roscosmos.ru - англоязычная версия сайта
- gptl.ru - портал геоданных Роскосмоса
- pod.gptl.ru - портал открытых данных ДЗЗ
- tvroscosmos.ru - телестудия Роскосмоса
- licenses.roscosmos.ru - реестр лицензий
- vyzov.roscosmos.ru - программа полетов МКС-66
- keystart.roscosmos.ru - Ключ на старт, когда-то просветительский проект, сейчас недоступен
Плюс социальные сети и возможно есть и другие ресурсы, тут перечислены те что я знаю.
Что из этого может исчезнуть? Да практически все если, к примеру, новый руководитель захочет объединить всё в один ресурс. Или, если, например, решит что YouTube на котором лежат видеозаписи ТВ Роскосмоса недостаточно посконный и оттуда видео начнут удалять и переносить или ещё что-то.
Следующий вопрос, а каком приоритете и как всё это сохранять. Некоторые сайты архивируется классическими веб-краулерами, там где предусмотрен переход по ссылкам и их индексирование. А некоторые так не сохранятся, потому что не предполагают их индексирование и используют Ajax/API. К примеру licenses.roscosmos.ru, gptl.ru, pod.gptl.ru автоматически не заархивируются, нужно, или запускать краулер на базе браузера или писать парсеры. А tvroscosmos.ru можно заархивировать в части текста, но не в части видео, потому что всё видео на Youtube.
Всё это о том что любая внешняя архивация требует больших усилий, часто совершенно излишних. Проблемы возникают от того что нет чётких обязательств у госорганов, госкорпораций, госорганизаций сдавать в архив цифровой контент на регулярной основе.
P.S. А архив цифровых ресурсов Роскосмоса мы делаем
#digitalpreservation #webarchives
К примеру, к вопросу о Роскосмосе и смене его руководителя.
У Роскосмоса было и частично есть несколько сайтов, проектов
- www.roscosmos.ru - основной сайт, работает
- online.roscosmos.ru - сайт онлайн трансляций, минимальная информация
- ntk.roscosmos.ru - Орбита молодежи 2022, пока работает
- en.roscosmos.ru - англоязычная версия сайта
- gptl.ru - портал геоданных Роскосмоса
- pod.gptl.ru - портал открытых данных ДЗЗ
- tvroscosmos.ru - телестудия Роскосмоса
- licenses.roscosmos.ru - реестр лицензий
- vyzov.roscosmos.ru - программа полетов МКС-66
- keystart.roscosmos.ru - Ключ на старт, когда-то просветительский проект, сейчас недоступен
Плюс социальные сети и возможно есть и другие ресурсы, тут перечислены те что я знаю.
Что из этого может исчезнуть? Да практически все если, к примеру, новый руководитель захочет объединить всё в один ресурс. Или, если, например, решит что YouTube на котором лежат видеозаписи ТВ Роскосмоса недостаточно посконный и оттуда видео начнут удалять и переносить или ещё что-то.
Следующий вопрос, а каком приоритете и как всё это сохранять. Некоторые сайты архивируется классическими веб-краулерами, там где предусмотрен переход по ссылкам и их индексирование. А некоторые так не сохранятся, потому что не предполагают их индексирование и используют Ajax/API. К примеру licenses.roscosmos.ru, gptl.ru, pod.gptl.ru автоматически не заархивируются, нужно, или запускать краулер на базе браузера или писать парсеры. А tvroscosmos.ru можно заархивировать в части текста, но не в части видео, потому что всё видео на Youtube.
Всё это о том что любая внешняя архивация требует больших усилий, часто совершенно излишних. Проблемы возникают от того что нет чётких обязательств у госорганов, госкорпораций, госорганизаций сдавать в архив цифровой контент на регулярной основе.
P.S. А архив цифровых ресурсов Роскосмоса мы делаем
#digitalpreservation #webarchives
В рубрике как это работает у них, портал открытых данных Таиланда data.go.th
На портале размещено 6995 наборов данных от 1226 организаций.
Сам портал создан на базе CKAN, с небольшими доработками для поддержки тайского языка.
Основные форматы данных CSV и XLSX, но есть RDF файлы (Semantic Web) и много API.
Большой акцент сделан на статистику и экономику. А также актуальные данные такие как статистика по COVID-19 [1].
Эта же статистика входит в группу High Value Datasets (Данные высокой ценности) [2]. Создание таких групп данных - это один из трендов для порталов открытых данных по всему миру.
Кстати, наличие актуальной и ежедневно обновляемой статистики COVID-19 на портале открытых данных - это наиболее точный индикатор "живости" такого портала. Например, отсутствующий у российского государственного портала открытых данных data.gov.ru
Ссылки:
[1] https://www.data.go.th/dataset/covid-19-daily
[2] https://www.data.go.th/height_value
#opendata #thailand #dataportals
На портале размещено 6995 наборов данных от 1226 организаций.
Сам портал создан на базе CKAN, с небольшими доработками для поддержки тайского языка.
Основные форматы данных CSV и XLSX, но есть RDF файлы (Semantic Web) и много API.
Большой акцент сделан на статистику и экономику. А также актуальные данные такие как статистика по COVID-19 [1].
Эта же статистика входит в группу High Value Datasets (Данные высокой ценности) [2]. Создание таких групп данных - это один из трендов для порталов открытых данных по всему миру.
Кстати, наличие актуальной и ежедневно обновляемой статистики COVID-19 на портале открытых данных - это наиболее точный индикатор "живости" такого портала. Например, отсутствующий у российского государственного портала открытых данных data.gov.ru
Ссылки:
[1] https://www.data.go.th/dataset/covid-19-daily
[2] https://www.data.go.th/height_value
#opendata #thailand #dataportals
Полезное чтение про данные и не только:
- О том что SQL плохо справляется с воронками [1] и что с этим делать. По мне так очередная постановка вопроса о том что SQL надо менять или заменять. Очень много тех кто хочет заменить SQL своим продуктом, но альтернатив много.
- Надо ли публиковать репозитории dbt? [2] для тех кто не помнит, dbt - это такой инструмент в современном стеке данных позволяющий осуществлять трансформацию данных через SQL запросы, да так что всё это организовано в виде репозитория кода. Вопрос про раскрытие репозиториев непростой потому что часто код используется для обработки чувствительных данных.
- Обзор книги о диаграммах и графиках Learn to Draw Charts And Diagrams Step by Step из 80-х [3]. Когда мы все останемся без компьютеров можно будет взять оттуда на вооружение рекомендации.
- Обзор книги "Data Pipelines with Apache Airflow" [4] полезной для тех кто работает с трубами данных и с Airflow.
- сравнение Spark, Flink и ksqlDB для потоков данных [5] от команды RedPanda. Выбор, конечно, ими не ограничен и есть и другие конфигруации, но сравнение полезно.
Ссылки:
[1] https://motifanalytics.medium.com/everything-is-a-funnel-but-sql-doesnt-get-it-c35356424044
[2] https://davidsj.substack.com/p/public-transformation
[3] https://nightingaledvs.com/what-a-book-published-in-the-80s-taught-me-about-data-visualization/
[4] https://medium.com/plumbersofdatascience/book-review-data-pipelines-with-apache-airflow-by-rarelasnk-and-de-ruiter-654818e0b7b0
[5] https://redpanda.com/blog/data-stream-processing-spark-flink-ksqldb
#datatools #readings #data
- О том что SQL плохо справляется с воронками [1] и что с этим делать. По мне так очередная постановка вопроса о том что SQL надо менять или заменять. Очень много тех кто хочет заменить SQL своим продуктом, но альтернатив много.
- Надо ли публиковать репозитории dbt? [2] для тех кто не помнит, dbt - это такой инструмент в современном стеке данных позволяющий осуществлять трансформацию данных через SQL запросы, да так что всё это организовано в виде репозитория кода. Вопрос про раскрытие репозиториев непростой потому что часто код используется для обработки чувствительных данных.
- Обзор книги о диаграммах и графиках Learn to Draw Charts And Diagrams Step by Step из 80-х [3]. Когда мы все останемся без компьютеров можно будет взять оттуда на вооружение рекомендации.
- Обзор книги "Data Pipelines with Apache Airflow" [4] полезной для тех кто работает с трубами данных и с Airflow.
- сравнение Spark, Flink и ksqlDB для потоков данных [5] от команды RedPanda. Выбор, конечно, ими не ограничен и есть и другие конфигруации, но сравнение полезно.
Ссылки:
[1] https://motifanalytics.medium.com/everything-is-a-funnel-but-sql-doesnt-get-it-c35356424044
[2] https://davidsj.substack.com/p/public-transformation
[3] https://nightingaledvs.com/what-a-book-published-in-the-80s-taught-me-about-data-visualization/
[4] https://medium.com/plumbersofdatascience/book-review-data-pipelines-with-apache-airflow-by-rarelasnk-and-de-ruiter-654818e0b7b0
[5] https://redpanda.com/blog/data-stream-processing-spark-flink-ksqldb
#datatools #readings #data
Medium
Everything Is a Funnel, But SQL Doesn’t Get It
SQL is the cornerstone of today’s analytics. It is the preferred way to ask data questions and analytics tools seem to thrive or die by…
В рубрике как это работает у них портал открытых данных Индонезии data.go.id
- работает с 2019 года с момента принятия президентского постановления
- имеет отдельный секретариат в подчинении Министерства национального планирования
- содержит более 90+ тысяч наборов данных, один из крупнейших порталов данных в мире
- большая часть данных в форматах XLSX и CSV, много геоданных в форматах WMS, WFS и API Esri REST
- на портале публикуют и обновляют данные все органы власти и все провинции Индонезии.
- портал создан на базе CKAN, поверх него разработчики создали веб-сайт использующий API CKAN и реализующий собственный поиск
- для тех провинций у которых есть свои порталы данных настроен агрегатор их сбора. Почти все региональные порталы также созданы на CKAN, например [2]
- портал постепенно развивается в сторону аналитики и дашбордов с разного рода визуализациями
В итоге портал очень велик по широте охвата и масштабу, пока не так хорошо проработан в части доступности данных в разных форматах. Ему не хватает доступных API и данных высокого качества, но у него всё хорошо с государственной поддержкой и раскрытием текущих данных как есть (open data by default).
Ссылки:
[1] https://data.go.id
[2] https://opendata.kukarkab.go.id/
#opendata #dataportals #indonesia
- работает с 2019 года с момента принятия президентского постановления
- имеет отдельный секретариат в подчинении Министерства национального планирования
- содержит более 90+ тысяч наборов данных, один из крупнейших порталов данных в мире
- большая часть данных в форматах XLSX и CSV, много геоданных в форматах WMS, WFS и API Esri REST
- на портале публикуют и обновляют данные все органы власти и все провинции Индонезии.
- портал создан на базе CKAN, поверх него разработчики создали веб-сайт использующий API CKAN и реализующий собственный поиск
- для тех провинций у которых есть свои порталы данных настроен агрегатор их сбора. Почти все региональные порталы также созданы на CKAN, например [2]
- портал постепенно развивается в сторону аналитики и дашбордов с разного рода визуализациями
В итоге портал очень велик по широте охвата и масштабу, пока не так хорошо проработан в части доступности данных в разных форматах. Ему не хватает доступных API и данных высокого качества, но у него всё хорошо с государственной поддержкой и раскрытием текущих данных как есть (open data by default).
Ссылки:
[1] https://data.go.id
[2] https://opendata.kukarkab.go.id/
#opendata #dataportals #indonesia
Для тех кто мог пропустить, с 20 июля, вот уже совсем скоро Google окончательно заменит раздел с разрешениями приложения в Google Apps на блок Data safety.
В Arstechnica статья о важных отличиях [1].
Раздел "разрешения приложению" был гарантированно актуальным поскольку разрешения описывались автоматически по итогам сканирования приложений, а Data safety - это декларация разработчика приложения по итогам заполнения одноименной формы. Это называется honor system (система на доверии).
Иначе говоря Google заменяют блок описания приложения от "мы проверили роботом, они следят вот так" на "разработчик мамой поклялся что будет вот так честно делать всё".
Впрочем в Google свои планы ещё не анонсировали, возможно раздел с разрешениями приложения всё же вернут под давлением общественности и регуляторов.
А я напомню что приложения для Android'а можно проверять независимыми инструментами такими как Exodus Privacy и др., я регулярно делал их обзоры [2].
Ссылки:
[1] https://arstechnica.com/gadgets/2022/07/google-plays-new-privacy-section-actually-hides-app-permissions/
[2] https://t.iss.one/begtin/3106
#google #android #privacy
В Arstechnica статья о важных отличиях [1].
Раздел "разрешения приложению" был гарантированно актуальным поскольку разрешения описывались автоматически по итогам сканирования приложений, а Data safety - это декларация разработчика приложения по итогам заполнения одноименной формы. Это называется honor system (система на доверии).
Иначе говоря Google заменяют блок описания приложения от "мы проверили роботом, они следят вот так" на "разработчик мамой поклялся что будет вот так честно делать всё".
Впрочем в Google свои планы ещё не анонсировали, возможно раздел с разрешениями приложения всё же вернут под давлением общественности и регуляторов.
А я напомню что приложения для Android'а можно проверять независимыми инструментами такими как Exodus Privacy и др., я регулярно делал их обзоры [2].
Ссылки:
[1] https://arstechnica.com/gadgets/2022/07/google-plays-new-privacy-section-actually-hides-app-permissions/
[2] https://t.iss.one/begtin/3106
#google #android #privacy
Регулярный опргс, что бы Вы хотели читать в этом канале? Пишите также в чате если я чтото упустил
Final Results
52%
Международный опыт, лучшие практики
29%
Российские новости и события
51%
Больше про технические подробности и технологии работы с данными
25%
Больше про открытость
29%
Больше про приватность и инфобез
14%
Больше про архивацию
36%
Больше про бизнес на данных и технологиях
36%
Больше субъективного
10%
Больше объективного
21%
Новые форматы: подкасты, видео и инфографику
Написал большой текст в рассылку про наборы данных особой ценности (high-value datasets) [1].
Не забудьте подписаться [2] на рассылку. В отличие от телеграм канала я пишу туда не чаще чем раз в месяц в виде больших или очень больших текстов.
Ссылки:
[1] https://begtin.substack.com/p/27
[2] https://begtin.substack.com
#readings #opendata #datasets
Не забудьте подписаться [2] на рассылку. В отличие от телеграм канала я пишу туда не чаще чем раз в месяц в виде больших или очень больших текстов.
Ссылки:
[1] https://begtin.substack.com/p/27
[2] https://begtin.substack.com
#readings #opendata #datasets
В блоге статистического ведомства ООН о том как государства получают доступ к данным частных компаний [1] с акцентом на свежее регулирование Евросоюза The Data Act [2].
Краткие тезисы:
— некоторые данные есть только у крупных компаний и они не спешат делиться ими с госорганами
— попытки государств установить партнерства с компаниями в период пандемии сработали в 9 случаях из 41, из отчета Мирового Банка
— Евросоюз в The Data Act установил условия при которых компании обязаны предоставлять данные органам власти по запросу:
* реакция на чрезвычайную ситуацию, например, пандемию или природный катаклизм
* предупреждение чрезвычайной ситуации или восстановление
* ситуации предполагающие "исключительную необходимость" и отсутствие возможности или затруднение в приобретении данных.
Всё это к свежему российскому регулированию в котором российское гос-во также хочет получить доступ к данным коммерческих компаний.
Разница с Евросоюзом у российского регулирования, в недоверии способности органов власти сохранить эти данные, и в этическом дискомфорте поскольку не было даже видимости публичного обсуждения всех последствий этого законопроекта и в расплывчатости российского нормативного регулирования.
Тем не менее, я предскажу что рынок продажи данных государствам со стороны крупных цифровых монополий будет сжиматься. Неизбежно, либо ценовое регулирование, либо предоставление данных крупными компаниями на бесплатной основе.
Причём как раз модель регулирования ЕС, с высокой вероятностью, будут применять в других юрисдикциях.
—
Ссылки:
[1] https://unstats.un.org/unsd/undataforum/blog/the-eu-data-act-regulating-public-sector-access-to-privately-held-data/
[2] https://digital-strategy.ec.europa.eu/en/library/data-act-proposal-regulation-harmonised-rules-fair-access-and-use-data
#data #datasharing #legislation #laws #eu
Краткие тезисы:
— некоторые данные есть только у крупных компаний и они не спешат делиться ими с госорганами
— попытки государств установить партнерства с компаниями в период пандемии сработали в 9 случаях из 41, из отчета Мирового Банка
— Евросоюз в The Data Act установил условия при которых компании обязаны предоставлять данные органам власти по запросу:
* реакция на чрезвычайную ситуацию, например, пандемию или природный катаклизм
* предупреждение чрезвычайной ситуации или восстановление
* ситуации предполагающие "исключительную необходимость" и отсутствие возможности или затруднение в приобретении данных.
Всё это к свежему российскому регулированию в котором российское гос-во также хочет получить доступ к данным коммерческих компаний.
Разница с Евросоюзом у российского регулирования, в недоверии способности органов власти сохранить эти данные, и в этическом дискомфорте поскольку не было даже видимости публичного обсуждения всех последствий этого законопроекта и в расплывчатости российского нормативного регулирования.
Тем не менее, я предскажу что рынок продажи данных государствам со стороны крупных цифровых монополий будет сжиматься. Неизбежно, либо ценовое регулирование, либо предоставление данных крупными компаниями на бесплатной основе.
Причём как раз модель регулирования ЕС, с высокой вероятностью, будут применять в других юрисдикциях.
—
Ссылки:
[1] https://unstats.un.org/unsd/undataforum/blog/the-eu-data-act-regulating-public-sector-access-to-privately-held-data/
[2] https://digital-strategy.ec.europa.eu/en/library/data-act-proposal-regulation-harmonised-rules-fair-access-and-use-data
#data #datasharing #legislation #laws #eu
unstats.un.org
United Nations World Data Forum
Official Website of United Nations World Data Forum
Новости стандартизации, в W3C официально принят и опубликован стандарт Decentralized Identifiers (DIDs) v1.0 [1] в котором описана структура и логика присвоения постоянных идентификаторов объектов находящихся в децентрализованных реестрах.
Фактически - это стандарт для создания аналогов DOI, Handle и других подобных идентификаторов, но на основе Blockchain'а. Идея и область применения весьма интересные, одна из областей где децентрализованные технологии оправданы. Этот стандарт долгое время был черновиком и за этой время появилось более 100 идентификаторов/протоколов/спецификаций на его основе [2]․ Многие, но не все, из них относятся явно к крипте.
Из важных и интересных вопросов в том как будут эволюционировать существующие институции выдачи постоянных идентификаторов.
Ссылки:
[1] https://www.w3.org/TR/2022/REC-did-core-20220719/
[2] https://www.w3.org/TR/did-spec-registries/
#standards #blockchain #w3c #identifiers
Фактически - это стандарт для создания аналогов DOI, Handle и других подобных идентификаторов, но на основе Blockchain'а. Идея и область применения весьма интересные, одна из областей где децентрализованные технологии оправданы. Этот стандарт долгое время был черновиком и за этой время появилось более 100 идентификаторов/протоколов/спецификаций на его основе [2]․ Многие, но не все, из них относятся явно к крипте.
Из важных и интересных вопросов в том как будут эволюционировать существующие институции выдачи постоянных идентификаторов.
Ссылки:
[1] https://www.w3.org/TR/2022/REC-did-core-20220719/
[2] https://www.w3.org/TR/did-spec-registries/
#standards #blockchain #w3c #identifiers
www.w3.org
Decentralized Identifiers (DIDs) v1.0
Decentralized identifiers (DIDs) are a new type of identifier that
enables verifiable, decentralized digital identity. A DID refers to any
subject (e.g., a person, organization, thing, data model, abstract entity, etc.)
as determined by the controller of…
enables verifiable, decentralized digital identity. A DID refers to any
subject (e.g., a person, organization, thing, data model, abstract entity, etc.)
as determined by the controller of…
Вышел глобальный индекс мира (Global Peace Index), разработан Институтом экономики и мира (IEP).
Россия уверенно обгоняет Сирию, Йемен и Афганистан, но отстаёт в миролюбии от Северной Кореи и Сомали занимая почетное 4-е место с конца списка миролюбивых стран.
На постсоветском пространстве лидирует Эстония, далее Латвия и Литва.
Очень сильно просело миролюбие у Казахстана, на 29 позиций и Киргизстана на 21 позицию. У Казахстана самое большое падение миролюбия в мире.
Миру мир, а аналитикам данные!
Индекс публикуется с почти открытыми данными [1], в формате XLSX, не под свободной лицензией, но это хоть что-то пригодное к анализу.
Ссылки:
[1] https://www.visionofhumanity.org/public-release-data/
#data #ratings #peace #countries
Россия уверенно обгоняет Сирию, Йемен и Афганистан, но отстаёт в миролюбии от Северной Кореи и Сомали занимая почетное 4-е место с конца списка миролюбивых стран.
На постсоветском пространстве лидирует Эстония, далее Латвия и Литва.
Очень сильно просело миролюбие у Казахстана, на 29 позиций и Киргизстана на 21 позицию. У Казахстана самое большое падение миролюбия в мире.
Миру мир, а аналитикам данные!
Индекс публикуется с почти открытыми данными [1], в формате XLSX, не под свободной лицензией, но это хоть что-то пригодное к анализу.
Ссылки:
[1] https://www.visionofhumanity.org/public-release-data/
#data #ratings #peace #countries
Вышла версия 6.0 MongoDB, самой популярной документо-ориентированной NoSQL СУБД в мире. Если Вы никогда о ней не слышали и не читали, но работаете с JSON документами, то самое время узнать что это такое и как работает.
В новой версии анонсируют:
1. Улучшение работы с временными рядами
2. Улучшение работы с потоками изменений и возможности подписки на них
3. Улучшенная обработка сложных запросов
4. Больше операторов в языке запросов
5. Улучшенная синхронизация и новые операторы для этих задач
6. Улучшенная безопасность (запросы к зашифрованным данным)
7. Улучшения в поиске в виде фасетного поиска
Если посмотреть на всё это вместе, то кажется всё, в общем-то, очень даже неплохо. Продукт развивается, у него реально очень мало альтернатив, наиболее близкий по функциям продукт ArangoDB, но мигрировать на него требует переписать все запросы, поэтому основная конкуренция идет между MongoDB Cloud и MongoDB-совместимыми облачными базами данных.
Но я скажу честно, по личному опыту и практическому применению, MongoDB - это огромная находка и огромное разочарование.
Дело в том что для многих задач без высокой нагрузки, с иерархическими данными, созданием API с отдачей JSON и тд. у MongoDB очень много уникальных возможностей. Многое готово из коробки, язык запросов прост, привычен, удобства очень велики.
Но, как только дело доходит до высокой производительности то часто оказывается что использовать MongoDB как расширенное key-value хранилище - это норм, а много сложных запросов на больших данных оно не тянет. По многим причинам, рассказывать о них можно много и отдельно, но в целом high-load - это не про MongoDB.
Другая проблема MongoDB в неэффективном хранении данных, по сравнению с колоночными базами данных, к примеру. Это особенность архитектуры, у данных нет схем, нет возможности сжатия их по колонкам, что сжатие улучшает.
Но самая главная проблема в том что MongoDB нет в Modern data stack! Понятно что MDS - это концепция, а не четкий стек инструментов, но MongoDB попадает туда только как унаследованное хранилище данных.
Ключевые продукты популярные в MDS основаны на SQL и плоских структурах данных с чёткими спецификациями. Инструменты вроде dbt не поддерживают MongoDB, не поддерживают его и большая часть ETL инструментов и так далее.
Фактически MongoDB и другие документо-ориентированные NoSQL СУБД - это продукты в себе. Чтобы реализовать для них полноценный инструмент по контролю качества данных или их преобразованию придётся делать его узкозаточенным и, как следствие, плохо переносимым на другие продукты.
И эти проблемы, увы, не решаются релизом 6.0, но, в остальном, конечно, это полезный продукт пригодный для многих задач когда данных много, они иерархичны (JSON) и проектировать таблицы не хочется.
Ссылки:
[1] https://www.mongodb.com/blog/post/big-reasons-upgrade-mongodb-6-0
#mongodb #data #datatools #rdbms
В новой версии анонсируют:
1. Улучшение работы с временными рядами
2. Улучшение работы с потоками изменений и возможности подписки на них
3. Улучшенная обработка сложных запросов
4. Больше операторов в языке запросов
5. Улучшенная синхронизация и новые операторы для этих задач
6. Улучшенная безопасность (запросы к зашифрованным данным)
7. Улучшения в поиске в виде фасетного поиска
Если посмотреть на всё это вместе, то кажется всё, в общем-то, очень даже неплохо. Продукт развивается, у него реально очень мало альтернатив, наиболее близкий по функциям продукт ArangoDB, но мигрировать на него требует переписать все запросы, поэтому основная конкуренция идет между MongoDB Cloud и MongoDB-совместимыми облачными базами данных.
Но я скажу честно, по личному опыту и практическому применению, MongoDB - это огромная находка и огромное разочарование.
Дело в том что для многих задач без высокой нагрузки, с иерархическими данными, созданием API с отдачей JSON и тд. у MongoDB очень много уникальных возможностей. Многое готово из коробки, язык запросов прост, привычен, удобства очень велики.
Но, как только дело доходит до высокой производительности то часто оказывается что использовать MongoDB как расширенное key-value хранилище - это норм, а много сложных запросов на больших данных оно не тянет. По многим причинам, рассказывать о них можно много и отдельно, но в целом high-load - это не про MongoDB.
Другая проблема MongoDB в неэффективном хранении данных, по сравнению с колоночными базами данных, к примеру. Это особенность архитектуры, у данных нет схем, нет возможности сжатия их по колонкам, что сжатие улучшает.
Но самая главная проблема в том что MongoDB нет в Modern data stack! Понятно что MDS - это концепция, а не четкий стек инструментов, но MongoDB попадает туда только как унаследованное хранилище данных.
Ключевые продукты популярные в MDS основаны на SQL и плоских структурах данных с чёткими спецификациями. Инструменты вроде dbt не поддерживают MongoDB, не поддерживают его и большая часть ETL инструментов и так далее.
Фактически MongoDB и другие документо-ориентированные NoSQL СУБД - это продукты в себе. Чтобы реализовать для них полноценный инструмент по контролю качества данных или их преобразованию придётся делать его узкозаточенным и, как следствие, плохо переносимым на другие продукты.
И эти проблемы, увы, не решаются релизом 6.0, но, в остальном, конечно, это полезный продукт пригодный для многих задач когда данных много, они иерархичны (JSON) и проектировать таблицы не хочется.
Ссылки:
[1] https://www.mongodb.com/blog/post/big-reasons-upgrade-mongodb-6-0
#mongodb #data #datatools #rdbms
MongoDB
7 Big Reasons to Upgrade to MongoDB 6.0 | MongoDB Blog
First announced at MongoDB World 2022, MongoDB 6.0 is now generally available and ready for download now. Learn more.
Полезное чтение про данные и технологии
- подкаст о том как устроен StackOverflow внутри [1] особенность в том что там монолитное приложение на дотнет и SQL сервере с объёмом хранения в 1.5ТБ и всё это на серверах on-Premise и никаких облаков.
- о социотехническом подходе к данным [2] в интервью с Juan Sequeda, старшим исследователем в data.world. О том что технологий уже достаточно, а грамотности в работе с данными (data literacy) всё ещё мало
- о том как развернуть стек с открытым кодом по работе с данными на базе Kubernetes [3], не очень глубоко, но практично.
- в Великобритании комиссия по цифровому будущему изучает то как собираются данные в EdTech проектах и насколько это оправдано [4]
- в Индии общественность обвинила владельцев сервиса платежей RazorPay в передаче данных о платежах без разрешения плательщиков [5]. Было это сделано в рамках уголовного дела против Mohammed Zubair сооснователя новостного сайта Alt News. Его обвинили и арестовали за нанесение оскорбление верующим и полиция запросила сведения о том кто жертвовал этому СМИ деньги, в том числе в поиске зарубежных жертвователей.
- на государственном портале открытых данных Испании разбор позиции Испании в рейтинге Global Data Barometer [6] со множеством ссылок, объяснений.
Ссылки:
[1] https://hanselminutes.com/847/engineering-stack-overflow-with-roberta-arcoverde
[2] https://www.moderndatastack.xyz/people/the-scoio-technical-approach-to-data-klfa
[3] https://www.plural.sh/blog/how-to-build-and-operate-an-open-source-data-stack-on-kubernetes/
[4] https://digitalfuturescommission.org.uk/blog/reality-check-on-technology-uses-in-uk-state-schools/
[5] https://restofworld.org/2022/newsletter-south-asia-india-data-evidence-of-dissent/
[6] https://datos.gob.es/en/blog/open-data-spain-according-global-data-barometer-study
#data #opendata #privacy #readings
- подкаст о том как устроен StackOverflow внутри [1] особенность в том что там монолитное приложение на дотнет и SQL сервере с объёмом хранения в 1.5ТБ и всё это на серверах on-Premise и никаких облаков.
- о социотехническом подходе к данным [2] в интервью с Juan Sequeda, старшим исследователем в data.world. О том что технологий уже достаточно, а грамотности в работе с данными (data literacy) всё ещё мало
- о том как развернуть стек с открытым кодом по работе с данными на базе Kubernetes [3], не очень глубоко, но практично.
- в Великобритании комиссия по цифровому будущему изучает то как собираются данные в EdTech проектах и насколько это оправдано [4]
- в Индии общественность обвинила владельцев сервиса платежей RazorPay в передаче данных о платежах без разрешения плательщиков [5]. Было это сделано в рамках уголовного дела против Mohammed Zubair сооснователя новостного сайта Alt News. Его обвинили и арестовали за нанесение оскорбление верующим и полиция запросила сведения о том кто жертвовал этому СМИ деньги, в том числе в поиске зарубежных жертвователей.
- на государственном портале открытых данных Испании разбор позиции Испании в рейтинге Global Data Barometer [6] со множеством ссылок, объяснений.
Ссылки:
[1] https://hanselminutes.com/847/engineering-stack-overflow-with-roberta-arcoverde
[2] https://www.moderndatastack.xyz/people/the-scoio-technical-approach-to-data-klfa
[3] https://www.plural.sh/blog/how-to-build-and-operate-an-open-source-data-stack-on-kubernetes/
[4] https://digitalfuturescommission.org.uk/blog/reality-check-on-technology-uses-in-uk-state-schools/
[5] https://restofworld.org/2022/newsletter-south-asia-india-data-evidence-of-dissent/
[6] https://datos.gob.es/en/blog/open-data-spain-according-global-data-barometer-study
#data #opendata #privacy #readings