Свежие тенденции госинноваций из последнего отчета ОЭСР [1]:
- Тенденция 1: ориентированные на будущее и совместно созданные государственные услуги
- Тенденция 2: Цифровые и инновационные основы для эффективных государственных услуг
- Тенденция 3: персонализированные и проактивные государственные услуги для -обеспечения доступности и инклюзивности
- Тенденция 4: Государственные услуги, основанные на данных, для принятия более эффективных решений
- Тенденция 5: Государственные услуги как возможность участия общественности
Вернее ну как свежие, мало что поменялось, разве что все инновации стали привязаны к цифровым сервисам.
Я не устаю повторять что нет давно уже цифровой экономики, есть просто Экономика и она вся цифровая, а та что нецифровая - это Маргинальная экономика.
И нет давно уже Цифрового госуправления. Есть Госуправление и оно должно быть/уже есть всё цифровое. А всё что нецифровое - это форма варварства.
По 4-му тренду практически все примеры про открытые данные и про трансформацию порталов с открытыми данным в оказание услуг информирования, например, о качестве воздуха. Про примеры я как-нибудь потом напишу, про те что самые интересные, а также как тут не вспомнить про очень полезный каталог инноваций у ОЭСР - OPSI [2] с разбором очень многих проектов.
А вообще такие доклады полезны примерами. Почитать их стоит хотя бы просто чтобы знать что в мире творится то.
Ссылки:
[1] https://www.oecd.org/en/publications/global-trends-in-government-innovation-2024_c1bc19c3-en/full-report.html
[2] https://oecd-opsi.org/
#opendata #opengov #data #oecd #government #innovation
- Тенденция 1: ориентированные на будущее и совместно созданные государственные услуги
- Тенденция 2: Цифровые и инновационные основы для эффективных государственных услуг
- Тенденция 3: персонализированные и проактивные государственные услуги для -обеспечения доступности и инклюзивности
- Тенденция 4: Государственные услуги, основанные на данных, для принятия более эффективных решений
- Тенденция 5: Государственные услуги как возможность участия общественности
Вернее ну как свежие, мало что поменялось, разве что все инновации стали привязаны к цифровым сервисам.
Я не устаю повторять что нет давно уже цифровой экономики, есть просто Экономика и она вся цифровая, а та что нецифровая - это Маргинальная экономика.
И нет давно уже Цифрового госуправления. Есть Госуправление и оно должно быть/уже есть всё цифровое. А всё что нецифровое - это форма варварства.
По 4-му тренду практически все примеры про открытые данные и про трансформацию порталов с открытыми данным в оказание услуг информирования, например, о качестве воздуха. Про примеры я как-нибудь потом напишу, про те что самые интересные, а также как тут не вспомнить про очень полезный каталог инноваций у ОЭСР - OPSI [2] с разбором очень многих проектов.
А вообще такие доклады полезны примерами. Почитать их стоит хотя бы просто чтобы знать что в мире творится то.
Ссылки:
[1] https://www.oecd.org/en/publications/global-trends-in-government-innovation-2024_c1bc19c3-en/full-report.html
[2] https://oecd-opsi.org/
#opendata #opengov #data #oecd #government #innovation
OECD
Full Report
Governments worldwide are transforming public services through innovative approaches that place people at the center of design and delivery. This report analyses nearly 800 case studies from 83 countries and identifies five critical trends in government innovation…
В рубрике интересных каталогов данных я ранее писал про WIS 2.0 движок от Всемирной метеорологической организации (WMO) по сбору стандартизированных данных о погоде [1]. Но это относительно новый продукт, ведь большое число стран интегрировано с системами WMO и без него. И делают они это, не все но многие, с помощью другого продукта который называется OpenWIS [2].
Это продукт с открытым кодом созданный в The OpenWIS Association AISBL через кооперацию более чем десятка стран.
На базе OpenWIS работают порталы с данными о погоде в России [3], Таиланде [4], Индонезии [5], Южной Корее [6] и многих других странах.
Внутри OpenWIS форк продукта Geonetwork, специализированного каталога метаданных используемого для публикации и поиска по пространственным данным. Поскольку у Geonetwork много открытых API и интерфейсов то к этим порталам можно подключится даже когда их веб интерфейсы закрыты паролями. Например, у российской инсталляции OpenWIS открытое API по стандарту OAI-PMH [7] и, скорее всего и другие тоже есть.
Код OpenWIS не развивается уже несколько лет, явно постепенно метеорологические агентства будут переходить на WIS 2.0 и на другие решения, тем не менее эти порталы это тоже каталоги данных. В реестре каталогов Dateno их пока нет, кроме портала OpenWIS в Таиланде, который был идентифицирован как экземпляр Geonetwork хотя, правильнее всё же будет определять OpenWIS как отдельный тип каталогов данных.
С одной стороны данных в этих каталогах данных немного, сотни слоёв карт, максимум, а с другой стороны их сбор не требует сверхусилий и рано или поздно они появятся в поиске Dateno.
Ссылки:
[1] https://t.iss.one/begtin/5972
[2] https://github.com/OpenWIS/openwis
[3] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/main.home
[4] https://wis.tmd.go.th/openwis-user-portal/srv/en/main.home
[5] https://wis.bmkg.go.id/openwis-user-portal/srv/en/about.home
[6] https://dcpc.nmsc.kma.go.kr/openwis-user-portal/srv/en/main.home
[7] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/oaipmh?verb=Identify
#opendata #datacatalogs #data #meteorology #opensource
Это продукт с открытым кодом созданный в The OpenWIS Association AISBL через кооперацию более чем десятка стран.
На базе OpenWIS работают порталы с данными о погоде в России [3], Таиланде [4], Индонезии [5], Южной Корее [6] и многих других странах.
Внутри OpenWIS форк продукта Geonetwork, специализированного каталога метаданных используемого для публикации и поиска по пространственным данным. Поскольку у Geonetwork много открытых API и интерфейсов то к этим порталам можно подключится даже когда их веб интерфейсы закрыты паролями. Например, у российской инсталляции OpenWIS открытое API по стандарту OAI-PMH [7] и, скорее всего и другие тоже есть.
Код OpenWIS не развивается уже несколько лет, явно постепенно метеорологические агентства будут переходить на WIS 2.0 и на другие решения, тем не менее эти порталы это тоже каталоги данных. В реестре каталогов Dateno их пока нет, кроме портала OpenWIS в Таиланде, который был идентифицирован как экземпляр Geonetwork хотя, правильнее всё же будет определять OpenWIS как отдельный тип каталогов данных.
С одной стороны данных в этих каталогах данных немного, сотни слоёв карт, максимум, а с другой стороны их сбор не требует сверхусилий и рано или поздно они появятся в поиске Dateno.
Ссылки:
[1] https://t.iss.one/begtin/5972
[2] https://github.com/OpenWIS/openwis
[3] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/main.home
[4] https://wis.tmd.go.th/openwis-user-portal/srv/en/main.home
[5] https://wis.bmkg.go.id/openwis-user-portal/srv/en/about.home
[6] https://dcpc.nmsc.kma.go.kr/openwis-user-portal/srv/en/main.home
[7] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/oaipmh?verb=Identify
#opendata #datacatalogs #data #meteorology #opensource
В качестве регулярных напоминаний, с 1 по 7 марта 2025 года по всему миру пройдут мероприятия Дней открытых данных (Open Data Days, ODD) [1]. Это множество выступлений, лекций, семинаров и встреч по всему миру. Кто то слушает выступления других, кто-то проводит самостоятельно.
Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.
В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.
И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉
И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.
Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am
#opendata #opendataday #data #events
Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.
В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.
И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉
И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.
Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am
#opendata #opendataday #data #events
И ещё про итоги года, самое время вспомнить про тренды открытости и доступности данных в мире.
1. Больше международных данных. Совершенно точно общедоступных данных становится больше, большая часть новых данных публикуются как открытые (под свободными) лицензиями. Например, на большинстве сайтов активных межгосударственных организаций разделы "Статистика" и "Исследования" переименовали в разделы "Данные" или "Данные и статистика" и "Данные и исследования". Я бы даже сказал что это стало нормой для почти всех структур входящих в ООН, к примеру.
2. Больше данных городов и муниципалитетов. Местные/городские данные один из приоритетов OGP, порталы данных городов появляются во все большем числе стран и наиболее активно создаются порталы геоданных. А также именно в городах чаще используют SaaS решения вроде OpenDataSoft и ArcGIS Hub.
3. Больше данных для машинного обучения. Этот тренд исключительно нарастает, помимо Kaggle и Hugging Face данные публикуют на многочисленных других порталах и сайтах компаний, исследовательских центров и так далее.
4. Постепенное проникновение дата инженерии и дата сайенс в открытые данные. Это происходит медленно но в последние пару лет особенно заметно и то что данные всё чаще доступны для массовой выгрузки (bulk download) и в форматах вроде parquet (данные из порталов OpenDataSoft, данные французского нац портала портала, данные нац портала Малайзии)
5. Больше особенно ценных данных. Инициатива High Value Datasets в Европейском союзе развивается и за его пределами. Появляется всё больше данных имеющих прямую измеренную пользу для экономики и всё более закрепляется политика государств что открытость этих данных несёт больше пользы обществу и бизнесу в частности чем торговля ими.
6. Расширение вклада биг техов в открытость данных. Это касается тех данных которые касаются общей инфраструктуры, данных полученных с помощью ИИ, данных необходимых для обучения LLM моделей. Чаще всего это не собственные данные, а чьи-то ещё переупакованные, обогащённые и тем не менее полезные. Например, данные в рамках Overture Maps.
7. Усиление движения открытого доступа (Open Access). Что выражается не только в том что повышается доступность научных статей, но и в появлении всё большего числа порталов исследовательских данных открытого доступа. Также становится больше специализированных порталов данных привязанных к конкретным научным дисциплинам и их специфике.
8. Сложность восприятия ИИ среди open data активистов. Главными бенефициарами открытости не только данных, но и любых других свободно распространяемых материалов оказываются big tech компании, а теперь ещё и OpenAI и лидеры рынка LLM моделей. На многих волонтеров начинает давить ощущение что именно биг техи, а не общество выигрывают от открытости данных.
#opendata #opengov #data #thoughts
1. Больше международных данных. Совершенно точно общедоступных данных становится больше, большая часть новых данных публикуются как открытые (под свободными) лицензиями. Например, на большинстве сайтов активных межгосударственных организаций разделы "Статистика" и "Исследования" переименовали в разделы "Данные" или "Данные и статистика" и "Данные и исследования". Я бы даже сказал что это стало нормой для почти всех структур входящих в ООН, к примеру.
2. Больше данных городов и муниципалитетов. Местные/городские данные один из приоритетов OGP, порталы данных городов появляются во все большем числе стран и наиболее активно создаются порталы геоданных. А также именно в городах чаще используют SaaS решения вроде OpenDataSoft и ArcGIS Hub.
3. Больше данных для машинного обучения. Этот тренд исключительно нарастает, помимо Kaggle и Hugging Face данные публикуют на многочисленных других порталах и сайтах компаний, исследовательских центров и так далее.
4. Постепенное проникновение дата инженерии и дата сайенс в открытые данные. Это происходит медленно но в последние пару лет особенно заметно и то что данные всё чаще доступны для массовой выгрузки (bulk download) и в форматах вроде parquet (данные из порталов OpenDataSoft, данные французского нац портала портала, данные нац портала Малайзии)
5. Больше особенно ценных данных. Инициатива High Value Datasets в Европейском союзе развивается и за его пределами. Появляется всё больше данных имеющих прямую измеренную пользу для экономики и всё более закрепляется политика государств что открытость этих данных несёт больше пользы обществу и бизнесу в частности чем торговля ими.
6. Расширение вклада биг техов в открытость данных. Это касается тех данных которые касаются общей инфраструктуры, данных полученных с помощью ИИ, данных необходимых для обучения LLM моделей. Чаще всего это не собственные данные, а чьи-то ещё переупакованные, обогащённые и тем не менее полезные. Например, данные в рамках Overture Maps.
7. Усиление движения открытого доступа (Open Access). Что выражается не только в том что повышается доступность научных статей, но и в появлении всё большего числа порталов исследовательских данных открытого доступа. Также становится больше специализированных порталов данных привязанных к конкретным научным дисциплинам и их специфике.
8. Сложность восприятия ИИ среди open data активистов. Главными бенефициарами открытости не только данных, но и любых других свободно распространяемых материалов оказываются big tech компании, а теперь ещё и OpenAI и лидеры рынка LLM моделей. На многих волонтеров начинает давить ощущение что именно биг техи, а не общество выигрывают от открытости данных.
#opendata #opengov #data #thoughts
Очень много архивных данных
За выходные накопилось очень много что написать, но честно говоря я решил немного отдохнуть и отдых этот - это приведение в порядок личных архивов. Вернее они хоть и личные, но более менее рассортированные большие и малые датасеты, архивы веб-сайтов, изображений, медиа, данных замороженных или не стартовавших проектов, действительно личных файлов и много всего другого.
Но, есть время накапливать данные на любых носителях, а есть время приводить всё в порядок, складывать в NAS, резервировать критичное с защищённом облаке и так далее. Уверен что я не единственный кто занимается подобной уборкой когда есть свободное время.
Что из этого стоит записать на будущее:
1. Всячески избегать большого числа множества схожих, но очень малых файлов. Их архивация - это долго, больно и неправильно. Лучше ещё на этапе их получения/извлечения сразу складывать их в контейнеры вроде архивных файлов (zip, tar), баз данных (sqlite, duckdb) или монтируемых файловых систем вроде veracrypt. Потому что при всех рисках битых секторов, архивация множества мелких файлов очень медленный процесс.
2. Все чувствительные файлы всегда хранить в зашифрованных контейнерах (всё тот же veracrypt поможет). На случай повреждения таких файлов, держать несколько их копий. Вся работа с чувствительными данными также всегда должна быть внутри зашифрованных контейнеров.
3. Правило 3-2-1 для резервных копий очень простое и придумали его не дураки. Придерживаясь его можно избежать наиболее неприятных ситуаций с потерей данных.
4. Файлы веб-архивов неэффективны для сжатия. По умолчанию инструменты работы с WARC файлами поддерживают только если файлы не сжаты или сжаты gzip, а сами файлы вне зависимости от типа хранятся вперемешку. WARC устарел как контейнер, но хранение множества мелких файлов гораздо хуже и сопряжено с потерей метаданных.
5. Документация - это главный технический долг в отношении данных и архивов. Особенно когда восстанавливаешь архивы 20 и более летней давности. Иногда остаётся код с помощью которых данные были получены, иногда первичные данные, иногда даже описание из первоисточника, но полная прослеживаемость есть далеко не всегда.
6. Длинные не-латинизированные имена файлов - это зло. При копировании из NTFS в файловые системы Linux слишком часто возникают ошибки из-за длинных названий файлов на кириллице. Решается это переименованием или помещением файла в контейнер, но тем не менее
Впрочем, все выводы кажутся очевидными и касаются не только личных архивов. А многое требует осмысления как архивными данными работать, какие интерфейсы должны быть доступны. И документация, технический долг документации на данные безбрежен. Трудоёмкость её написания зачастую выше трудоёмкость сбора самих данных, но тут какого-то простого решения не наблюдается.
#datahoarding #thoughts #backups #data
За выходные накопилось очень много что написать, но честно говоря я решил немного отдохнуть и отдых этот - это приведение в порядок личных архивов. Вернее они хоть и личные, но более менее рассортированные большие и малые датасеты, архивы веб-сайтов, изображений, медиа, данных замороженных или не стартовавших проектов, действительно личных файлов и много всего другого.
Но, есть время накапливать данные на любых носителях, а есть время приводить всё в порядок, складывать в NAS, резервировать критичное с защищённом облаке и так далее. Уверен что я не единственный кто занимается подобной уборкой когда есть свободное время.
Что из этого стоит записать на будущее:
1. Всячески избегать большого числа множества схожих, но очень малых файлов. Их архивация - это долго, больно и неправильно. Лучше ещё на этапе их получения/извлечения сразу складывать их в контейнеры вроде архивных файлов (zip, tar), баз данных (sqlite, duckdb) или монтируемых файловых систем вроде veracrypt. Потому что при всех рисках битых секторов, архивация множества мелких файлов очень медленный процесс.
2. Все чувствительные файлы всегда хранить в зашифрованных контейнерах (всё тот же veracrypt поможет). На случай повреждения таких файлов, держать несколько их копий. Вся работа с чувствительными данными также всегда должна быть внутри зашифрованных контейнеров.
3. Правило 3-2-1 для резервных копий очень простое и придумали его не дураки. Придерживаясь его можно избежать наиболее неприятных ситуаций с потерей данных.
4. Файлы веб-архивов неэффективны для сжатия. По умолчанию инструменты работы с WARC файлами поддерживают только если файлы не сжаты или сжаты gzip, а сами файлы вне зависимости от типа хранятся вперемешку. WARC устарел как контейнер, но хранение множества мелких файлов гораздо хуже и сопряжено с потерей метаданных.
5. Документация - это главный технический долг в отношении данных и архивов. Особенно когда восстанавливаешь архивы 20 и более летней давности. Иногда остаётся код с помощью которых данные были получены, иногда первичные данные, иногда даже описание из первоисточника, но полная прослеживаемость есть далеко не всегда.
6. Длинные не-латинизированные имена файлов - это зло. При копировании из NTFS в файловые системы Linux слишком часто возникают ошибки из-за длинных названий файлов на кириллице. Решается это переименованием или помещением файла в контейнер, но тем не менее
Впрочем, все выводы кажутся очевидными и касаются не только личных архивов. А многое требует осмысления как архивными данными работать, какие интерфейсы должны быть доступны. И документация, технический долг документации на данные безбрежен. Трудоёмкость её написания зачастую выше трудоёмкость сбора самих данных, но тут какого-то простого решения не наблюдается.
#datahoarding #thoughts #backups #data
В рубрике как это устроено у них пакет для Python под названием ... Германия, в оригинале deutschland [1] звучит странно, а содержание весьма логично. Этот пакет - это набор функций и классов для доступа к наиболее значимым наборам данных и API Германии. Сами данные предоставляются и API поверх данных и в виде сервисов предоставляются через портал bund.dev [2] где они задокументированы и общедоступны.
А пакет для python выглядит как логичное развитие и дополнение, значительно снижающие порог входа к использованию этих данных.
Заодно можно обратить внимание что чуть ли не основные примеры про работу с геоданными и данными регистра компаний.
Особенность в том что этот проект негосударственный и делается командой активистов.
Ссылки:
[1] https://github.com/bundesAPI/deutschland
[2] https://bund.dev
#germany #data #api #opendata
А пакет для python выглядит как логичное развитие и дополнение, значительно снижающие порог входа к использованию этих данных.
Заодно можно обратить внимание что чуть ли не основные примеры про работу с геоданными и данными регистра компаний.
Особенность в том что этот проект негосударственный и делается командой активистов.
Ссылки:
[1] https://github.com/bundesAPI/deutschland
[2] https://bund.dev
#germany #data #api #opendata
Hugging Face выпустили коллекцию графиков 🤗 Open-source AI: year in review 2024 [1].
Где много всяких визуализаций того как в области AI работают с данными, моделями и не только, а ещё там есть график The Circle of Sharing: How Open Datasets Power AI Innovation [2] где можно увидеть как повторно компаниями используются датасеты выложенные другими компаниями.
Другие графики не менее любопытные.
Ссылки:
[1] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
[2] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
#opendata #ai #dataviz #data
Где много всяких визуализаций того как в области AI работают с данными, моделями и не только, а ещё там есть график The Circle of Sharing: How Open Datasets Power AI Innovation [2] где можно увидеть как повторно компаниями используются датасеты выложенные другими компаниями.
Другие графики не менее любопытные.
Ссылки:
[1] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
[2] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
#opendata #ai #dataviz #data
Полезное чтение про данные, технологии и не только:
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.
Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://time.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf
#databases #datasets #data #dataregulation #trends #readings
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.
Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://time.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf
#databases #datasets #data #dataregulation #trends #readings
Andy Pavlo - Carnegie Mellon University
Databases in 2024: A Year in Review
Andy rises from the ashes of his dead startup and discusses what happened in 2024 in the database game.
В рубрике интересных проектов по работе с данными LOTUS: A semantic query engine for fast and easy LLM-powered data processing [1] движок для обработки данных с помощью LLM поверх Pandas. Принимает на вход человеческим языком описанные конструкции, переводит их в программные операции над датафреймом.
Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].
Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.
Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.
Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.
Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418
#opensource #datatools #dataengineering #data #ai #llm
Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].
Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.
Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.
Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.
Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418
#opensource #datatools #dataengineering #data #ai #llm
GitHub
GitHub - guestrin-lab/lotus: LOTUS: A semantic query engine for fast and easy LLM-powered data processing
LOTUS: A semantic query engine for fast and easy LLM-powered data processing - guestrin-lab/lotus
Сегодня буквально на полчаса была доступна новая версия портала data.gov.ru, но очень быстро снова оказалось закрытой для проведения аттестационных мероприятий.
Даже несколько десятков минут было достаточно чтобы составить впечатление и мне так много что есть сказать об этом, что в короткий формат Telegram канала не уложиться ну никак.
Когда портал "оживёт" я подробно разберу его в рассылке на Substack.
Я ранее там разбирал портал открытых данных Узбекистана, а в телеграм канале писал про особенности портала открытых данных Кыргызстана.
А также несколько раз уже писал про отсутствие портала открытых данных в Казахстане.
Пришла пора и про российский портал рассказать когда (или если?) он оживёт вновь.
#opendata #data #russia #datacatalogs
Даже несколько десятков минут было достаточно чтобы составить впечатление и мне так много что есть сказать об этом, что в короткий формат Telegram канала не уложиться ну никак.
Когда портал "оживёт" я подробно разберу его в рассылке на Substack.
Я ранее там разбирал портал открытых данных Узбекистана, а в телеграм канале писал про особенности портала открытых данных Кыргызстана.
А также несколько раз уже писал про отсутствие портала открытых данных в Казахстане.
Пришла пора и про российский портал рассказать когда (или если?) он оживёт вновь.
#opendata #data #russia #datacatalogs
Про плохие примеры публикации данных, один из давних проектов по открытым данным это платформа Open Data for Africa запущенная в 2011 году [1] Африканским Банком Развития в партнёрстве с компанией Knoema.
С той поры прошло уже 13 лет, практически для каждой африканской страны теперь есть свои порталы на базе этой платформы, например, Либерия [2], Камерун [3], Зимбабве [4] и так далее, их довольно много.
С формальной точки зрения это дата порталы, с каталогами данных, возможностью экспорта данных в CSV, Excel, формат Tableau, с API и так далее. Вроде бы неплохо, но, при этом со множеством недостатков:
1. Объективно это не порталы открытых данных, а порталы статистики, поскольку все опубликованные там данные - это разного рода индикаторы, требующие специальной подготовки перед загрузкой.
2. Поскольку данные там в виде индикаторов, де-факто, их объём очень невелик. По некоторым странам максимум килобайт 10 можно наскрести. Причем слишком часто данные не обновлялись более 10 лет.
3. Многие данные происходят не из стран для которых порталы созданы, а из международных банков данных вроде FAO.
4. У порталов нет удобной выгрузки массовой данных, нужно пройти множество форм чтобы делать экспорт. API плохо документировано, без централизованного описания, нет машиночитаемых каталогов данных и тд.
5. Knoema уже какое-то время не существует как компания, в 2020 году их купили Eldridge [5], а ссылки на их сайте давно неработают, так что и судьбы их платформы мне лично неясна. Больше похоже что её нет, чем то что она есть.
В результате у десятков африканских стран сейчас есть "порталы открытых данных", но качество их сомнительное, данных мало и вся статистика непонятной актуальности, часто редко обновляемые.
При этом почти все африканские страны участвующие в OGP (Open Government Partnership) в своих отчетах пишут что вот мол у нас есть портал открытых данных, посмотрите какой он продвинутый.
Все эти порталы всё ещё отсутствуют в реестре каталогов данных Dateno [6], потому что меня не покидает ощущение что качество их сомнительно. Но, с другой стороны, есть немало примеров куда как хуже, так что может и стоит их добавить.
Ссылки:
[1] https://www.afdb.org/en/news-and-events/afdb-promotes-statistical-development-with-the-launch-of-the-open-data-for-africa-platform-8739
[2] https://liberia.opendataforafrica.org
[3] https://cameroon.opendataforafrica.org
[4] https://zimbabwe.opendataforafrica.org
[5] https://www.businesswire.com/news/home/20201221005152/en/Knoema-Announces-Acquisition-by-Eldridge-and-Partnership-with-Snowflake
[6] https://dateno.io/registry
#opendata #africa #baddata #datacatalogs #data
С той поры прошло уже 13 лет, практически для каждой африканской страны теперь есть свои порталы на базе этой платформы, например, Либерия [2], Камерун [3], Зимбабве [4] и так далее, их довольно много.
С формальной точки зрения это дата порталы, с каталогами данных, возможностью экспорта данных в CSV, Excel, формат Tableau, с API и так далее. Вроде бы неплохо, но, при этом со множеством недостатков:
1. Объективно это не порталы открытых данных, а порталы статистики, поскольку все опубликованные там данные - это разного рода индикаторы, требующие специальной подготовки перед загрузкой.
2. Поскольку данные там в виде индикаторов, де-факто, их объём очень невелик. По некоторым странам максимум килобайт 10 можно наскрести. Причем слишком часто данные не обновлялись более 10 лет.
3. Многие данные происходят не из стран для которых порталы созданы, а из международных банков данных вроде FAO.
4. У порталов нет удобной выгрузки массовой данных, нужно пройти множество форм чтобы делать экспорт. API плохо документировано, без централизованного описания, нет машиночитаемых каталогов данных и тд.
5. Knoema уже какое-то время не существует как компания, в 2020 году их купили Eldridge [5], а ссылки на их сайте давно неработают, так что и судьбы их платформы мне лично неясна. Больше похоже что её нет, чем то что она есть.
В результате у десятков африканских стран сейчас есть "порталы открытых данных", но качество их сомнительное, данных мало и вся статистика непонятной актуальности, часто редко обновляемые.
При этом почти все африканские страны участвующие в OGP (Open Government Partnership) в своих отчетах пишут что вот мол у нас есть портал открытых данных, посмотрите какой он продвинутый.
Все эти порталы всё ещё отсутствуют в реестре каталогов данных Dateno [6], потому что меня не покидает ощущение что качество их сомнительно. Но, с другой стороны, есть немало примеров куда как хуже, так что может и стоит их добавить.
Ссылки:
[1] https://www.afdb.org/en/news-and-events/afdb-promotes-statistical-development-with-the-launch-of-the-open-data-for-africa-platform-8739
[2] https://liberia.opendataforafrica.org
[3] https://cameroon.opendataforafrica.org
[4] https://zimbabwe.opendataforafrica.org
[5] https://www.businesswire.com/news/home/20201221005152/en/Knoema-Announces-Acquisition-by-Eldridge-and-Partnership-with-Snowflake
[6] https://dateno.io/registry
#opendata #africa #baddata #datacatalogs #data
Отличная лекция A Short Summary of the Last Decades of Data Management [1] от Hannes Mühleisen. Она была на GOTO 2024, а я её увидел только сегодня, большая досада, конечно.
Hannes сооснователь DuckDB и большой специалист в проектировании СУБД рассказывает про последние десятилетия эволюции баз данных.
У него, конечно, своё видение вселенной, но он из тех людей к чьему мнению можно прислушаться.
Выводы у него получаются такие:
- таблицы вечны (чтобы там не придумывали с новыми СУБД, всё всё равно сводится к таблицам)
- NoSQL были плохой идеей. В частности, MongoDB и тут очень хочется с ним поспорить, но, не то чтобы в его словах нет резона. Хотя MongoDB до сих пор очень популярная СУБД.
- Реляционные системы съедают почти всё. В общем то мир по прежнему существует как совокупность систем отношений между объектами, почти всё сводится к ним.
- Большие данные мертвы. Это уже новый/старый тезис, его повторяют часто. И часто он сводится к тому что "большие данные это то что ты не можешь обработать на десктопе". Но сейчас есть инструменты позволяющие обрабатывать на десктопах десятки терабайт с терпимой скоростью.
- DuckDB. Ну тут не без саморекламы у него конечно, но DuckDB реально крутой продукт. Я лично рекомендую всем кто только начинает работать с данными начинать с него.
Повторюсь что лекция замечательная, студентам изучающим базы данных будет очень полезна. Для остальных скорее как расширение кругозора и понимания того как устроен мир эволюции СУБД.
Ссылки:
[1] https://www.youtube.com/watch?v=-wCzn9gKoUk
#data #lectures #databases #rdbms
Hannes сооснователь DuckDB и большой специалист в проектировании СУБД рассказывает про последние десятилетия эволюции баз данных.
У него, конечно, своё видение вселенной, но он из тех людей к чьему мнению можно прислушаться.
Выводы у него получаются такие:
- таблицы вечны (чтобы там не придумывали с новыми СУБД, всё всё равно сводится к таблицам)
- NoSQL были плохой идеей. В частности, MongoDB и тут очень хочется с ним поспорить, но, не то чтобы в его словах нет резона. Хотя MongoDB до сих пор очень популярная СУБД.
- Реляционные системы съедают почти всё. В общем то мир по прежнему существует как совокупность систем отношений между объектами, почти всё сводится к ним.
- Большие данные мертвы. Это уже новый/старый тезис, его повторяют часто. И часто он сводится к тому что "большие данные это то что ты не можешь обработать на десктопе". Но сейчас есть инструменты позволяющие обрабатывать на десктопах десятки терабайт с терпимой скоростью.
- DuckDB. Ну тут не без саморекламы у него конечно, но DuckDB реально крутой продукт. Я лично рекомендую всем кто только начинает работать с данными начинать с него.
Повторюсь что лекция замечательная, студентам изучающим базы данных будет очень полезна. Для остальных скорее как расширение кругозора и понимания того как устроен мир эволюции СУБД.
Ссылки:
[1] https://www.youtube.com/watch?v=-wCzn9gKoUk
#data #lectures #databases #rdbms
Полезное чтение про данные, технологии и не только:
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.
Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail
#opendata #data #foi #readings #ai