Я как раз собирался составить очередную подборку интересного чтения про данные и понял что один из текстов стоит упомянуть отдельно и поговорить про него. Это заметка Is Excel immortal? [1] от Benn Stancil. Бэн регулярно пишет интересно про данные, венчурный рынок, стартапы, аналитику и про Excel он пишет очень правильные слова.
Основная мысль которую он доносит в том что Excel вечен и раскрывает её с тем что заменить его сложно и для этого требуется сильное долгосрочное видение и команда которая готова играть в очень длинную дистанцию. Он говорит об этом другими словами, но я лично перевожу их именно так.
Причём тут важна сильная сторона Excel, это сочетание гибкой манипуляции табличными данными, внутреннего языка и формул и (самое главное!) гибкой визуализации.
Даже в самых продвинутых сервисах с визуальной аналитикой, например, продаж и посещаемости, менеджеры скачивают Excel файлы и работают с данными внутри них.
Бэн упоминает замену в виде Tableau, но Tableau не поставляется по умолчанию на почти все десктопы и у него отсутствует (?) сильный инструмент по операциями с данными. Странно что при этом он не упоминает PowerBI от MS.
Но в, самом деле, какой может быть замена Excel к 2075 году?
Лично я много что перепробовал в своей жизни:
- Airtable для ведения таблиц онлайн. Скорее онлайн замена MS Access, непомерно дорогая при коммерческом использовании, удобная при личном, но
- OpenRefine для того что называют data wrangling. Он заменяет Excel в задачах визуальной чистки данных.
- PowerBI для визуализации данных, но, признаюсь, в простых задачах Excel удобнее
Что печально, продуктов с открытым кодом для таких задач маловато. Но и коммерческие продукты пока не тянут что-то кроме ограниченных задач.
Обратите внимание, что обычно Excel'ю противопоставляют LibreOffice/OpenOffice, но я лично считаю что времена такого сравнения давно прошли. LibreOffice/OpenOffice обладает очень ограниченными функциями визуализации и манипуляции с данными.
Каким может быть Excel будущего?
1) Разделение данных и представления. Таблицы с данными в embedded базе, а ля DuckDB или SQlite, а разметка в гипертексте, может быть на основе одного из существующих стандартов.
2) Разделение визуализации и представления. Звучит странно, но это как с данными. Визуализация строится на основе одного из будущих стандартов описания дашбордов, а разметка это как накладываемые на неё стили.
3) Облачная синхронизация, но local-first.
4) Отсутствие ограничений на объёмы хранимых данных
5) Типизация вкладок. Сейчас когда в Excel готовят данные некоторые вкладки - это таблицы, а другие это тексты с пояснениями к ним и третьи - это формы. Нужны вкладки которые останутся дата таблицами, вкладки заметок, вкладки форм и вкладки аля markdown notebooks
Что можно добавить?
Ссылки:
[1] https://benn.substack.com/p/is-excel-immortal
#thoughts #excel #data #datatools
Основная мысль которую он доносит в том что Excel вечен и раскрывает её с тем что заменить его сложно и для этого требуется сильное долгосрочное видение и команда которая готова играть в очень длинную дистанцию. Он говорит об этом другими словами, но я лично перевожу их именно так.
Причём тут важна сильная сторона Excel, это сочетание гибкой манипуляции табличными данными, внутреннего языка и формул и (самое главное!) гибкой визуализации.
Даже в самых продвинутых сервисах с визуальной аналитикой, например, продаж и посещаемости, менеджеры скачивают Excel файлы и работают с данными внутри них.
Бэн упоминает замену в виде Tableau, но Tableau не поставляется по умолчанию на почти все десктопы и у него отсутствует (?) сильный инструмент по операциями с данными. Странно что при этом он не упоминает PowerBI от MS.
Но в, самом деле, какой может быть замена Excel к 2075 году?
Лично я много что перепробовал в своей жизни:
- Airtable для ведения таблиц онлайн. Скорее онлайн замена MS Access, непомерно дорогая при коммерческом использовании, удобная при личном, но
- OpenRefine для того что называют data wrangling. Он заменяет Excel в задачах визуальной чистки данных.
- PowerBI для визуализации данных, но, признаюсь, в простых задачах Excel удобнее
Что печально, продуктов с открытым кодом для таких задач маловато. Но и коммерческие продукты пока не тянут что-то кроме ограниченных задач.
Обратите внимание, что обычно Excel'ю противопоставляют LibreOffice/OpenOffice, но я лично считаю что времена такого сравнения давно прошли. LibreOffice/OpenOffice обладает очень ограниченными функциями визуализации и манипуляции с данными.
Каким может быть Excel будущего?
1) Разделение данных и представления. Таблицы с данными в embedded базе, а ля DuckDB или SQlite, а разметка в гипертексте, может быть на основе одного из существующих стандартов.
2) Разделение визуализации и представления. Звучит странно, но это как с данными. Визуализация строится на основе одного из будущих стандартов описания дашбордов, а разметка это как накладываемые на неё стили.
3) Облачная синхронизация, но local-first.
4) Отсутствие ограничений на объёмы хранимых данных
5) Типизация вкладок. Сейчас когда в Excel готовят данные некоторые вкладки - это таблицы, а другие это тексты с пояснениями к ним и третьи - это формы. Нужны вкладки которые останутся дата таблицами, вкладки заметок, вкладки форм и вкладки аля markdown notebooks
Что можно добавить?
Ссылки:
[1] https://benn.substack.com/p/is-excel-immortal
#thoughts #excel #data #datatools
benn.substack
Is Excel immortal?
It might not just be immortal; it might be the most immortal thing of all.
Группа крупных лэйблов хотят засудить [1] интернет-архив Archive.org за оцифровку старых аудиозаписей. Казалось бы что такого, но сумма иска составляет $621 миллион и, если он реализуется, то интернет архив просто исчезнет.
Хочется надеяться что Интернет архив от иска отобьётся потому что альтернатив ему нет. Это уникальный проект, при этом сильно недофинансированный.
Ссылки:
[1] https://www.rollingstone.com/music/music-features/internet-archive-major-label-music-lawsuit-1235105273/
#digitalpreservation #archives
Хочется надеяться что Интернет архив от иска отобьётся потому что альтернатив ему нет. Это уникальный проект, при этом сильно недофинансированный.
Ссылки:
[1] https://www.rollingstone.com/music/music-features/internet-archive-major-label-music-lawsuit-1235105273/
#digitalpreservation #archives
Rolling Stone
Inside the $621 Million Legal Battle for the ‘Soul of the Internet’
Major record labels have sued the Internet Archive for $621 million over thousands of old recordings, raising the question: Who owns the past?
Подборка ссылок про данные, технологии и не только:
- The Open Data Editor is now ready for the pilot phase [1] обновлённый редактор для подготовки датасетов готов для тестирования, полезный инструмент для всех кто публикует данные с помощью CKAN
- To Be Born in a Bag [2] о исследованиях в разработки искусственной матки и возможностью создавать живых существ искусственным образом. Напоминает воплощение научной фантастики из серии книг Лоис Буджолд. А заодно и там же про создание мамонтов искусственным образом
- DuckDB foundation [3] один из успехов DuckDB в том что это фонд успешно взаимодействующий с несколькими компаниями контрибьюторами. Полезное чтение про успешную модель существования открытого кода.
- The Disappearance of an Internet Domain [4] Великобритания отказывается от суверенитета над островами Чагос и передаёт их Маврикию. Что такое острова Чагос? Это доменная зона .io. Автор рассуждает о его судьбе.
- The Prosopography of Anglo-Saxon England (PASE) [5] онлайн база данных всех британцев как-либо упомянутых в литературных источниках с 6 по 11 века нашей эры. Почти 20 тысяч персон
- Bots, so many Bots [6] боты составляют более 60% из 1 миллиона пользователей ProductHunt. А если говорить о других социальных площадках, то и там ботов всё больше. В какой-то момент должен будет возникнуть перелом когда такие площадки станут бесполезными.
- DatAasee - A Metadata-Lake for Libraries [7] научная статья и открытый код [8] каталога метаданных и озера данных для библиотек.
Ссылки:
[1] https://blog.okfn.org/2024/10/02/the-open-data-editor-is-now-ready-for-the-pilot-phase/
[2] https://press.asimov.com/articles/artificial-wombs
[3] https://davidsj.substack.com/p/foundation
[4] https://every.to/p/the-disappearance-of-an-internet-domain
[5] https://pase.ac.uk/pase/
[6] https://wakatime.com/blog/67-bots-so-many-bots
[7] https://www.semanticscholar.org/reader/7166be7af2fd4bc9cf73d19f076180d9ca83b029
[8] https://github.com/ulbmuenster/dataasee
#opendata #data #tech #dataengineering
- The Open Data Editor is now ready for the pilot phase [1] обновлённый редактор для подготовки датасетов готов для тестирования, полезный инструмент для всех кто публикует данные с помощью CKAN
- To Be Born in a Bag [2] о исследованиях в разработки искусственной матки и возможностью создавать живых существ искусственным образом. Напоминает воплощение научной фантастики из серии книг Лоис Буджолд. А заодно и там же про создание мамонтов искусственным образом
- DuckDB foundation [3] один из успехов DuckDB в том что это фонд успешно взаимодействующий с несколькими компаниями контрибьюторами. Полезное чтение про успешную модель существования открытого кода.
- The Disappearance of an Internet Domain [4] Великобритания отказывается от суверенитета над островами Чагос и передаёт их Маврикию. Что такое острова Чагос? Это доменная зона .io. Автор рассуждает о его судьбе.
- The Prosopography of Anglo-Saxon England (PASE) [5] онлайн база данных всех британцев как-либо упомянутых в литературных источниках с 6 по 11 века нашей эры. Почти 20 тысяч персон
- Bots, so many Bots [6] боты составляют более 60% из 1 миллиона пользователей ProductHunt. А если говорить о других социальных площадках, то и там ботов всё больше. В какой-то момент должен будет возникнуть перелом когда такие площадки станут бесполезными.
- DatAasee - A Metadata-Lake for Libraries [7] научная статья и открытый код [8] каталога метаданных и озера данных для библиотек.
Ссылки:
[1] https://blog.okfn.org/2024/10/02/the-open-data-editor-is-now-ready-for-the-pilot-phase/
[2] https://press.asimov.com/articles/artificial-wombs
[3] https://davidsj.substack.com/p/foundation
[4] https://every.to/p/the-disappearance-of-an-internet-domain
[5] https://pase.ac.uk/pase/
[6] https://wakatime.com/blog/67-bots-so-many-bots
[7] https://www.semanticscholar.org/reader/7166be7af2fd4bc9cf73d19f076180d9ca83b029
[8] https://github.com/ulbmuenster/dataasee
#opendata #data #tech #dataengineering
Open Knowledge Foundation blog
The Open Data Editor is now ready for the pilot phase
This week saw the release of version 1.1.0 of the Open Data Editor (ODE), the new Open Knowledge Foundation's app that makes it easier for people with little to no technical skills to work with data. The app is now ready to enter a crucial phase of user testing.
Симпатичный жанр NO SLIDES, выступления без презентаций и одноимённая конференция [1] где нет презентаций в виде слайдов, только прямая речь и демонстрация экрана. А также таблица с выступлениями прошедшей конференции со ссылками на видеозаписи на Youtube [2]. Почти всё про данные и про аналитику, есть немало интересного что посмотреть.
Но самое главное жанр, я вот лично им не владею в достаточной мере, у меня вместо этого буквально тысячи слайдов. Даже при том что я начиная с ковида сильно снизил публичную активность с выступлениями, но жанр NO SLIDES пробовал всего 3-4 раза за свою жизнь.
Ссылки:
[1] https://noslides.wtf/conference
[2] https://docs.google.com/spreadsheets/d/1Wx6S3qUjjSuK-VX2tkoydTZGb1LzcYnht4N_WkBwApI/edit?ref=blef.fr&gid=0#gid=0
#thoughts #presentations #conferences
Но самое главное жанр, я вот лично им не владею в достаточной мере, у меня вместо этого буквально тысячи слайдов. Даже при том что я начиная с ковида сильно снизил публичную активность с выступлениями, но жанр NO SLIDES пробовал всего 3-4 раза за свою жизнь.
Ссылки:
[1] https://noslides.wtf/conference
[2] https://docs.google.com/spreadsheets/d/1Wx6S3qUjjSuK-VX2tkoydTZGb1LzcYnht4N_WkBwApI/edit?ref=blef.fr&gid=0#gid=0
#thoughts #presentations #conferences
noslides.wtf
NOSLIDES | Conference
NOSLIDES Conference
Forwarded from Национальный цифровой архив
У Интернет-архива (archive.org) произошла крупнейшая утечка данных базы из 31 миллиона их пользователей [1]. Пока неизвестно украдены ли ещё какие-либо данные. Известно только что долгое время Интернет-архив был под DDoS атакой и регулярно был недоступен.
В любом случае если если у Вас есть аккаунт в Интернет-архиве, то имеет смысл сменить в нём пароль, а также если предыдущий пароль Вы использовали где-либо ещё, то сменить его в этих сервисах.
Ссылки:
[1] https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/
#security #internetarchive #databreach
В любом случае если если у Вас есть аккаунт в Интернет-архиве, то имеет смысл сменить в нём пароль, а также если предыдущий пароль Вы использовали где-либо ещё, то сменить его в этих сервисах.
Ссылки:
[1] https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/
#security #internetarchive #databreach
BleepingComputer
Internet Archive hacked, data breach impacts 31 million users
Internet Archive's "The Wayback Machine" has suffered a data breach after a threat actor compromised the website and stole a user authentication database containing 31 million unique records.
Полезное чтение про данные, технологии и не только:
- Unlocking AI for All: The Case for Public Data Banks [1] о том что для развития экосистемы ИИ нужны public AI data banks (PAIDs), каталоги данных доступных для исследователей и среднего/малого бизнеса. Мысли здравые и даже примеры близкие, но автор явно далёк от некоторых областей работы с данными иначе знал бы более релевантные примеры. В любом случае идея актуальная ещё надолго.
- China: Autocracy 2.0 [2] структуризация экономической и политической политики Китая с оглядкой на его автократическую модель. Что-то кажется очевидным, что-то не так очевидным, но всё вместе неплохо описано.
- Climate and Health Outcomes Research Data Systems (CHORDS) [3] проект и каталог данных о влиянии окружающей среды на здоровье человека. Каталог данных скорее выглядит как агрегатор ссылок на академические репозитории, но всё неплохо организовано. Подробный рассказ про инициативу [4] и, что любопытно, внутри него ранее не встречавшийся мне продукт каталога данных Gen3 Data Commons [5]
- Need for Co-creating Urban Data Collaborative [6] про инициативы по открытости данных в Индии на уровне городов и вовлечение граждан в создание данных. Много интересного о том что там происходит, из любопытного, у них есть DMAF (Data Maturity Assessment Framework) [7] для оценки зрелости работы с данными в индийских городах и результаты оценки и дашборд по 100 городам [8]
- Report – Improving Governance Outcomes Through AI Documentation: Bridging Theory and Practice [9] доклад о необходимости и влиянии документированности AI моделей на их управляемость
Ссылки:
[1] https://www.lawfaremedia.org/article/unlocking-ai-for-all--the-case-for-public-data-banks
[2] https://www.nber.org/papers/w32993
[3] https://niehs.github.io/chords_landing/index.html
[4] https://factor.niehs.nih.gov/2024/8/science-highlights/climate-health-data
[5] https://gen3.org/products/data-commons/
[6] https://medium.com/civicdatalab/need-for-co-creating-urban-data-collaboratives-1ab9bc2c0776
[7] https://dmaf.mohua.gov.in/
[8] https://amplifi.mohua.gov.in/dmaf-dashboard
[9] https://cdt.org/insights/report-improving-governance-outcomes-through-ai-documentation-bridging-theory-and-practice/
#data #opendata #ai #india #china #healthcare #openaccess #datapolicy
- Unlocking AI for All: The Case for Public Data Banks [1] о том что для развития экосистемы ИИ нужны public AI data banks (PAIDs), каталоги данных доступных для исследователей и среднего/малого бизнеса. Мысли здравые и даже примеры близкие, но автор явно далёк от некоторых областей работы с данными иначе знал бы более релевантные примеры. В любом случае идея актуальная ещё надолго.
- China: Autocracy 2.0 [2] структуризация экономической и политической политики Китая с оглядкой на его автократическую модель. Что-то кажется очевидным, что-то не так очевидным, но всё вместе неплохо описано.
- Climate and Health Outcomes Research Data Systems (CHORDS) [3] проект и каталог данных о влиянии окружающей среды на здоровье человека. Каталог данных скорее выглядит как агрегатор ссылок на академические репозитории, но всё неплохо организовано. Подробный рассказ про инициативу [4] и, что любопытно, внутри него ранее не встречавшийся мне продукт каталога данных Gen3 Data Commons [5]
- Need for Co-creating Urban Data Collaborative [6] про инициативы по открытости данных в Индии на уровне городов и вовлечение граждан в создание данных. Много интересного о том что там происходит, из любопытного, у них есть DMAF (Data Maturity Assessment Framework) [7] для оценки зрелости работы с данными в индийских городах и результаты оценки и дашборд по 100 городам [8]
- Report – Improving Governance Outcomes Through AI Documentation: Bridging Theory and Practice [9] доклад о необходимости и влиянии документированности AI моделей на их управляемость
Ссылки:
[1] https://www.lawfaremedia.org/article/unlocking-ai-for-all--the-case-for-public-data-banks
[2] https://www.nber.org/papers/w32993
[3] https://niehs.github.io/chords_landing/index.html
[4] https://factor.niehs.nih.gov/2024/8/science-highlights/climate-health-data
[5] https://gen3.org/products/data-commons/
[6] https://medium.com/civicdatalab/need-for-co-creating-urban-data-collaboratives-1ab9bc2c0776
[7] https://dmaf.mohua.gov.in/
[8] https://amplifi.mohua.gov.in/dmaf-dashboard
[9] https://cdt.org/insights/report-improving-governance-outcomes-through-ai-documentation-bridging-theory-and-practice/
#data #opendata #ai #india #china #healthcare #openaccess #datapolicy
Default
Unlocking AI for All: The Case for Public Data Banks
Public AI data banks could democratize access to data, reducing Big Tech’s dominance and fostering innovation in AI.
Пишут что PostgreSQL 17 может заменить NoSQL базы данных [1] потому что умеет грузить безсхемные JSON документы и обзавёлся несколькими функциями для работы с JSON документами. Новости прекрасная, если там всё так хорошо как описано, то это есть на чём проверить, очень хочется качественного сравнения с MongoDB и другими NoSQL СУБД построенными по модели хранения документов (MongoDB, ArangoDB и др), а также поисковые СУБД вроде Elastic, Meilisearch и тд.
Во многих СУБД есть поддержка JSON, но они оказываются весьма придирчивы к содержанию загружаемых документов. Потому и интересно как это сейчас в PostgreSQL.
И, в дополнение, полезный текст Postgres is eating the database world [2] о том как PostgreSQL вырос в мощную экосистему за последние годы.
Ссылки:
[1] https://www.linkedin.com/posts/mehd-io_the-last-release-of-postgresql-17-silently-activity-7250122811581640706-RLBD
[2] https://medium.com/@fengruohang/postgres-is-eating-the-database-world-157c204dcfc4
#data #opensource #postgresql
Во многих СУБД есть поддержка JSON, но они оказываются весьма придирчивы к содержанию загружаемых документов. Потому и интересно как это сейчас в PostgreSQL.
И, в дополнение, полезный текст Postgres is eating the database world [2] о том как PostgreSQL вырос в мощную экосистему за последние годы.
Ссылки:
[1] https://www.linkedin.com/posts/mehd-io_the-last-release-of-postgresql-17-silently-activity-7250122811581640706-RLBD
[2] https://medium.com/@fengruohang/postgres-is-eating-the-database-world-157c204dcfc4
#data #opensource #postgresql
SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL [1] научная статья от исследователей Google про GoogleSQL. Особенность в том что это не альтернативный новый язык, а именно специальный диалект для удобного написания конвейеров и так называемого pipe syntax для SQL.
GoogleSQL уже реализован во многих их продуктах вроде BigQuery, F1 и ZetaSQL [2]
Ссылки:
[1] https://research.google/pubs/sql-has-problems-we-can-fix-them-pipe-syntax-in-sql/
[2] https://github.com/google/zetasql
#google #sql #datatools #data
GoogleSQL уже реализован во многих их продуктах вроде BigQuery, F1 и ZetaSQL [2]
Ссылки:
[1] https://research.google/pubs/sql-has-problems-we-can-fix-them-pipe-syntax-in-sql/
[2] https://github.com/google/zetasql
#google #sql #datatools #data
Со стороны и не скажешь, но всю жизнь я лично был большим фанатом командной строки. Потому что печатать быстрее и удобнее чем кликать в интерфейсе, а визуальное растровое отображение элементов интерфейса нужно, на самом деле, очень редко.
Тем больше меня радует начавшийся ренессанс TUI (Text User Interface) приложений, в виде командной строки или в виде интерактивных, но текстовых, инструментов которые можно запускать локально или на терминале.
Поэтому подборка полезного open source с командной строкой и TUI:
- stu [1] текстовый навигатор (TUI) для корзин s3. Удобно для тех кто любит командную строку и работу с серверами через терминал. Работает на базе движка ratatui [2] для Rust, помогающего быстро создавать текстовые приложения.
- csvlens [3] ещё одна утилита с текстовым интерфейсом для манипуляции с CSV файлами. Тоже на базе ratatui. Кстати, стоит посмотреть галерею других TUI приложения, там много полезного [4]
- goaccess [5] текстовый интерфейс для анализатора логов веб сервера в реальном времени.
- visidata [6] текстовый интерфейс для просмотра табличных данных в разных форматах
- htop [7] альтернатива top, монитору процессов для Unix.
Ссылки:
[1] https://github.com/lusingander/stu
[2] https://github.com/ratatui/ratatui
[3] https://github.com/YS-L/csvlens
[4] https://ratatui.rs/showcase/apps/
[5] https://github.com/allinurl/goaccess
[6] https://github.com/saulpw/visidata
[7] https://github.com/htop-dev/htop/
#cli #commandline #opensource #tools #datatools
Тем больше меня радует начавшийся ренессанс TUI (Text User Interface) приложений, в виде командной строки или в виде интерактивных, но текстовых, инструментов которые можно запускать локально или на терминале.
Поэтому подборка полезного open source с командной строкой и TUI:
- stu [1] текстовый навигатор (TUI) для корзин s3. Удобно для тех кто любит командную строку и работу с серверами через терминал. Работает на базе движка ratatui [2] для Rust, помогающего быстро создавать текстовые приложения.
- csvlens [3] ещё одна утилита с текстовым интерфейсом для манипуляции с CSV файлами. Тоже на базе ratatui. Кстати, стоит посмотреть галерею других TUI приложения, там много полезного [4]
- goaccess [5] текстовый интерфейс для анализатора логов веб сервера в реальном времени.
- visidata [6] текстовый интерфейс для просмотра табличных данных в разных форматах
- htop [7] альтернатива top, монитору процессов для Unix.
Ссылки:
[1] https://github.com/lusingander/stu
[2] https://github.com/ratatui/ratatui
[3] https://github.com/YS-L/csvlens
[4] https://ratatui.rs/showcase/apps/
[5] https://github.com/allinurl/goaccess
[6] https://github.com/saulpw/visidata
[7] https://github.com/htop-dev/htop/
#cli #commandline #opensource #tools #datatools
GitHub
GitHub - lusingander/stu: TUI explorer application for Amazon S3 (AWS S3) 🪣
TUI explorer application for Amazon S3 (AWS S3) 🪣. Contribute to lusingander/stu development by creating an account on GitHub.
Еврокомиссия 24 сентября запустила Public Procurement Data Space (PPDS) [1] инициативу по интеграции данных о государственных закупках в странах Евросоюза. Инициатива эта является продолжением и развитием Европейской стратегии данных (European strategy for data) [2] от 2020 года где тематика доступности данных о закупках была явно обозначена.
Из любопытного:
1. В основе технологий PPDS лежит онтология eProcurement Ontology (ePO) [3] и технологии Knowledge Graphs с реализацией аналитической базы данных с интерфейсом SPARQL
2. У проекта есть открытые репозитории, в основном с проверка
ми качества данных и индикаторами [4]
3. А также они в открытый доступ отдают дашборды с оценками качества данных [5], реализованы дашборды на Superset
Собственно чего в PPDS пока нехватает - это самих данных, систематизированных и пригодных для автоматической загрузки и обработки.
Ссылки:
[1] https://www.public-procurement-data-space.europa.eu/en
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52020DC0066
[3] https://docs.ted.europa.eu/EPO/latest/index.html
[4] https://eproc.pages.code.europa.eu/ppds/pages/
[5] https://www.public-procurement-data-space.europa.eu/en/dashboards
#opendata #europe #procurement #data #datasets
Из любопытного:
1. В основе технологий PPDS лежит онтология eProcurement Ontology (ePO) [3] и технологии Knowledge Graphs с реализацией аналитической базы данных с интерфейсом SPARQL
2. У проекта есть открытые репозитории, в основном с проверка
ми качества данных и индикаторами [4]
3. А также они в открытый доступ отдают дашборды с оценками качества данных [5], реализованы дашборды на Superset
Собственно чего в PPDS пока нехватает - это самих данных, систематизированных и пригодных для автоматической загрузки и обработки.
Ссылки:
[1] https://www.public-procurement-data-space.europa.eu/en
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52020DC0066
[3] https://docs.ted.europa.eu/EPO/latest/index.html
[4] https://eproc.pages.code.europa.eu/ppds/pages/
[5] https://www.public-procurement-data-space.europa.eu/en/dashboards
#opendata #europe #procurement #data #datasets
В рубрике как это устроено у них текст How to build a National Data Library [1] в блоге Open Data Institute о создании Национальной библиотеки данных в Великобритании.
Национальная библиотека данных - это инициатива по созданию и предоставлению особо ценных данных исследователям и стартапам и с акцентом на их применение в задачах создания и развития AI. Open Data Institute ещё месяц назад публиковали первоначальное видение этой инициативы [2].
Кроме того National Data Library упомянута в манифесте Лейбористов [3], нынешней правящей партии как часть их экономической программы.
Сама инициатива более напоминает современную реализацию исследовательского портала данных для ИИ, по модели аналогичного корейского проекта и похожих проектов в ряде других стран. А упоминание библиотеки это, на самом деле, отсылка к Британской библиотеке, так сказать "British Library for Data".
Проект всё ещё на стадии проектирования и есть разные варианты его реализации, но можно обратить внимание на приоритеты в его создании в виде научного и экономического эффекта. Иначе говоря такой проект может содержать немного открытых данных, но создаваться с прицелом на академическую аудиторию.
В Великобритании есть как минимум две похожие инициативы. Первая - это UK Biobank с данными по здравоохранению и вторая UK Data Archive с данными по экономике и социальным наукам.
Ссылки:
[1] https://theodi.org/news-and-events/blog/how-to-build-a-national-data-library/
[2] https://theodi.org/news-and-events/consultation-responses/the-odis-input-to-the-ai-action-plan-an-ai-ready-national-data-library/
[3] https://labour.org.uk/change/kickstart-economic-growth/
#opendata #data #uk #datapolicy #datastrategy
Национальная библиотека данных - это инициатива по созданию и предоставлению особо ценных данных исследователям и стартапам и с акцентом на их применение в задачах создания и развития AI. Open Data Institute ещё месяц назад публиковали первоначальное видение этой инициативы [2].
Кроме того National Data Library упомянута в манифесте Лейбористов [3], нынешней правящей партии как часть их экономической программы.
Сама инициатива более напоминает современную реализацию исследовательского портала данных для ИИ, по модели аналогичного корейского проекта и похожих проектов в ряде других стран. А упоминание библиотеки это, на самом деле, отсылка к Британской библиотеке, так сказать "British Library for Data".
Проект всё ещё на стадии проектирования и есть разные варианты его реализации, но можно обратить внимание на приоритеты в его создании в виде научного и экономического эффекта. Иначе говоря такой проект может содержать немного открытых данных, но создаваться с прицелом на академическую аудиторию.
В Великобритании есть как минимум две похожие инициативы. Первая - это UK Biobank с данными по здравоохранению и вторая UK Data Archive с данными по экономике и социальным наукам.
Ссылки:
[1] https://theodi.org/news-and-events/blog/how-to-build-a-national-data-library/
[2] https://theodi.org/news-and-events/consultation-responses/the-odis-input-to-the-ai-action-plan-an-ai-ready-national-data-library/
[3] https://labour.org.uk/change/kickstart-economic-growth/
#opendata #data #uk #datapolicy #datastrategy
The ODI
How to build a National Data Library
Discover what a National Data Library should look like, and how to ensure it works for government, industry, research and society.
Forwarded from Open Data Armenia
Находка в нашем каталоге. Своими данными по различным категориям сделок делится Армянская фондовая биржа, хоть и только в xlsx и с подписью "все права защищены". Данные доступны для скачивания на английском и армянском, но во многих случаях только за последний год, а то и меньше.
Не забывайте делиться с нами интересными данными, связанными с Арменией!
Не забывайте делиться с нами интересными данными, связанными с Арменией!
В рубрике интересных больших наборов данных
Open Buildings 2.5D Temporal Dataset [1] от команды Google Research. Отражает изменения в наличии зданий, их высоте и другим показателям по странам Африки, Южной Азии, Юго-Восточной Азии, Латинской Америки и Карибов за 2016-2023 годы.
О нём же подробнее в блоге Google Research [2].
А также можно увидеть его сразу на карте [3]
Применений видится множество, в первую очередь - это прослеживание урбанизации/деурбанизации, мониторинг корреляции изменений с глобальными событиями (землетрясениями, пандемиями, засухами, миграцией, войнами и тд.)
Ссылки:
[1] https://sites.research.google/gr/open-buildings/temporal/
[2] https://research.google/blog/open-buildings-25d-temporal-dataset-tracks-building-changes-across-the-global-south/
[3] https://mmeka-ee.projects.earthengine.app/view/open-buildings-temporal-dataset
#opendata #datasets #spatialdata #geodata #google #googleearth
Open Buildings 2.5D Temporal Dataset [1] от команды Google Research. Отражает изменения в наличии зданий, их высоте и другим показателям по странам Африки, Южной Азии, Юго-Восточной Азии, Латинской Америки и Карибов за 2016-2023 годы.
О нём же подробнее в блоге Google Research [2].
А также можно увидеть его сразу на карте [3]
Применений видится множество, в первую очередь - это прослеживание урбанизации/деурбанизации, мониторинг корреляции изменений с глобальными событиями (землетрясениями, пандемиями, засухами, миграцией, войнами и тд.)
Ссылки:
[1] https://sites.research.google/gr/open-buildings/temporal/
[2] https://research.google/blog/open-buildings-25d-temporal-dataset-tracks-building-changes-across-the-global-south/
[3] https://mmeka-ee.projects.earthengine.app/view/open-buildings-temporal-dataset
#opendata #datasets #spatialdata #geodata #google #googleearth
Data Pond (Пруд данных) - это как data lake, но поменьше. На последнем DuckCon интересное выступление спикера из Fivetran о том как они делали озеро данных на DuckDB [1] и в блоге проекта dlthub рассуждения его основателя про portable data lake [2], а по сути это и есть data pond о чём автор и пишет. Если не обращать внимание на желание делать его именно на dlthub, в остальном такие задачи потребности реально есть.
Бывает что быстро надо развернуть инфраструктуру для хранения и обработки условно небольших данных, до нескольких десятков гигабайт и применять его в среде разработки.
А вообще термин этот хоть и не устоявшийся, но совсем не новый. А вот хорошего простого технического воплощения мне ещё не попадалось.
Ссылки:
[1] https://www.youtube.com/watch?v=I1JPB36FBOo
[2] https://dlthub.com/blog/portable-data-lake
#datatools #data #opensource
Бывает что быстро надо развернуть инфраструктуру для хранения и обработки условно небольших данных, до нескольких десятков гигабайт и применять его в среде разработки.
А вообще термин этот хоть и не устоявшийся, но совсем не новый. А вот хорошего простого технического воплощения мне ещё не попадалось.
Ссылки:
[1] https://www.youtube.com/watch?v=I1JPB36FBOo
[2] https://dlthub.com/blog/portable-data-lake
#datatools #data #opensource
YouTube
Building Data Lake Using DuckDB (DuckCon #4, Amsterdam, 2024)
Speaker: Subash Roul (Fivetran)
Slides: https://blobs.duckdb.org/events/duckcon4/subash-roul-building-a-data-lake-solution-using-duckdb.pdf
Slides: https://blobs.duckdb.org/events/duckcon4/subash-roul-building-a-data-lake-solution-using-duckdb.pdf
Вот прям очень интересное исследование от Сбериндекса со многих точек зрения, но главное - это взгляд на проблемы работы с муниципальными данными
#analytics #opendata
#analytics #opendata
Forwarded from Путеводитель по док.политике
Анализ российских данных на внутрирегиональном уровне осложняется изменениями границ муниципальных образований, изменениями их типов, названий и кодов ОКТМО.
С 2018 по 2024 гг. изменилась муниципальная структура более 40 регионов:
◽️ есть регионы, где все муниципалитеты меняли свои типы - Магаданская и Курганская области, Ставропольский край, ЯНАО, Удмуртия и др.;
◽️есть регионы, где было большое количество изменений границ - Московская область, Пермский край и др. - около 3% муниципалитетов России в 17 регионах.
Масштаб изменений сильно осложняет сбор панельных данных по муниципалитетам. При этом процесс преобразований не прекращается. Но удобных открытых машиночитаемых данных о таких преобразованиях нет.
Поэтому мы собрали базу данных об изменениях муниципалитетов и их границ, теперь можно:
🔸прочитать в статье на habr о проблемах данных на муниципальном уровне и как мы собрали и объединили данные из Росстата и OpenStreetMap;
🔸скачать с сайта СберИндекса версионный справочник муниципальных образований и пространственный слой с границами муниципалитетов с 2018 г.
Эта информация может помочь:
◽️ геоаналитикам, заинтересованным в данных о границах муниципальных образований
◽️исследователям, которые работают с муниципальными данными
◽️при проектировании БДПМО 2.0. Росстата
С 2018 по 2024 гг. изменилась муниципальная структура более 40 регионов:
◽️ есть регионы, где все муниципалитеты меняли свои типы - Магаданская и Курганская области, Ставропольский край, ЯНАО, Удмуртия и др.;
◽️есть регионы, где было большое количество изменений границ - Московская область, Пермский край и др. - около 3% муниципалитетов России в 17 регионах.
Масштаб изменений сильно осложняет сбор панельных данных по муниципалитетам. При этом процесс преобразований не прекращается. Но удобных открытых машиночитаемых данных о таких преобразованиях нет.
Поэтому мы собрали базу данных об изменениях муниципалитетов и их границ, теперь можно:
🔸прочитать в статье на habr о проблемах данных на муниципальном уровне и как мы собрали и объединили данные из Росстата и OpenStreetMap;
🔸скачать с сайта СберИндекса версионный справочник муниципальных образований и пространственный слой с границами муниципалитетов с 2018 г.
Эта информация может помочь:
◽️ геоаналитикам, заинтересованным в данных о границах муниципальных образований
◽️исследователям, которые работают с муниципальными данными
◽️при проектировании БДПМО 2.0. Росстата