В рубрике как это устроено у них Национальная служба сельскохозяйственной статистики США (NASS) [1] собирает и раскрывает данные по сельскохозяйственным территориям, урожаю, демографии, экономике и иным предметам статистического наблюдения по всей территории США с детализацией до отдельных графств, аналог муниципалитетов.
Все данные доступны, как классическим образом, в форме таблиц и построителя запросов, так и с возможностью получить базу статистики сразу и целиком в виде нескольких файлов общим объёмом в 3GB в сжатом виде, актуализируемых ежесуточно.
А также доступ организован через API системы Quick Stats где нужные данные можно получить быстро и в формате JSON. [3]
Дополнительно эти данные распространяются в виде геопространственных данных через несколько картографических сервисов [4]
Ссылки:
[1] https://www.nass.usda.gov
[2] https://www.nass.usda.gov/datasets/
[3] https://quickstats.nass.usda.gov/api
[4] https://croplandcros.scinet.usda.gov/
#opendata #usa #statistics #agriculture #datasets
Все данные доступны, как классическим образом, в форме таблиц и построителя запросов, так и с возможностью получить базу статистики сразу и целиком в виде нескольких файлов общим объёмом в 3GB в сжатом виде, актуализируемых ежесуточно.
А также доступ организован через API системы Quick Stats где нужные данные можно получить быстро и в формате JSON. [3]
Дополнительно эти данные распространяются в виде геопространственных данных через несколько картографических сервисов [4]
Ссылки:
[1] https://www.nass.usda.gov
[2] https://www.nass.usda.gov/datasets/
[3] https://quickstats.nass.usda.gov/api
[4] https://croplandcros.scinet.usda.gov/
#opendata #usa #statistics #agriculture #datasets
В рубрике как это устроено у них TERN Data Discovery Portal [1] в Австралии, портал открытых исследовательских данных созданный в рамках проекта Terrestrial Ecosystem Research Network на базе Университета Квинсленда и поддерживаемый в рамках National Collaborative Research Infrastructure Strategy.
На портале не так много данных как на других государственных порталах данных страны, всего 2724 набора данных, но важное его отличие - это проработка профиля метаданных, высокое качество описания всех датасетов и их доступность в специальных научных форматах. Так на портале присутствует 13 фильтров для фасетного поиска, фасетный поиск вообще хорошо годится для поиска по данным и тут он неплох. А также все датасеты публикуются по спецификации Research Object Crate (RO-Crate) [2], похожей на стандарт Frictionless Data, но используемый для научных данных.
Ссылки:
[1] https://portal.tern.org.au
[2] https://www.researchobject.org/ro-crate/
#opendata #data #earthsciences #datacatalogs #australia #tern #geodata
На портале не так много данных как на других государственных порталах данных страны, всего 2724 набора данных, но важное его отличие - это проработка профиля метаданных, высокое качество описания всех датасетов и их доступность в специальных научных форматах. Так на портале присутствует 13 фильтров для фасетного поиска, фасетный поиск вообще хорошо годится для поиска по данным и тут он неплох. А также все датасеты публикуются по спецификации Research Object Crate (RO-Crate) [2], похожей на стандарт Frictionless Data, но используемый для научных данных.
Ссылки:
[1] https://portal.tern.org.au
[2] https://www.researchobject.org/ro-crate/
#opendata #data #earthsciences #datacatalogs #australia #tern #geodata
Кстати, если вы ещё не видели, мы обновили главную страницу Dateno [1] и выглядит всё лучше и лучше, а заодно можно сразу увидеть того сколько датасетов есть по разным макрорегионам.
Можно увидеть насколько много данных по развитым регионам и насколько их мало, к примеру, по Африке.
Правда у этих цифр есть объективная причина.Она в том что да, в развитых странах гораздо больше данных из-за лучшей цифровизации, культуры открытости, культуры работы с данными и тд. Данных очень много и всё больше гиперлокальных, муниципальных данных
Поэтому данных по Африке так мало, даже когда мы продолжим георазметку датасетов, всё равно их будет сильно меньше чем где-то ещё и большая часть этих данных будет создана в США и Европейских странах.
А вот то что мало данных по Азии, у этого есть объективные причины необходимости индексирования данных по Китаю, где свой уникальный софт, свои каталоги данных и тд. Если даже только основные репозитории проиндексировать там будет несколько миллионов наборов данных, но все на китайском языке😂
Ссылки:
[1] https://dateno.io
#opendata #dateno #datasets #datasearch #search
Можно увидеть насколько много данных по развитым регионам и насколько их мало, к примеру, по Африке.
Правда у этих цифр есть объективная причина.Она в том что да, в развитых странах гораздо больше данных из-за лучшей цифровизации, культуры открытости, культуры работы с данными и тд. Данных очень много и всё больше гиперлокальных, муниципальных данных
Поэтому данных по Африке так мало, даже когда мы продолжим георазметку датасетов, всё равно их будет сильно меньше чем где-то ещё и большая часть этих данных будет создана в США и Европейских странах.
А вот то что мало данных по Азии, у этого есть объективные причины необходимости индексирования данных по Китаю, где свой уникальный софт, свои каталоги данных и тд. Если даже только основные репозитории проиндексировать там будет несколько миллионов наборов данных, но все на китайском языке
Ссылки:
[1] https://dateno.io
#opendata #dateno #datasets #datasearch #search
Please open Telegram to view this post
VIEW IN TELEGRAM
Наконец то я дописал лонгрид про официальную статистику как дата продукт, частично пересекаясь с ранее написанным текстом про то как хорошо публиковать статистику. Вот тут текст https://begtin.substack.com/p/694
Пока писал не покидало ощущение что это же всё очевидно как-то, но... очевидно-неочевидно, а далеко не везде встречается.
#statistics #opendata #data
Пока писал не покидало ощущение что это же всё очевидно как-то, но... очевидно-неочевидно, а далеко не везде встречается.
#statistics #opendata #data
Ivan’s Begtin Newsletter on digital, open and preserved government
Статистика как дата продукт
Недавно, во время анализа многих международных и национальных порталов официальной статистики, я прочитал неплохую сжатую статью Deliver Your Data as a Product, But Not as an Application.
Свежий полезный ресурс про открытые данные о том как открытые данные пересекаются с генеративным ИИ, Observatory of Examples of How Open Data and Generative AI Intersect [1]
Много примеров применения ИИ в разных сферах, обученных на общедоступных и открытых данных. Например, меня заинтересовали исследования по применению ИИ в работе с судебными данными и текстами законов. Таких проектов 5 штук только в этой базе, а реально даже больше.
Большая тема, давно нехватает хорошего ассистента который бы вместо юриста мог бы дать простое и понятное объяснение той или иной нормы закона. Задача это, возможно, простая в некоторых кейса и сложная в
большинстве случаев. Например, обсуждается законопроект и хочется иметь чёткое структурированное описание его последствий.
По другим темам тоже немало примеров. Есть на что сослаться и о чём почитать.
Ссылки:
[1] https://repository.opendatapolicylab.org/genai
#opendata #generativeai #genai #ai
Много примеров применения ИИ в разных сферах, обученных на общедоступных и открытых данных. Например, меня заинтересовали исследования по применению ИИ в работе с судебными данными и текстами законов. Таких проектов 5 штук только в этой базе, а реально даже больше.
Большая тема, давно нехватает хорошего ассистента который бы вместо юриста мог бы дать простое и понятное объяснение той или иной нормы закона. Задача это, возможно, простая в некоторых кейса и сложная в
большинстве случаев. Например, обсуждается законопроект и хочется иметь чёткое структурированное описание его последствий.
По другим темам тоже немало примеров. Есть на что сослаться и о чём почитать.
Ссылки:
[1] https://repository.opendatapolicylab.org/genai
#opendata #generativeai #genai #ai
Я совсем пропустил публикацию обновлённого China Open Data Index [1] в январе 2024 года, а там интересные цифры в виде 345 853 наборов данных доступных на региональных государственных порталах открытых данных Китая.
А также всего с 2017 года появилось 226 городских порталов открытых данных (60% от всех городов) и 22 региональных портала из 27 провинций.
Точный объём данных на городских порталах неизвестен, но весьма велик почти наверняка.
Много ли это? Да много. Например, в США на портале data.gov опубликовано порядка 300+ тысяч наборов данных из которых от 60 до 80% - это открытые научные данные
А в Китае очень много научных данных доступно через scidb.cn и findata.cn.
Ссылки:
[1] https://ifopendata.fudan.edu.cn
#opendata #china #data
А также всего с 2017 года появилось 226 городских порталов открытых данных (60% от всех городов) и 22 региональных портала из 27 провинций.
Точный объём данных на городских порталах неизвестен, но весьма велик почти наверняка.
Много ли это? Да много. Например, в США на портале data.gov опубликовано порядка 300+ тысяч наборов данных из которых от 60 до 80% - это открытые научные данные
А в Китае очень много научных данных доступно через scidb.cn и findata.cn.
Ссылки:
[1] https://ifopendata.fudan.edu.cn
#opendata #china #data
Я тут регулярно ругаюсь на то как стремительно закрываются данные внутри РФ и в этом канале даже специальный хэштег есть #closeddata посвящённый случаям закрытия данных. Ни в коей мере не отказываясь от того что этот тренд развивается, для разнообразия, есть и другое мнение.
Есть проект Open Data Inventory [1] по наблюдению доступности и оценке этой доступности статистических данных ведёт его НКО Open Data Watch
основанная профессиональными исследователями и статистиками и в их понимании открытые данные - это статистика (что конечно не совсем так, но допустим).
Раз в два года они проводят оценку доступности данных по странам по критериям покрытия (coverage) и открытости (openness) официально публикуемых индикаторов.
И вот по их оценке открытость статистики РФ между 2020 и 2022 годом выросла аж на 3 балла, с 59 до 62, а позиция в общем рейтинге с 59й на 57ю.
Вы спросите как такое возможно? В основном из-за критериев оценки по доступности индикаторов, в данном случае появлении данных по уровню иммунизации и индикаторах результатам обучения, таким как SDG 4.1.1 [2] которые Росстат раскрывал в 2021 году.
Здесь, безусловно, надо оговорить то что открытость в восприятии макроэкономической статистики и о внутренних процессах - это два разных явления. Скрупулёзный анализ требует гораздо более качественных данных, с большей частотность, и большей гранулярностью чем макроэкономические годовые индикаторы охватывающие всю страну и с годовой задержкой.
Почти наверняка оценки в ODIN за 2024 год будут отличаться, не могу предсказать как, но то что будут сомнений нет. Новые оценки появятся не раньше чем к августу 2025 года.
Пока же можно посравнивать доступность статистики по разным странам за 2022 год.
Ссылки:
[1] https://odin.opendatawatch.com/
[2] https://eng.rosstat.gov.ru/4.1.1
#opendata #closeddata #statistics #openness
Есть проект Open Data Inventory [1] по наблюдению доступности и оценке этой доступности статистических данных ведёт его НКО Open Data Watch
основанная профессиональными исследователями и статистиками и в их понимании открытые данные - это статистика (что конечно не совсем так, но допустим).
Раз в два года они проводят оценку доступности данных по странам по критериям покрытия (coverage) и открытости (openness) официально публикуемых индикаторов.
И вот по их оценке открытость статистики РФ между 2020 и 2022 годом выросла аж на 3 балла, с 59 до 62, а позиция в общем рейтинге с 59й на 57ю.
Вы спросите как такое возможно? В основном из-за критериев оценки по доступности индикаторов, в данном случае появлении данных по уровню иммунизации и индикаторах результатам обучения, таким как SDG 4.1.1 [2] которые Росстат раскрывал в 2021 году.
Здесь, безусловно, надо оговорить то что открытость в восприятии макроэкономической статистики и о внутренних процессах - это два разных явления. Скрупулёзный анализ требует гораздо более качественных данных, с большей частотность, и большей гранулярностью чем макроэкономические годовые индикаторы охватывающие всю страну и с годовой задержкой.
Почти наверняка оценки в ODIN за 2024 год будут отличаться, не могу предсказать как, но то что будут сомнений нет. Новые оценки появятся не раньше чем к августу 2025 года.
Пока же можно посравнивать доступность статистики по разным странам за 2022 год.
Ссылки:
[1] https://odin.opendatawatch.com/
[2] https://eng.rosstat.gov.ru/4.1.1
#opendata #closeddata #statistics #openness
Спасибо Константину Рядову, телеграм канал Знай и умей ИТ, у него вышел подкаст с моим участием и разговором про дата инженерию и дата анализ. Я к подкасту много не готовился, поэтому у меня там лёгкое естественное косноязычие, но надеюсь слушателям будет полезно.
#podcasts #data #dataengineering
#podcasts #data #dataengineering
Telegram
Знай и умей ИТ
Канал об информационных технологиях: администрирование/программирование, софт/железо, события/анонсы. По всем вопросам сюда: @KayAr81
Свежая бесплатная полезная книга
Visualization for Public Involvement [1] про визуализацию инфраструктурных проектов для упрощения принятия решений, в том числе с вовлечением граждан. Вся книга построена вокруг транспортных проектов и примеров их визуализации департаментами транспорта в штатах США. Она в меньшей степени про работу с данными как с данными и в большей степени про визуализацию для нетехнических специалистов, но сложным образом, с 3D моделированием и тд. и про то как это позволяет вовлекать их в принятие решений.
Ссылки:
[1] https://nap.nationalacademies.org/catalog/27882/visualization-for-public-involvement
#dataviz #transport
Visualization for Public Involvement [1] про визуализацию инфраструктурных проектов для упрощения принятия решений, в том числе с вовлечением граждан. Вся книга построена вокруг транспортных проектов и примеров их визуализации департаментами транспорта в штатах США. Она в меньшей степени про работу с данными как с данными и в большей степени про визуализацию для нетехнических специалистов, но сложным образом, с 3D моделированием и тд. и про то как это позволяет вовлекать их в принятие решений.
Ссылки:
[1] https://nap.nationalacademies.org/catalog/27882/visualization-for-public-involvement
#dataviz #transport
Полезное чтение про данные технологии и не только:
- DuckDB Spatial: Supercharged Geospatial SQL (GeoPython 2024) [1] не для чтения, а для просмотра. Супер лекция про то как работать с геоданными с помощью DuckDB. Очень хочется применить к следующему геопроекту.
- Europe PMC [2] европейский поисковик по статьям в области наук о жизни. Помимо ссылок на статьи, собирают их тексты, анализируют, выдают в результатах много дополнительной извлечённой информации о финансировании, данных на которые есть ссылки в статьях, цитировании и так далее.
- Why CSV is still king [3] автор нахваливает CSV формат за простоту и переносимость, и утверждает что он ещё долгое время будет популярен. Лично я считаю что он ошибается, скорее поддержка parquet или arrow появится в стандартных инструментах. Например, в сохранении из Excel или Google Spreadsheets или OpenOffice. В командной строке и так далее.
- A.I. May Save Us or May Construct Viruses to Kill Us [4] уже не столько про технологии сколько про видение будущего. ИИ может как спасать от пандемии, так и конструировать новые вирусы.
- BENEFICIAL OWNERSHIP TRANSPARENCY ACT, 2023 [5] 31 июля 2024 года, несколько дней назад вступил в силу закон об обязательном раскрытии конечных бенефициаров компаний на Каймановых островах. Видимо стоит вскоре ожидать что эти данные будут открыты и новых расследований?
- Inside Crowdstrike's Deployment Process [6] о том как был устроен процесс деплоймента обновлений у Crowdstrike. Очень поучительно и познавательно, особенно узнать о том что это было не обновление кода, а обновление конфигурации ПО и поэтому не проходило правильный и отработанный процесс тестирования. В общем, в компании забыли что configuration = code.
Ссылки:
[1] https://www.youtube.com/watch?v=hoyQnP8CiXE
[2] https://europepmc.org/
[3] https://konbert.com/blog/why-csv-is-still-king
[4] https://www.nytimes.com/2024/07/27/opinion/ai-advances-risks.html
[5] https://legislation.gov.ky/cms/images/LEGISLATION/PRINCIPAL/2023/2023-0013/BeneficialOwnershipTransparencyAct2023_Act%2013%20of%202023.pdf
[6] https://overmind.tech/blog/inside-crowdstrikes-deployment-process
#opendata #opensource #ai #tech #readings
- DuckDB Spatial: Supercharged Geospatial SQL (GeoPython 2024) [1] не для чтения, а для просмотра. Супер лекция про то как работать с геоданными с помощью DuckDB. Очень хочется применить к следующему геопроекту.
- Europe PMC [2] европейский поисковик по статьям в области наук о жизни. Помимо ссылок на статьи, собирают их тексты, анализируют, выдают в результатах много дополнительной извлечённой информации о финансировании, данных на которые есть ссылки в статьях, цитировании и так далее.
- Why CSV is still king [3] автор нахваливает CSV формат за простоту и переносимость, и утверждает что он ещё долгое время будет популярен. Лично я считаю что он ошибается, скорее поддержка parquet или arrow появится в стандартных инструментах. Например, в сохранении из Excel или Google Spreadsheets или OpenOffice. В командной строке и так далее.
- A.I. May Save Us or May Construct Viruses to Kill Us [4] уже не столько про технологии сколько про видение будущего. ИИ может как спасать от пандемии, так и конструировать новые вирусы.
- BENEFICIAL OWNERSHIP TRANSPARENCY ACT, 2023 [5] 31 июля 2024 года, несколько дней назад вступил в силу закон об обязательном раскрытии конечных бенефициаров компаний на Каймановых островах. Видимо стоит вскоре ожидать что эти данные будут открыты и новых расследований?
- Inside Crowdstrike's Deployment Process [6] о том как был устроен процесс деплоймента обновлений у Crowdstrike. Очень поучительно и познавательно, особенно узнать о том что это было не обновление кода, а обновление конфигурации ПО и поэтому не проходило правильный и отработанный процесс тестирования. В общем, в компании забыли что configuration = code.
Ссылки:
[1] https://www.youtube.com/watch?v=hoyQnP8CiXE
[2] https://europepmc.org/
[3] https://konbert.com/blog/why-csv-is-still-king
[4] https://www.nytimes.com/2024/07/27/opinion/ai-advances-risks.html
[5] https://legislation.gov.ky/cms/images/LEGISLATION/PRINCIPAL/2023/2023-0013/BeneficialOwnershipTransparencyAct2023_Act%2013%20of%202023.pdf
[6] https://overmind.tech/blog/inside-crowdstrikes-deployment-process
#opendata #opensource #ai #tech #readings
europepmc.org
Europe PMC
Europe PMC is an archive of life sciences journal literature.
В рубрике закрытых данных в РФ Мосбиржа приостановила публикацию статистики по валютному рынку [1] на неопределённый срок. Эти данные более не публикуются в регулярных ежемесячных пресс-релизах биржи.
Ссылки:
[1] https://quote.rbc.ru/news/article/66acf1439a79476d6256d6c6
#closeddata #opendata #russia #finances
Ссылки:
[1] https://quote.rbc.ru/news/article/66acf1439a79476d6256d6c6
#closeddata #opendata #russia #finances
РБК Инвестиции
Мосбиржа приостановила публикацию статистики по валютному рынку
Ранее Мосбиржа ежемесячно раскрывала объем торгов на валютном рынке. В пресс-релизе по итогам июля таких данных нет
Довольно давно хочу написать гневный пост о том куда катятся современные цифровые продукты и разработка софта в целом, в целом катятся они далеко от пользователя/клиента/потребителя. Причём чем более массовое ПО, тем хуже. Начиная от "распухания" дистрибутивов где совершенно непонятно зачем нужно ставить несколько гигабайт для данного приложения, продолжая непомерным потреблением CPU и оперативной памяти и утечками памяти и постоянной загрузкой CPU у приложений которым просто незачем это делать.
Но важнее всего это всё больший сдвиг почти всех продуктов к подписочной и облачной модели. Всё больше продуктов которые нельзя купить единожды. При том что устроены они так что в постоянном их использовании нет необходимости.
Впрочем всё это потянет на рассуждения не в одном, во многих лонгридах.
А пока же для размышления, ONCE [1] новая-старая бизнес модель которую пропагандируют 37Signals и называют её Post SaaS. Анонсируют подход к распространению их продуктов за фиксированную цену, без подписки, скрытых платежей и тд.
Дословно их принципы звучат так:
- Платите один раз, владейте навсегда.
- Мы пишем код, вы его видите.
- Мы предоставляем вам программное обеспечение, вы размещаете его у себя.
- Просто и понятно, а не корпоративно и раздуто.
- За одну фиксированную цену. Один раз.
Сейчас по такой модели они продают чат Campfile за $299 [2] однократного платежа и раздают бесплатно Writebook [3], ПО для написания онлайн книг.
Что я могу сказать. Если это станет трендом, то многие SaaS стартапы поломаются или переквалифицируются, но точно потеряют сверхдоходы.
Для квалифицированного пользователя, конечно, подходы вроде ONCE или такие как Local-first, гораздо лучше.
Ссылки:
[1] https://once.com/
[2] https://once.com/campfire
[3] https://once.com/writebook
#thoughts #business #software
Но важнее всего это всё больший сдвиг почти всех продуктов к подписочной и облачной модели. Всё больше продуктов которые нельзя купить единожды. При том что устроены они так что в постоянном их использовании нет необходимости.
Впрочем всё это потянет на рассуждения не в одном, во многих лонгридах.
А пока же для размышления, ONCE [1] новая-старая бизнес модель которую пропагандируют 37Signals и называют её Post SaaS. Анонсируют подход к распространению их продуктов за фиксированную цену, без подписки, скрытых платежей и тд.
Дословно их принципы звучат так:
- Платите один раз, владейте навсегда.
- Мы пишем код, вы его видите.
- Мы предоставляем вам программное обеспечение, вы размещаете его у себя.
- Просто и понятно, а не корпоративно и раздуто.
- За одну фиксированную цену. Один раз.
Сейчас по такой модели они продают чат Campfile за $299 [2] однократного платежа и раздают бесплатно Writebook [3], ПО для написания онлайн книг.
Что я могу сказать. Если это станет трендом, то многие SaaS стартапы поломаются или переквалифицируются, но точно потеряют сверхдоходы.
Для квалифицированного пользователя, конечно, подходы вроде ONCE или такие как Local-first, гораздо лучше.
Ссылки:
[1] https://once.com/
[2] https://once.com/campfire
[3] https://once.com/writebook
#thoughts #business #software
ONCE
Introducing ONCE
Once upon a time you owned what you paid for, you controlled what you depended on, and your privacy and security were your own business. We think it’s that time again.
Свежий национальный портал открытых данных на сей раз Боснии и Герцеговины [1], его полуоткрыли с мае 2024 года, но явно не доделали судя по текстам-заглушкам на сайте и разместили всего 12 наборов данных.
Делают его на CKAN и, в целом, как-то без энтузиазма 😜
В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.
В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.
Ссылки:
[1] https://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/
#opendata #bosnaihercegovina #europe #ckan #datasets
Делают его на CKAN и, в целом, как-то без энтузиазма 😜
В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.
В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.
Ссылки:
[1] https://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/
#opendata #bosnaihercegovina #europe #ckan #datasets