Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это устроено у них Национальная служба сельскохозяйственной статистики США (NASS) [1] собирает и раскрывает данные по сельскохозяйственным территориям, урожаю, демографии, экономике и иным предметам статистического наблюдения по всей территории США с детализацией до отдельных графств, аналог муниципалитетов.

Все данные доступны, как классическим образом, в форме таблиц и построителя запросов, так и с возможностью получить базу статистики сразу и целиком в виде нескольких файлов общим объёмом в 3GB в сжатом виде, актуализируемых ежесуточно.

А также доступ организован через API системы Quick Stats где нужные данные можно получить быстро и в формате JSON. [3]

Дополнительно эти данные распространяются в виде геопространственных данных через несколько картографических сервисов [4]

Ссылки:
[1] https://www.nass.usda.gov
[2] https://www.nass.usda.gov/datasets/
[3] https://quickstats.nass.usda.gov/api
[4] https://croplandcros.scinet.usda.gov/

#opendata #usa #statistics #agriculture #datasets
В рубрике как это устроено у них TERN Data Discovery Portal [1] в Австралии, портал открытых исследовательских данных созданный в рамках проекта Terrestrial Ecosystem Research Network на базе Университета Квинсленда и поддерживаемый в рамках National Collaborative Research Infrastructure Strategy.

На портале не так много данных как на других государственных порталах данных страны, всего 2724 набора данных, но важное его отличие - это проработка профиля метаданных, высокое качество описания всех датасетов и их доступность в специальных научных форматах. Так на портале присутствует 13 фильтров для фасетного поиска, фасетный поиск вообще хорошо годится для поиска по данным и тут он неплох. А также все датасеты публикуются по спецификации Research Object Crate (RO-Crate) [2], похожей на стандарт Frictionless Data, но используемый для научных данных.

Ссылки:
[1] https://portal.tern.org.au
[2] https://www.researchobject.org/ro-crate/

#opendata #data #earthsciences #datacatalogs #australia #tern #geodata
Кстати, если вы ещё не видели, мы обновили главную страницу Dateno [1] и выглядит всё лучше и лучше, а заодно можно сразу увидеть того сколько датасетов есть по разным макрорегионам.

Можно увидеть насколько много данных по развитым регионам и насколько их мало, к примеру, по Африке.

Правда у этих цифр есть объективная причина.Она в том что да, в развитых странах гораздо больше данных из-за лучшей цифровизации, культуры открытости, культуры работы с данными и тд. Данных очень много и всё больше гиперлокальных, муниципальных данных

Поэтому данных по Африке так мало, даже когда мы продолжим георазметку датасетов, всё равно их будет сильно меньше чем где-то ещё и большая часть этих данных будет создана в США и Европейских странах.

А вот то что мало данных по Азии, у этого есть объективные причины необходимости индексирования данных по Китаю, где свой уникальный софт, свои каталоги данных и тд. Если даже только основные репозитории проиндексировать там будет несколько миллионов наборов данных, но все на китайском языке😂

Ссылки:
[1] https://dateno.io

#opendata #dateno #datasets #datasearch #search
Please open Telegram to view this post
VIEW IN TELEGRAM
Наконец то я дописал лонгрид про официальную статистику как дата продукт, частично пересекаясь с ранее написанным текстом про то как хорошо публиковать статистику. Вот тут текст https://begtin.substack.com/p/694

Пока писал не покидало ощущение что это же всё очевидно как-то, но... очевидно-неочевидно, а далеко не везде встречается.

#statistics #opendata #data
Свежий полезный ресурс про открытые данные о том как открытые данные пересекаются с генеративным ИИ, Observatory of Examples of How Open Data and Generative AI Intersect [1]

Много примеров применения ИИ в разных сферах, обученных на общедоступных и открытых данных. Например, меня заинтересовали исследования по применению ИИ в работе с судебными данными и текстами законов. Таких проектов 5 штук только в этой базе, а реально даже больше.

Большая тема, давно нехватает хорошего ассистента который бы вместо юриста мог бы дать простое и понятное объяснение той или иной нормы закона. Задача это, возможно, простая в некоторых кейса и сложная в
большинстве случаев. Например, обсуждается законопроект и хочется иметь чёткое структурированное описание его последствий.

По другим темам тоже немало примеров. Есть на что сослаться и о чём почитать.

Ссылки:
[1] https://repository.opendatapolicylab.org/genai

#opendata #generativeai #genai #ai
Я совсем пропустил публикацию обновлённого China Open Data Index [1] в январе 2024 года, а там интересные цифры в виде 345 853 наборов данных доступных на региональных государственных порталах открытых данных Китая.

А также всего с 2017 года появилось 226 городских порталов открытых данных (60% от всех городов) и 22 региональных портала из 27 провинций.

Точный объём данных на городских порталах неизвестен, но весьма велик почти наверняка.

Много ли это? Да много. Например, в США на портале data.gov опубликовано порядка 300+ тысяч наборов данных из которых от 60 до 80% - это открытые научные данные

А в Китае очень много научных данных доступно через scidb.cn и findata.cn.

Ссылки:
[1] https://ifopendata.fudan.edu.cn

#opendata #china #data
Я тут регулярно ругаюсь на то как стремительно закрываются данные внутри РФ и в этом канале даже специальный хэштег есть #closeddata посвящённый случаям закрытия данных. Ни в коей мере не отказываясь от того что этот тренд развивается, для разнообразия, есть и другое мнение.

Есть проект Open Data Inventory [1] по наблюдению доступности и оценке этой доступности статистических данных ведёт его НКО Open Data Watch
основанная профессиональными исследователями и статистиками и в их понимании открытые данные - это статистика (что конечно не совсем так, но допустим).

Раз в два года они проводят оценку доступности данных по странам по критериям покрытия (coverage) и открытости (openness) официально публикуемых индикаторов.

И вот по их оценке открытость статистики РФ между 2020 и 2022 годом выросла аж на 3 балла, с 59 до 62, а позиция в общем рейтинге с 59й на 57ю.

Вы спросите как такое возможно? В основном из-за критериев оценки по доступности индикаторов, в данном случае появлении данных по уровню иммунизации и индикаторах результатам обучения, таким как SDG 4.1.1 [2] которые Росстат раскрывал в 2021 году.

Здесь, безусловно, надо оговорить то что открытость в восприятии макроэкономической статистики и о внутренних процессах - это два разных явления. Скрупулёзный анализ требует гораздо более качественных данных, с большей частотность, и большей гранулярностью чем макроэкономические годовые индикаторы охватывающие всю страну и с годовой задержкой.

Почти наверняка оценки в ODIN за 2024 год будут отличаться, не могу предсказать как, но то что будут сомнений нет. Новые оценки появятся не раньше чем к августу 2025 года.

Пока же можно посравнивать доступность статистики по разным странам за 2022 год.


Ссылки:
[1] https://odin.opendatawatch.com/
[2] https://eng.rosstat.gov.ru/4.1.1

#opendata #closeddata #statistics #openness
Спасибо Константину Рядову, телеграм канал Знай и умей ИТ, у него вышел подкаст с моим участием и разговором про дата инженерию и дата анализ. Я к подкасту много не готовился, поэтому у меня там лёгкое естественное косноязычие, но надеюсь слушателям будет полезно.

#podcasts #data #dataengineering
Свежая бесплатная полезная книга
Visualization for Public Involvement [1] про визуализацию инфраструктурных проектов для упрощения принятия решений, в том числе с вовлечением граждан. Вся книга построена вокруг транспортных проектов и примеров их визуализации департаментами транспорта в штатах США. Она в меньшей степени про работу с данными как с данными и в большей степени про визуализацию для нетехнических специалистов, но сложным образом, с 3D моделированием и тд. и про то как это позволяет вовлекать их в принятие решений.

Ссылки:
[1] https://nap.nationalacademies.org/catalog/27882/visualization-for-public-involvement

#dataviz #transport
Полезное чтение про данные технологии и не только:
- DuckDB Spatial: Supercharged Geospatial SQL (GeoPython 2024) [1] не для чтения, а для просмотра. Супер лекция про то как работать с геоданными с помощью DuckDB. Очень хочется применить к следующему геопроекту.
- Europe PMC [2] европейский поисковик по статьям в области наук о жизни. Помимо ссылок на статьи, собирают их тексты, анализируют, выдают в результатах много дополнительной извлечённой информации о финансировании, данных на которые есть ссылки в статьях, цитировании и так далее.
- Why CSV is still king [3] автор нахваливает CSV формат за простоту и переносимость, и утверждает что он ещё долгое время будет популярен. Лично я считаю что он ошибается, скорее поддержка parquet или arrow появится в стандартных инструментах. Например, в сохранении из Excel или Google Spreadsheets или OpenOffice. В командной строке и так далее.
- A.I. May Save Us or May Construct Viruses to Kill Us [4] уже не столько про технологии сколько про видение будущего. ИИ может как спасать от пандемии, так и конструировать новые вирусы.
- BENEFICIAL OWNERSHIP TRANSPARENCY ACT, 2023 [5] 31 июля 2024 года, несколько дней назад вступил в силу закон об обязательном раскрытии конечных бенефициаров компаний на Каймановых островах. Видимо стоит вскоре ожидать что эти данные будут открыты и новых расследований?
- Inside Crowdstrike's Deployment Process [6] о том как был устроен процесс деплоймента обновлений у Crowdstrike. Очень поучительно и познавательно, особенно узнать о том что это было не обновление кода, а обновление конфигурации ПО и поэтому не проходило правильный и отработанный процесс тестирования. В общем, в компании забыли что configuration = code.

Ссылки:
[1] https://www.youtube.com/watch?v=hoyQnP8CiXE
[2] https://europepmc.org/
[3] https://konbert.com/blog/why-csv-is-still-king
[4] https://www.nytimes.com/2024/07/27/opinion/ai-advances-risks.html
[5] https://legislation.gov.ky/cms/images/LEGISLATION/PRINCIPAL/2023/2023-0013/BeneficialOwnershipTransparencyAct2023_Act%2013%20of%202023.pdf
[6] https://overmind.tech/blog/inside-crowdstrikes-deployment-process

#opendata #opensource #ai #tech #readings
В рубрике закрытых данных в РФ Мосбиржа приостановила публикацию статистики по валютному рынку [1] на неопределённый срок. Эти данные более не публикуются в регулярных ежемесячных пресс-релизах биржи.

Ссылки:
[1] https://quote.rbc.ru/news/article/66acf1439a79476d6256d6c6

#closeddata #opendata #russia #finances
Довольно давно хочу написать гневный пост о том куда катятся современные цифровые продукты и разработка софта в целом, в целом катятся они далеко от пользователя/клиента/потребителя. Причём чем более массовое ПО, тем хуже. Начиная от "распухания" дистрибутивов где совершенно непонятно зачем нужно ставить несколько гигабайт для данного приложения, продолжая непомерным потреблением CPU и оперативной памяти и утечками памяти и постоянной загрузкой CPU у приложений которым просто незачем это делать.

Но важнее всего это всё больший сдвиг почти всех продуктов к подписочной и облачной модели. Всё больше продуктов которые нельзя купить единожды. При том что устроены они так что в постоянном их использовании нет необходимости.

Впрочем всё это потянет на рассуждения не в одном, во многих лонгридах.

А пока же для размышления, ONCE [1] новая-старая бизнес модель которую пропагандируют 37Signals и называют её Post SaaS. Анонсируют подход к распространению их продуктов за фиксированную цену, без подписки, скрытых платежей и тд.

Дословно их принципы звучат так:
- Платите один раз, владейте навсегда.
- Мы пишем код, вы его видите.
- Мы предоставляем вам программное обеспечение, вы размещаете его у себя.
- Просто и понятно, а не корпоративно и раздуто.
- За одну фиксированную цену. Один раз.

Сейчас по такой модели они продают чат Campfile за $299 [2] однократного платежа и раздают бесплатно Writebook [3], ПО для написания онлайн книг.

Что я могу сказать. Если это станет трендом, то многие SaaS стартапы поломаются или переквалифицируются, но точно потеряют сверхдоходы.

Для квалифицированного пользователя, конечно, подходы вроде ONCE или такие как Local-first, гораздо лучше.

Ссылки:
[1] https://once.com/
[2] https://once.com/campfire
[3] https://once.com/writebook

#thoughts #business #software
Свежий национальный портал открытых данных на сей раз Боснии и Герцеговины [1], его полуоткрыли с мае 2024 года, но явно не доделали судя по текстам-заглушкам на сайте и разместили всего 12 наборов данных.

Делают его на CKAN и, в целом, как-то без энтузиазма 😜

В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.

В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.

Ссылки:
[1] https://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/

#opendata #bosnaihercegovina #europe #ckan #datasets