В рубрике интересных наборов данных данные Управления транспортной безопасности США которые еженедельно в PDF форматах публикуют статистику по пересечению границы США [1] с разбивкой до часа и конкретного терминала. ИТшник Mike Lorengo написал код по преобразованию этих документов в машиночитаемую форму и опубликовал вместе с данными [2] на Github и написал об этом всём на Reddit [3].
Причём он подошёл к делу системно, нарисовал схему сбора и обработки данных, задокументировал и визуализировал.
Для разбора PDF'ов использует Azure Form Recognizer [4], облачный сервис по распознаванию PDF форм.
Мне вспомнилось как я похожим образом анализировал данные о выездах скорой помощи в Москве около 10 лет назад. Тогда, в 2011 году существовал сайт Московского департамента здравоохранения mosgorzdrav.ru где публиковались ежесуточные сводки по выездам бригад скорой помощи. Данные там публиковались в HTML по заданному формату начиная с 2005 года, и их все я тогда выкачал и выложил в открытый репозиторий [5]. Вот так и было, открытых данных было мало, но собрать с сайтов можно было гораздо больше.
Сейчас по Москве таких данных уже и не найти. Но в PDF их публикуют, например, в ГБУЗ БСМП в Карелии в виде регулярных PDF отчетов [6] или в ГБУЗ Самарская СМП, правда, без истории, только за предыдущую неделю [7].
Надо попробовать пособирать подобные данные и обработать одним из облачных обработчиков PDF форм. Задачи то похожие.
Ссылки:
[1] https://www.tsa.gov/foia/readingroom
[2] https://github.com/mikelor/TsaThroughput
[3] https://www.reddit.com/r/datasets/comments/mx87q8/tsa_throughput_dataset_alternate_source/
[4] https://azure.microsoft.com/en-us/services/cognitive-services/form-recognizer/
[5] https://github.com/infoculture/mosgorzdrav
[6] https://muzbsmp.ru/o-gbuz-bsmp/operativnaja-informacija-o-rabote-skoroj-medicinskoj-pomocshi/informacija-o-rabote-vyezdnyh-brigad-i-dispetcherskoj-sluzhby/
[7] https://03samara.ru/page/operativnaja-svodka
#timeseries #data
Причём он подошёл к делу системно, нарисовал схему сбора и обработки данных, задокументировал и визуализировал.
Для разбора PDF'ов использует Azure Form Recognizer [4], облачный сервис по распознаванию PDF форм.
Мне вспомнилось как я похожим образом анализировал данные о выездах скорой помощи в Москве около 10 лет назад. Тогда, в 2011 году существовал сайт Московского департамента здравоохранения mosgorzdrav.ru где публиковались ежесуточные сводки по выездам бригад скорой помощи. Данные там публиковались в HTML по заданному формату начиная с 2005 года, и их все я тогда выкачал и выложил в открытый репозиторий [5]. Вот так и было, открытых данных было мало, но собрать с сайтов можно было гораздо больше.
Сейчас по Москве таких данных уже и не найти. Но в PDF их публикуют, например, в ГБУЗ БСМП в Карелии в виде регулярных PDF отчетов [6] или в ГБУЗ Самарская СМП, правда, без истории, только за предыдущую неделю [7].
Надо попробовать пособирать подобные данные и обработать одним из облачных обработчиков PDF форм. Задачи то похожие.
Ссылки:
[1] https://www.tsa.gov/foia/readingroom
[2] https://github.com/mikelor/TsaThroughput
[3] https://www.reddit.com/r/datasets/comments/mx87q8/tsa_throughput_dataset_alternate_source/
[4] https://azure.microsoft.com/en-us/services/cognitive-services/form-recognizer/
[5] https://github.com/infoculture/mosgorzdrav
[6] https://muzbsmp.ru/o-gbuz-bsmp/operativnaja-informacija-o-rabote-skoroj-medicinskoj-pomocshi/informacija-o-rabote-vyezdnyh-brigad-i-dispetcherskoj-sluzhby/
[7] https://03samara.ru/page/operativnaja-svodka
#timeseries #data
GitHub
GitHub - mikelor/TsaThroughput: Monitors the TSA Published Statistics, Downloads new PDF files and Saves as .json
Monitors the TSA Published Statistics, Downloads new PDF files and Saves as .json - GitHub - mikelor/TsaThroughput: Monitors the TSA Published Statistics, Downloads new PDF files and Saves as .json
В рубрике как это работает у них портал данных Банка международных расчётов (BIS) data.bis.org [1]. Как и у многих межгосударственных организаций портал данных является, по факту, порталом для публикации статистических индикаторов. В данном случае это экономические и финансовые индикаторы с той особенностью что они разделены по странам с детализацией до страны. Поэтому, к примеру, по Армении доступно 3455 индикаторов, а по России 9312 индикаторов. В общей сложности так получается несколько сотен тысяч индикаторов по странам и несколько тысяч/десятков тысяч глобальных таблиц. В общей сложности на портале около 1 миллиона временных рядов которые можно считать, также, наборами данных
У портала есть открытое API [2], внутри и снаружи всё на основе формата SDMX, с экспортом в CSV, Excel, XML (SDMX).
Этот портал - это хороший пример публикации и визуализации статистики, с огромными объёмами временных рядов, пояснениями, экспортом, цитированием, визуализацией и удобным поиском по всем собранным данным. Глядя на многие порталы статистики многих стран, часто, хочется подобного.
А для тех кто ищет международные данные с временными рядами напомню про такие порталы как:
- портал данных Всемирного банка data.worldbank.org
- портал данных ООН data.un.org
- портал данных ОЭСР data.oecd.org
а также существуют десятки других.
Ссылки:
[1] https://data.bis.org
[2] https://stats.bis.org/api-doc/v1/
#opendata #datasets #timeseries #datacatalogs #data
У портала есть открытое API [2], внутри и снаружи всё на основе формата SDMX, с экспортом в CSV, Excel, XML (SDMX).
Этот портал - это хороший пример публикации и визуализации статистики, с огромными объёмами временных рядов, пояснениями, экспортом, цитированием, визуализацией и удобным поиском по всем собранным данным. Глядя на многие порталы статистики многих стран, часто, хочется подобного.
А для тех кто ищет международные данные с временными рядами напомню про такие порталы как:
- портал данных Всемирного банка data.worldbank.org
- портал данных ООН data.un.org
- портал данных ОЭСР data.oecd.org
а также существуют десятки других.
Ссылки:
[1] https://data.bis.org
[2] https://stats.bis.org/api-doc/v1/
#opendata #datasets #timeseries #datacatalogs #data
Forwarded from Open Data Armenia
[en] Fresh data on Transfers of individuals sent to and received from abroad through commercial banks of RA by countries available from Central Bank of Armenia, in English [1], Armenian [2] and Russian [3]. It's a January 2013 - December 2023 time series
about money inflow and outflow for 50 countries.
It could be a great source for data visualization for everyone who would like to participate in our contest [4].
[ru] Свежие данные о Трансграничных переводах в пользу физических лиц полученные из-за рубежа и перечисления физическими лицами за рубеж осуществленные через банковскую систему РА по странам можно скачать с сайта Центрального Банка Армении на английском, армянском и русском языках. Данные охватывают период с января 2013 по декабрь 2023 года и 50 стран откуда и куда переводятся средства.
Данные могут быть отличным источником по визуализации данных для всех кто планирует участие или уже участвует в нашем конкурсе по открытым данным.
P.S. Хочется надеяться что ЦБ РА однажды начнёт публиковать данные как открытые данные данные, сразу в форматах CSV/Parquet, или через API в формате JSON. Но даже при этом, текущие данные в формате Excel тоже можно использовать после несложных преобразований.
[1] https://www.cba.am/stat/stat_data_eng/5_Money_transfers_of_individuals_by_countries-eng.xlsx
[2] https://www.cba.am/stat/stat_data_arm/5_Money_transfers_of_individuals_by_countries-arm.xlsx
[3] https://www.cba.am/stat/stat_data_rus/5_Money_transfers_of_individuals_by_countries-rus.xlsx
[4] https://contest.opendata.am
#opendata #timeseries #statistics #money #armenia #cbra #dataviz
about money inflow and outflow for 50 countries.
It could be a great source for data visualization for everyone who would like to participate in our contest [4].
[ru] Свежие данные о Трансграничных переводах в пользу физических лиц полученные из-за рубежа и перечисления физическими лицами за рубеж осуществленные через банковскую систему РА по странам можно скачать с сайта Центрального Банка Армении на английском, армянском и русском языках. Данные охватывают период с января 2013 по декабрь 2023 года и 50 стран откуда и куда переводятся средства.
Данные могут быть отличным источником по визуализации данных для всех кто планирует участие или уже участвует в нашем конкурсе по открытым данным.
P.S. Хочется надеяться что ЦБ РА однажды начнёт публиковать данные как открытые данные данные, сразу в форматах CSV/Parquet, или через API в формате JSON. Но даже при этом, текущие данные в формате Excel тоже можно использовать после несложных преобразований.
[1] https://www.cba.am/stat/stat_data_eng/5_Money_transfers_of_individuals_by_countries-eng.xlsx
[2] https://www.cba.am/stat/stat_data_arm/5_Money_transfers_of_individuals_by_countries-arm.xlsx
[3] https://www.cba.am/stat/stat_data_rus/5_Money_transfers_of_individuals_by_countries-rus.xlsx
[4] https://contest.opendata.am
#opendata #timeseries #statistics #money #armenia #cbra #dataviz
contest.opendata.am
EN Open Data Armenia Contest