Оказывается Foursquare анонсировали недавно [1] Foursquare Geospatial Intelligence Platform, нигде кроме анонса, даже на их сайте в такой формулировке не находится, но из анонса видно что они позиционируют три продукта как составные части это платформы.
Это такие продукты как:
- FSQ Graph - база всех точек POI собранных и очищенных в виде данных привязанных к системе геокодирования H3
- FSQ Database - высокопроизводительная база с использованием GPU для SQL аналитики
- FSQ Studio - интерактивный инструмент визуализации данных, в нём же они публикуют некий каталог геоданных (доступен только после авторизации)
И похоже что эти компоненты будут объединены в некий унифицированный продукт.
А ранее команда Foursquare выкладывала огромный набор данных точек интереса по всему миру [2].
Интересно будут ли они расширять доступность их компонентов как открытого кода и будут ли публиковать ещё открытые датасеты или ограничатся объединением текущих продуктов. В любом случае, Foursquare интересный источник, и геоданных, и технологий их визуализации.
Ссылки:
[1] https://location.foursquare.com/resources/blog/products/introducing-the-foursquare-geospatial-intelligence-platform/
[2] https://t.iss.one/begtin/6202
#geodata #dataanalytics #foursquare #opendata
Это такие продукты как:
- FSQ Graph - база всех точек POI собранных и очищенных в виде данных привязанных к системе геокодирования H3
- FSQ Database - высокопроизводительная база с использованием GPU для SQL аналитики
- FSQ Studio - интерактивный инструмент визуализации данных, в нём же они публикуют некий каталог геоданных (доступен только после авторизации)
И похоже что эти компоненты будут объединены в некий унифицированный продукт.
А ранее команда Foursquare выкладывала огромный набор данных точек интереса по всему миру [2].
Интересно будут ли они расширять доступность их компонентов как открытого кода и будут ли публиковать ещё открытые датасеты или ограничатся объединением текущих продуктов. В любом случае, Foursquare интересный источник, и геоданных, и технологий их визуализации.
Ссылки:
[1] https://location.foursquare.com/resources/blog/products/introducing-the-foursquare-geospatial-intelligence-platform/
[2] https://t.iss.one/begtin/6202
#geodata #dataanalytics #foursquare #opendata
February 4
Снимаю на время шляпу дата инженера и одеваю шляпу специалиста по анализу госрасходов.
Я почти 20 лет анализом госзакупок занимался. Участвовал в создании первой версии портала госзакупок в РФ за 2006-2009 годы, потом создавал общественный портал госзакупок clearpspending.ru (сейчас его развивает Инфокультура) и создавал портал Госрасходы в Счетной палате РФ (сейчас портал закрыт) и, кроме всего прочего, вот уже много лет анализировал то как информация о бюджетах, контрактах, госрасходах публиковалась в мире. В последнее время я уделял этой теме сильно меньше внимания, потому что с данными работать интереснее, но ничего не забыл
Итак, по поводу последних событий вокруг USAID и особенностей происходящего. Важно знать о том как USAID работало все эти годы и то как осуществлялись расходы. Расходы ведомства публиковались и доступны на сайтах Grants.gov, SAM.gov и USASpending.gov, но в США особенность публикации данных о расходах в том что не все расходы публикуются с указанием исполнителя, а также то что многие исполнители по госконтрактам и грантам являются зонтичными получателями средств, далее раздавая их меньшими порциями конечным получателям. Иногда это может быть цепочка в несколько организаций.
Кроме того есть множество контрактов получателями которых значатся MISCELLANEOUS FOREIGN AWARDEES. Например, контракты ASST_NON_AIDDFDA000800304_7200, ASST_NON_AID306A000300504_7200 и так далее. Таких контрактов более 10 тысяч и таких грантов чуть менее 2 тысяч. Всего на общую сумму в 29 миллиардов долларов.
Собственно особенность системы раскрытия информации о госзакупках в США в выборочной закрытости. Информация о контракте удаляется не полностью, а убирается только наименование получателя, всё остальное публикуется.
При этом, конечно же, информация о конечных получателях средств внутри USAID должна собираться. Точно в случае зонтичных контрактов со скрытыми получателями, так и в случае контрактов через крупных подрядчиков посредников.
Наиболее потенциально пугающий сценарий - это если администрация Трампа вместе с трансформацией/ликвидацией USAID рассекретит эти сведения. Пострадают от этого очень многие, а администрация Трампа наберёт дополнительных плюшек со словами "Мы вам говорили что они радикалы лунатики, вот, смотрите, всё так и есть". Для многих не самых демократических стран это, неизбежно, станет мощнейшим толчком для пропаганды.
Но про политику я здесь писать ничего не хочу, уверен что есть много уважаемых и достойных людей/команд как получавших средств от USAID так и категорически от них отказывавшихся. Добавлю лишь ещё один источник сведений об их активности - это база IATI Registry, по сути переформатированные данные из USASpending.gov.
#opendata #spending #contracting #usaid
Я почти 20 лет анализом госзакупок занимался. Участвовал в создании первой версии портала госзакупок в РФ за 2006-2009 годы, потом создавал общественный портал госзакупок clearpspending.ru (сейчас его развивает Инфокультура) и создавал портал Госрасходы в Счетной палате РФ (сейчас портал закрыт) и, кроме всего прочего, вот уже много лет анализировал то как информация о бюджетах, контрактах, госрасходах публиковалась в мире. В последнее время я уделял этой теме сильно меньше внимания, потому что с данными работать интереснее, но ничего не забыл
Итак, по поводу последних событий вокруг USAID и особенностей происходящего. Важно знать о том как USAID работало все эти годы и то как осуществлялись расходы. Расходы ведомства публиковались и доступны на сайтах Grants.gov, SAM.gov и USASpending.gov, но в США особенность публикации данных о расходах в том что не все расходы публикуются с указанием исполнителя, а также то что многие исполнители по госконтрактам и грантам являются зонтичными получателями средств, далее раздавая их меньшими порциями конечным получателям. Иногда это может быть цепочка в несколько организаций.
Кроме того есть множество контрактов получателями которых значатся MISCELLANEOUS FOREIGN AWARDEES. Например, контракты ASST_NON_AIDDFDA000800304_7200, ASST_NON_AID306A000300504_7200 и так далее. Таких контрактов более 10 тысяч и таких грантов чуть менее 2 тысяч. Всего на общую сумму в 29 миллиардов долларов.
Собственно особенность системы раскрытия информации о госзакупках в США в выборочной закрытости. Информация о контракте удаляется не полностью, а убирается только наименование получателя, всё остальное публикуется.
При этом, конечно же, информация о конечных получателях средств внутри USAID должна собираться. Точно в случае зонтичных контрактов со скрытыми получателями, так и в случае контрактов через крупных подрядчиков посредников.
Наиболее потенциально пугающий сценарий - это если администрация Трампа вместе с трансформацией/ликвидацией USAID рассекретит эти сведения. Пострадают от этого очень многие, а администрация Трампа наберёт дополнительных плюшек со словами "Мы вам говорили что они радикалы лунатики, вот, смотрите, всё так и есть". Для многих не самых демократических стран это, неизбежно, станет мощнейшим толчком для пропаганды.
Но про политику я здесь писать ничего не хочу, уверен что есть много уважаемых и достойных людей/команд как получавших средств от USAID так и категорически от них отказывавшихся. Добавлю лишь ещё один источник сведений об их активности - это база IATI Registry, по сути переформатированные данные из USASpending.gov.
#opendata #spending #contracting #usaid
February 6
Возвращаю на голову шляпу дата инженера и продолжаю про разные инструменты.
Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.
Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.
Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.
Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.
#opendata #datadocumentation #opensource #datatools #ideas
Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.
Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.
Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.
Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.
#opendata #datadocumentation #opensource #datatools #ideas
February 6
В рубрике интересной визуализации данных DataRepublican [1] проект по визуализации доноров и получателей средств НКО в США и ряд других визуализаций. Можно сказать этакое пересечение Республиканской партии США и дата журналистики, редкое явление, но можно убедиться что реальное. На них ссылаются Wikileaks [2] подсвечивая расходы денег налогоплательщиков США на Internews [3], НКО получавшую существенную долю средств от USAID и поддерживавшее значительную часть СМИ по всему миру.
Что характерно в аккаунте Wikileaks большая волна идёт против USAID [4] с публикациями множества документов подтверждающих что мол они "лицемерные нехорошие ребята" и прямой инструмент мягкой силы США. В общем немного странно видеть такое единодушие WikiLeaks и республиканских блогеров, но допускаю что что-то пропустил.
А теперь про чисто техническое
Сама визуализация на DataRepublican интересная ещё и по тому как она сделана. Я вначале думал что там какая-то графовая база данных внутри, вроде Neo4J и сложные запросы через openCypher, но всё оказалось интереснее. В графах они подгружают на клиента ZIP файлы с CSV файлами внутри, около 7 мегабайт и распаковывают и отображают их через Javascript.
Очень оригинальное решение, я давно такого не видел. Вместо API грузить на клиента большие заархивированные батчи и обрабатывать их там после распаковки.
У них всё это, данные и код, есть в открытом репозитории, можно будет как-нибудь изучить [5]
Ссылки:
[1] https://datarepublican.com
[2] https://x.com/wikileaks/status/1888098131537183170
[3] https://datarepublican.com/expose/?eins=943027961
[4] https://x.com/wikileaks
[5] https://github.com/DataRepublican/datarepublican
#opendata #opensource #wikileaks #dataviz
Что характерно в аккаунте Wikileaks большая волна идёт против USAID [4] с публикациями множества документов подтверждающих что мол они "лицемерные нехорошие ребята" и прямой инструмент мягкой силы США. В общем немного странно видеть такое единодушие WikiLeaks и республиканских блогеров, но допускаю что что-то пропустил.
А теперь про чисто техническое
Сама визуализация на DataRepublican интересная ещё и по тому как она сделана. Я вначале думал что там какая-то графовая база данных внутри, вроде Neo4J и сложные запросы через openCypher, но всё оказалось интереснее. В графах они подгружают на клиента ZIP файлы с CSV файлами внутри, около 7 мегабайт и распаковывают и отображают их через Javascript.
Очень оригинальное решение, я давно такого не видел. Вместо API грузить на клиента большие заархивированные батчи и обрабатывать их там после распаковки.
У них всё это, данные и код, есть в открытом репозитории, можно будет как-нибудь изучить [5]
Ссылки:
[1] https://datarepublican.com
[2] https://x.com/wikileaks/status/1888098131537183170
[3] https://datarepublican.com/expose/?eins=943027961
[4] https://x.com/wikileaks
[5] https://github.com/DataRepublican/datarepublican
#opendata #opensource #wikileaks #dataviz
February 10
В рубрике особо интересных наборов данных "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset [1] аннотированный набор данных фотографий собачьих фекалий объёмом в 42 гигабайт. Шутки-шутками, а очень полезный датасет для тех кто проектирует системы идентификации мусора и его уборки😉
Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.
Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]
Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂
Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0
#opendata #datasets #ipfs #torrents
Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.
Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]
Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂
Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0
#opendata #datasets #ipfs #torrents
February 10
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
hubofdata.ru
Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных
Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
February 11
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets
February 11
Полезные ссылки про данные, технологии и не только:
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.
Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai
#opensource #datatools #opendata #ai
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.
Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai
#opensource #datatools #opendata #ai
ebpf.io
eBPF - Introduction, Tutorials & Community Resources
eBPF is a revolutionary technology that can run sandboxed programs in the Linux kernel without changing kernel source code or loading a kernel module.
February 12
В рубрике интересных открытых данных проект The Data Liberation Project [1] создан командой НКО MuckRock [2] в США и содержит наборы данных которые они каким-либо способом получили, очистили, переформатировали и подготовили. В основном это данные интересные для журналистов и на которые благодаря их работе можно сослаться. Например, там есть датасет по использованию воды [3] из реестра USGS или база жалоб заключенных [4].
Значительная часть данных получена через FOI запросы к органами власти, а далее преобразована ими в форматы SQlite, превращено в веб сайты и тд.
Можно было бы назвать их каталогом данных, но скорее просто список. Значительную часть результатов они публикуют просто файлами на Google Drive. С другой стороны они готовят весьма осмысленную документацию на наборы данных [5].
Я вспомнил про него ещё и потому что увидел что MuckRock хостят онлайн мероприятие посвящённое архивации федеральных данных в США [6] с участием главы Интернет Архива, Марка Грехэма и Джека Кушмана из Harvard Law School Library Innovation Lab. Первые ведут проект End of term с архивом материалов прошлой администрации, а вторые сделали полный слепок данных data.gov на 16TB.
Ссылки:
[1] https://www.data-liberation-project.org
[2] https://www.muckrock.com
[3] https://www.data-liberation-project.org/datasets/usgs-water-use-inventory/
[4] https://www.data-liberation-project.org/datasets/federal-inmate-complaints/
[5] https://docs.google.com/document/d/1vTuyUFNqS9tex4_s4PgmhF8RTvTb-uFMN5ElDjjVHTM/edit?tab=t.0#heading=h.iw2h1hjfzqu0
[6] https://www.muckrock.com/news/archives/2025/feb/10/federal-data-is-disappearing-on-thursday-meet-the-teams-working-to-rescue-it-and-learn-how-you-can-help/
#opendata #opengov #digitalpreservation
Значительная часть данных получена через FOI запросы к органами власти, а далее преобразована ими в форматы SQlite, превращено в веб сайты и тд.
Можно было бы назвать их каталогом данных, но скорее просто список. Значительную часть результатов они публикуют просто файлами на Google Drive. С другой стороны они готовят весьма осмысленную документацию на наборы данных [5].
Я вспомнил про него ещё и потому что увидел что MuckRock хостят онлайн мероприятие посвящённое архивации федеральных данных в США [6] с участием главы Интернет Архива, Марка Грехэма и Джека Кушмана из Harvard Law School Library Innovation Lab. Первые ведут проект End of term с архивом материалов прошлой администрации, а вторые сделали полный слепок данных data.gov на 16TB.
Ссылки:
[1] https://www.data-liberation-project.org
[2] https://www.muckrock.com
[3] https://www.data-liberation-project.org/datasets/usgs-water-use-inventory/
[4] https://www.data-liberation-project.org/datasets/federal-inmate-complaints/
[5] https://docs.google.com/document/d/1vTuyUFNqS9tex4_s4PgmhF8RTvTb-uFMN5ElDjjVHTM/edit?tab=t.0#heading=h.iw2h1hjfzqu0
[6] https://www.muckrock.com/news/archives/2025/feb/10/federal-data-is-disappearing-on-thursday-meet-the-teams-working-to-rescue-it-and-learn-how-you-can-help/
#opendata #opengov #digitalpreservation
February 13
Data Rescue Project [1] - ещё один проект в США по архивации госданных. Делается группой исследовательских организаций, сохраняют данные сами и систематизируют сохранённое другими.
В общедоступном каталоге сейчас 87 источников данных [2]
Что характерно технически используют для работы Baserow [3] - open source аналог Airtable. У нас в рамках ruarxive.org всё собрано было в Airtable что уже неудобно и, возможно, стоит смигрировать в Baserow или Mathesar.
В случае Data Rescue Project можно ещё обратить внимание на объёмы, сейчас у них сохранено порядка 5 ТБ, что с одной стороны, не так уж много, а с другой, это же не архивы сайтов, а архив именно данных.
Ссылки:
[1] https://www.datarescueproject.org/
[2] https://baserow.datarescueproject.org/public/grid/Nt_M6errAkVRIc3NZmdM8wcl74n9tFKaDLrr831kIn4
[3] https://baserow.io/
#opendata #webarchives #digitalpreservation
В общедоступном каталоге сейчас 87 источников данных [2]
Что характерно технически используют для работы Baserow [3] - open source аналог Airtable. У нас в рамках ruarxive.org всё собрано было в Airtable что уже неудобно и, возможно, стоит смигрировать в Baserow или Mathesar.
В случае Data Rescue Project можно ещё обратить внимание на объёмы, сейчас у них сохранено порядка 5 ТБ, что с одной стороны, не так уж много, а с другой, это же не архивы сайтов, а архив именно данных.
Ссылки:
[1] https://www.datarescueproject.org/
[2] https://baserow.datarescueproject.org/public/grid/Nt_M6errAkVRIc3NZmdM8wcl74n9tFKaDLrr831kIn4
[3] https://baserow.io/
#opendata #webarchives #digitalpreservation
February 14