Для тех кто ищет особо крупные наборы данных для работы так чтобы побольше и посложнее напомню крупные источники общедоступных данных большого объёма.
- коллекция Datasets [1] в Интернет архиве - много дампов общедоступных публичных архивов
- дампы проектов фонда Wikimedia (Wikipedia и др.) [2] - большие данные в XML, SQL и других формах.
- реестр открытых данных на платформе AWS [3] - более 305 наборов данных
- Common Crawl [4] - общедоступный огромный поисковый индекс, часто используется в задачах OSINT
- Microsoft Academic Knowledge Graph (MAKG) [5] огромный граф по научным статьям и их авторам скомпилированный исследовательским подразделением Microsoft из многих источников
О некоторых из этих наборов данных я писал ранее и о многих напишу ещё не раз в рубрике #datasets
Ссылки:
[1] https://archive.org/details/datasets
[2] https://dumps.wikimedia.org/
[3] https://registry.opendata.aws/
[4] https://commoncrawl.org/
[5] https://makg.org/
#datasets #opendata
- коллекция Datasets [1] в Интернет архиве - много дампов общедоступных публичных архивов
- дампы проектов фонда Wikimedia (Wikipedia и др.) [2] - большие данные в XML, SQL и других формах.
- реестр открытых данных на платформе AWS [3] - более 305 наборов данных
- Common Crawl [4] - общедоступный огромный поисковый индекс, часто используется в задачах OSINT
- Microsoft Academic Knowledge Graph (MAKG) [5] огромный граф по научным статьям и их авторам скомпилированный исследовательским подразделением Microsoft из многих источников
О некоторых из этих наборов данных я писал ранее и о многих напишу ещё не раз в рубрике #datasets
Ссылки:
[1] https://archive.org/details/datasets
[2] https://dumps.wikimedia.org/
[3] https://registry.opendata.aws/
[4] https://commoncrawl.org/
[5] https://makg.org/
#datasets #opendata
Я регулярно пишу о том что у многих информационных систем и иных публичных ресурсов государства есть много недокументированных API. Причём эти API имеют, как правило, две истории происхождения:
a) API сделанные разработчиками для работы каких-то компонентов и ни разу не документированные, например, если сайт сделан с использованим Ajax технологии.
б) API предусмотренное изначально создателем платформы выбранной разработчиками. Например, API использованной CMS.
Приведу примеры того в какой форме такое API бывает.
Сайт Финансового университета fa.ru сделан на Sharepoint, CMS от Microsoft чаще используемой для внутри-корпоративных сайтов и реже для сайтов в Интернете. У последних версий Sharepoint доступ к данным осуществляется через API по ссылке "/_api". Для Финуниверситета это www.fa.ru/_api/ и по этой ссылке можно далее, особенно если почитать документацию на Sharepoint, осуществлять навигацию по сайту. Обычно это начинается со ссылки www.fa.ru/_api/web где по расширенному протоколу Atom отдаётся описание хранящихся в списках сайта материалов.
Сайт Рособрнадзора obrnadzor.gov.ru сделан на CMS Wordpress. Wordpress - это одна из наиболее популярных CMS в мире, скорее всего наиболее популярная. Вот уже несколько версий в этой CMS есть специальная ссылка "/wp-json/" позволяющая получать данные содержимого сайта (не вёрстки, а контента!) в машиночитаемом виде. Поэтому и содержание сайта Рособрнадзора можно выкачать специальным краулером по адресу obrnadzor.gov.ru/wp-json/ . Кроме Рособрнадзора на Wordpress созданы сайты ещё многих сайтов.
У Санкт-Петербургского государствнного университета есть система Архива публичного доступа dspace.spbu.ru как кто-то уже догадался, сделанный на платформе DSPace используемой тысячами научных и иных организаций по всему миру. У DSPace есть API, вполне документированное, но не выносимое на главные страницы инсталляции платформы, доступное по ссылке "/rest/". В случае СПбГУ это ссылка на API dspace.spbu.ru/rest/.
DSPace используется не только ВУЗами, но и межгосударственными организациями такими как Всемирная организация здравоохранения. ВОЗ публикует свои материалы в системе IRIS, Институциональное хранилище для обмена информацией. IRIS, также, создано на базе DSPace и открыто его API apps.who.int/iris/rest/
Недокументированные API оставленные разработчиками присутствуют, например, на сайтах Мэра и Правительства Москвы www.mos.ru и портала Электронный бюджет budget.gov.ru из-за чего они плохо индексируются поисковыми системами. Сами API можно выявить просматривая запросы браузера к страницам сайтов.
Федеральная пробирная палата отдаёт все страницы на своём официальном сайте probpalata.ru из-за использования в качестве CMS движка для документооборота. Об этом я писал отдельно https://t.iss.one/begtin/3283, до сих пор удивляюсь этой истории.
Конечно есть редкие примеры документированных госAPI. Конечно многие из примеров API из CMS относятся и к корпоративному сектору и всем остальным и, конечно, далеко не все примеры я сейчас привел, на практике их значительно больше.
Из всего этого я обращаю внимание на следующее:
1) Фактическая доступность данных часто выше чем наблюдаемая (документированная) доступность.
2) Системной работы над доступностью данных и програмнных интерфейсов из госсистем у нас в стране всё ещё нет. Нет аналогов платформ API как в других странах.
3) Конечно, API, не заменяет возможно массовой выгрузки (bulk download) данных. Иногда, даже при доступности такого API, чтобы выгрузить данные надо делать миллионы запросов к системе, что может занимать долгое время при медленном отклике от системы.
#openapi #api #data #govwebsites
a) API сделанные разработчиками для работы каких-то компонентов и ни разу не документированные, например, если сайт сделан с использованим Ajax технологии.
б) API предусмотренное изначально создателем платформы выбранной разработчиками. Например, API использованной CMS.
Приведу примеры того в какой форме такое API бывает.
Сайт Финансового университета fa.ru сделан на Sharepoint, CMS от Microsoft чаще используемой для внутри-корпоративных сайтов и реже для сайтов в Интернете. У последних версий Sharepoint доступ к данным осуществляется через API по ссылке "/_api". Для Финуниверситета это www.fa.ru/_api/ и по этой ссылке можно далее, особенно если почитать документацию на Sharepoint, осуществлять навигацию по сайту. Обычно это начинается со ссылки www.fa.ru/_api/web где по расширенному протоколу Atom отдаётся описание хранящихся в списках сайта материалов.
Сайт Рособрнадзора obrnadzor.gov.ru сделан на CMS Wordpress. Wordpress - это одна из наиболее популярных CMS в мире, скорее всего наиболее популярная. Вот уже несколько версий в этой CMS есть специальная ссылка "/wp-json/" позволяющая получать данные содержимого сайта (не вёрстки, а контента!) в машиночитаемом виде. Поэтому и содержание сайта Рособрнадзора можно выкачать специальным краулером по адресу obrnadzor.gov.ru/wp-json/ . Кроме Рособрнадзора на Wordpress созданы сайты ещё многих сайтов.
У Санкт-Петербургского государствнного университета есть система Архива публичного доступа dspace.spbu.ru как кто-то уже догадался, сделанный на платформе DSPace используемой тысячами научных и иных организаций по всему миру. У DSPace есть API, вполне документированное, но не выносимое на главные страницы инсталляции платформы, доступное по ссылке "/rest/". В случае СПбГУ это ссылка на API dspace.spbu.ru/rest/.
DSPace используется не только ВУЗами, но и межгосударственными организациями такими как Всемирная организация здравоохранения. ВОЗ публикует свои материалы в системе IRIS, Институциональное хранилище для обмена информацией. IRIS, также, создано на базе DSPace и открыто его API apps.who.int/iris/rest/
Недокументированные API оставленные разработчиками присутствуют, например, на сайтах Мэра и Правительства Москвы www.mos.ru и портала Электронный бюджет budget.gov.ru из-за чего они плохо индексируются поисковыми системами. Сами API можно выявить просматривая запросы браузера к страницам сайтов.
Федеральная пробирная палата отдаёт все страницы на своём официальном сайте probpalata.ru из-за использования в качестве CMS движка для документооборота. Об этом я писал отдельно https://t.iss.one/begtin/3283, до сих пор удивляюсь этой истории.
Конечно есть редкие примеры документированных госAPI. Конечно многие из примеров API из CMS относятся и к корпоративному сектору и всем остальным и, конечно, далеко не все примеры я сейчас привел, на практике их значительно больше.
Из всего этого я обращаю внимание на следующее:
1) Фактическая доступность данных часто выше чем наблюдаемая (документированная) доступность.
2) Системной работы над доступностью данных и програмнных интерфейсов из госсистем у нас в стране всё ещё нет. Нет аналогов платформ API как в других странах.
3) Конечно, API, не заменяет возможно массовой выгрузки (bulk download) данных. Иногда, даже при доступности такого API, чтобы выгрузить данные надо делать миллионы запросов к системе, что может занимать долгое время при медленном отклике от системы.
#openapi #api #data #govwebsites
www.fa.ru
Финансовый университет при Правительстве РФ | Главная
«Один из старейших российских вузов, готовящих экономистов, финансистов, юристов по финансовому праву, математиков, ИТ-специалистов, социологов и политологов»
Forwarded from Инфокультура
В каталог откртыых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории:
Мировой центр данных - Б «Океанография»
Мировой центр данных Б Океанография действует на базе Национального центра океанографических данных ФГБУ «ВНИИГМИ-МЦД» и обеспечивает хранение и обслуживание пользователей данными о физических, химических и динамических параметрах Мирового океана
Мировой центр радиационных данных
Мировой Центр Радиационных Данных (МЦРД) - один из признанных мировых
центров данных, спонсируемых Всемирной Метеорогической Организацией (ВМО).
МЦРД является лабораторией Главной геофизической обсерватории им.А.И.Воейкова,
Федеральной Службы России по Гидрометеорологии и Мониторингу Окружающей Среды, бывшего Государственного Комитета по Гидрометеорологии СССР, и
расположена в Санкт-Петербурге.
Университетская информационная система Россия
Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и целенаправленно развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук.
—
Все 3 новых источника являются научными каталогами данных, а мировые центры данных входят в систему ISC World Data System (ISC-WDS)
Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.
#opendata #datasets #datacatalogs
Мировой центр данных - Б «Океанография»
Мировой центр данных Б Океанография действует на базе Национального центра океанографических данных ФГБУ «ВНИИГМИ-МЦД» и обеспечивает хранение и обслуживание пользователей данными о физических, химических и динамических параметрах Мирового океана
Мировой центр радиационных данных
Мировой Центр Радиационных Данных (МЦРД) - один из признанных мировых
центров данных, спонсируемых Всемирной Метеорогической Организацией (ВМО).
МЦРД является лабораторией Главной геофизической обсерватории им.А.И.Воейкова,
Федеральной Службы России по Гидрометеорологии и Мониторингу Окружающей Среды, бывшего Государственного Комитета по Гидрометеорологии СССР, и
расположена в Санкт-Петербурге.
Университетская информационная система Россия
Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и целенаправленно развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук.
—
Все 3 новых источника являются научными каталогами данных, а мировые центры данных входят в систему ISC World Data System (ISC-WDS)
Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.
#opendata #datasets #datacatalogs
datacatalogs.ru/
Каталог каталогов открытых данных
Поиск и фильтрация каталогов открытых данных
По поводу Роснано я не могу не вспомнить о том как Минэкономразвития формировало Реестр некоммерческих организаций, в наибольшей степени пострадавших в условиях ухудшения ситуации в результате распространения новой коронавирусной инфекции [1] где сейчас перечисленно 15852 организации.
В том числе этот реестр обновляли в апреле 2021 года [2].
Этот реестр создавался по Постановлению Пр-ва РФ от 11 июня 2020 г. № 847 [3], по сути в нем было прописано что его формируют ФОИВы по собственным _непрозрачным критериям_.
Сейчас это постановление утратило силу и вместо него формируют новый реестр СО НКО, его правила формирования прописаны в Постановлении Правительства Российской Федерации от 30.07.2021 № 1290 "О реестре социально ориентированных некоммерческих организаций" [4]
Так вот вопрос - кто войдет в этот реестр?
Например, в текущем реестре присутствуют НКО находящиеся в 100% подчинении Правительству или Госкорпорации и не являющиеся благотворительными, а, по сути, выполняющие функции "агентов Правительства". У того же Роснано всё ещё есть Фонд инфраструктурных и образовательных программ [5] на котором сейчас значительная часть проектов Роснано. Так вот в апреле 2021 г. он был включён Минэкономразвития России в перечень этих самых наиболее постарадавших НКО [6]. Чтобы было понятнее, у ФИОПа выручка за 2020 год 3.4 миллиарда рублей, а за 2019 г. 1.8 миллиардов рублей. Всего на 2020 год у ФИОП 25 млрд. рублей активов [7] и это не единственная из крупнейших госНКО "особенно постарадавших от коронавируса".
Я писал о "косяках" реестров СОНКО ещё в июне 2020 года в колонке для РБК [8], с той поры ничего не изменилось.
Здесь должна быть какая-то мораль и завершающая мысль, но всё не могу сформулировать и уже почти не удивляюсь.
Ссылки:
[1] https://data.economy.gov.ru/analytics/sonko-affected/all
[2] https://economy.gov.ru/material/dokumenty/reestr_nko.html
[3] https://pravo.gov.ru/proxy/ips/?docbody=&prevDoc=102710737&backlink=1&&nd=102751
[4] https://publication.pravo.gov.ru/Document/View/0001202108020026?index=0&rangeSize=1
[5] https://fiop.site
[6] https://data.economy.gov.ru/analytics/sonko-affected/all
[7] https://bo.nalog.ru/organizations-card/2943128
[8] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
#ngo #sonko #covid19
В том числе этот реестр обновляли в апреле 2021 года [2].
Этот реестр создавался по Постановлению Пр-ва РФ от 11 июня 2020 г. № 847 [3], по сути в нем было прописано что его формируют ФОИВы по собственным _непрозрачным критериям_.
Сейчас это постановление утратило силу и вместо него формируют новый реестр СО НКО, его правила формирования прописаны в Постановлении Правительства Российской Федерации от 30.07.2021 № 1290 "О реестре социально ориентированных некоммерческих организаций" [4]
Так вот вопрос - кто войдет в этот реестр?
Например, в текущем реестре присутствуют НКО находящиеся в 100% подчинении Правительству или Госкорпорации и не являющиеся благотворительными, а, по сути, выполняющие функции "агентов Правительства". У того же Роснано всё ещё есть Фонд инфраструктурных и образовательных программ [5] на котором сейчас значительная часть проектов Роснано. Так вот в апреле 2021 г. он был включён Минэкономразвития России в перечень этих самых наиболее постарадавших НКО [6]. Чтобы было понятнее, у ФИОПа выручка за 2020 год 3.4 миллиарда рублей, а за 2019 г. 1.8 миллиардов рублей. Всего на 2020 год у ФИОП 25 млрд. рублей активов [7] и это не единственная из крупнейших госНКО "особенно постарадавших от коронавируса".
Я писал о "косяках" реестров СОНКО ещё в июне 2020 года в колонке для РБК [8], с той поры ничего не изменилось.
Здесь должна быть какая-то мораль и завершающая мысль, но всё не могу сформулировать и уже почти не удивляюсь.
Ссылки:
[1] https://data.economy.gov.ru/analytics/sonko-affected/all
[2] https://economy.gov.ru/material/dokumenty/reestr_nko.html
[3] https://pravo.gov.ru/proxy/ips/?docbody=&prevDoc=102710737&backlink=1&&nd=102751
[4] https://publication.pravo.gov.ru/Document/View/0001202108020026?index=0&rangeSize=1
[5] https://fiop.site
[6] https://data.economy.gov.ru/analytics/sonko-affected/all
[7] https://bo.nalog.ru/organizations-card/2943128
[8] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
#ngo #sonko #covid19
На хабре публикация [1] про Quite OK Image [2] проект по быстрому сжатию изображений который сравнивают с форматом PNG, на самом деле, давно устаревший для Web'а и заменённый .webp и сравнения очень условные. Автор и сам признается что ничего не понимает в криптографии и просто решил сделать эксперимент, но внезапно "обрел славу" изобретателя нового формата. При том что сложного алгоритма там нет, а лишь доработанный формат RLE (Run length encoding), с некоторыми неплохими идеями, правда.
Но, я скажу так, практического применения немного. Изображения и видео съедают много трафика, а конечные устройства пользователей всё больше включают процессы и видеопроцессоры для достаточно быстрого раскодирования. Гонка идёт на балансе уровня сжатия и скорости разсжатия, а вот скорость сжатия изображений далеко не так критична.
Где это действительно применимо - это малые изображения, до 64 килобайт и особенно в играх где не популярен формат webp. Разработчики игр, правда, давно уже используют разнообразные собственные форматы хранения спрайтов и отдельных графических элементов.
В общем и целом ажиотаж не обоснован. А из интересных, необычных, алгоритмов и инструментов сжатия я могу посоветовать посмотреть Precomp [2] утилита от Кристиана Шнаадера по пере-сжатию архивов, иногда может уменьших существующий архив в несколько раз через пересжимание содержимого архива более эффективными алгоритмами. А также посмотреть на промежуточных победителей Global Data Compression Competitions 2021 (GDCC) [4] там много очень интересных проектов/решений/алгоритмов, как правило довольно сложных. И почти во всех случаях экспериментальных, практически не используемых в промышленных системах.
Между прочим, для хранения данных проблемы компрессии также крайне актуальны и, если для оперативных данных используются, в основном, lz4, gzip, xzip, bzip2, то для долгосрочной архивации структурированных данных могут быть и другие алгоритмы, дающие лучшее сжатие с приемлимой скоростью.
Ссылки:
[1] https://habr.com/ru/news/t/591577/
[2] https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression
[3] https://schnaader.info/precomp.php
[4] https://www.gdcc.tech/
#compression #algorithms
Но, я скажу так, практического применения немного. Изображения и видео съедают много трафика, а конечные устройства пользователей всё больше включают процессы и видеопроцессоры для достаточно быстрого раскодирования. Гонка идёт на балансе уровня сжатия и скорости разсжатия, а вот скорость сжатия изображений далеко не так критична.
Где это действительно применимо - это малые изображения, до 64 килобайт и особенно в играх где не популярен формат webp. Разработчики игр, правда, давно уже используют разнообразные собственные форматы хранения спрайтов и отдельных графических элементов.
В общем и целом ажиотаж не обоснован. А из интересных, необычных, алгоритмов и инструментов сжатия я могу посоветовать посмотреть Precomp [2] утилита от Кристиана Шнаадера по пере-сжатию архивов, иногда может уменьших существующий архив в несколько раз через пересжимание содержимого архива более эффективными алгоритмами. А также посмотреть на промежуточных победителей Global Data Compression Competitions 2021 (GDCC) [4] там много очень интересных проектов/решений/алгоритмов, как правило довольно сложных. И почти во всех случаях экспериментальных, практически не используемых в промышленных системах.
Между прочим, для хранения данных проблемы компрессии также крайне актуальны и, если для оперативных данных используются, в основном, lz4, gzip, xzip, bzip2, то для долгосрочной архивации структурированных данных могут быть и другие алгоритмы, дающие лучшее сжатие с приемлимой скоростью.
Ссылки:
[1] https://habr.com/ru/news/t/591577/
[2] https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression
[3] https://schnaader.info/precomp.php
[4] https://www.gdcc.tech/
#compression #algorithms
Хабр
Разработчик представил Quite OK Image, алгоритм сжатия без потерь со сложностью O(n)
Разработчик Доминик Саблевски (Dominic Szablewski) представил алгоритм QOI (Quite OK Image), который позволяет без потерь сжимать RGB и RGBA изображения до размера файла, аналогичного для формата...
В The Guardian колонка [1] Jeffrey Barrett о том что южноафриканские ученые опубликовавшие расшифровку штамма COVID-19 - Omicron являются героями.
Автор является руководителем геномной инициативы по Covid-19 при Wellcome Sanger Institute и упоминает такое важное и совершенно новое явление как genomic surveillance генетическая слежка уникальная тем что ученые расшифровывают геномы и публикуют результаты в открытом доступе практически моментально. Раньше это было невозможно представить, а сейчас масштабы взаимодействия между учёными огромны и опубликовано уже более 5.5 миллионов геномов.
Автор предлагает найти способ вознаградить исследователей из Ботсваны и ЮАР опубликовавших сведения об Omicron сразу же после находки, 23 ноября, и благодаря этому правительства стран и ВОЗ начали реагировать максимально оперативно.
И здесь есть два важнейших аспекта:
1) Это реальный настоящий и непрерывно действующий пример критичности открытости данных. Как минимум в решении глобальных проблем. Если бы все самые опасные болезни и проблемы человечества решались так же, то, быть может, и мир был бы другим.
2) Межгосударственные организации, такие как ВОЗ, стремительно образующиеся консорциумы вокруг центров компетенций и так далее осознают важность открытых данных. То что в России на национальном уровне забыли про это, это не означает что тема потеряла актуальность в мире. Потому что нельзя быть частью мира и избегать делать то что делать нужно и важно.
Ссылки:
[1] https://www.theguardian.com/commentisfree/2021/nov/28/scientists-sharing-omicron-date-were-heroic-lets-ensure-they-dont-regret-it
#opendata #covid19
Автор является руководителем геномной инициативы по Covid-19 при Wellcome Sanger Institute и упоминает такое важное и совершенно новое явление как genomic surveillance генетическая слежка уникальная тем что ученые расшифровывают геномы и публикуют результаты в открытом доступе практически моментально. Раньше это было невозможно представить, а сейчас масштабы взаимодействия между учёными огромны и опубликовано уже более 5.5 миллионов геномов.
Автор предлагает найти способ вознаградить исследователей из Ботсваны и ЮАР опубликовавших сведения об Omicron сразу же после находки, 23 ноября, и благодаря этому правительства стран и ВОЗ начали реагировать максимально оперативно.
И здесь есть два важнейших аспекта:
1) Это реальный настоящий и непрерывно действующий пример критичности открытости данных. Как минимум в решении глобальных проблем. Если бы все самые опасные болезни и проблемы человечества решались так же, то, быть может, и мир был бы другим.
2) Межгосударственные организации, такие как ВОЗ, стремительно образующиеся консорциумы вокруг центров компетенций и так далее осознают важность открытых данных. То что в России на национальном уровне забыли про это, это не означает что тема потеряла актуальность в мире. Потому что нельзя быть частью мира и избегать делать то что делать нужно и важно.
Ссылки:
[1] https://www.theguardian.com/commentisfree/2021/nov/28/scientists-sharing-omicron-date-were-heroic-lets-ensure-they-dont-regret-it
#opendata #covid19
В рубрике полезных инструментов работы с данными, подборка инструментов для сбора и анализа данных с моими комментариями.
- Article extraction benchmark [1] сравнение качества работы большого числа инструментов с открытым кодом и некоторых коммерческих сервисов по извлечению статей/текстов из веб-страниц. В общей сложности 17 движков, с открытым кодом на первом месте trafilatura [2]
- Dagster [3] - ETL/ELT движок для data orchestration (управления потоками данных) с открытым кодом. Буквально совсем недавно они получили $14M финансирования на стартап Elementl [4] который будет предоставлять услуги в облаке, а открытый продукт останется в режиме open core, а то есть будет развиваться параллельно созданию облачного продукта. В целом стратегия понятная и распространённая и продукт неплохой, хочется надеяться что он станет ещё лучше.
- Apache Superset [5] и Metabase [6] - open-source инструменты по быстрому развертыванию систем визуализации бизнес аналитики. Superset только с открытым кодом, Metabase в гибридной модели где частично открытый код, а часть возможностей уже только в pro версии и в облаке за деньги.
- Frictionless Data [7] - на сегодняшний день наиболее проработанный стандарт обмена табличными данными а ля CSV. Данные упаковываются в специальный ZIP контейнер и включают необходимые метаданные для их использования. Авторы с самого начала нацелились на научную среду и много внедрений именно в каталогах исследовательских данных [8]. Формируют большую экосистему продуктов/сервисов/форматов с открытым кодом.
- Data Curator [9] один из продуктов поддерживающих Frictionless Data используемый для подготовки пакетов данных. Полезный для не-программистов поскольку позволяет заполнить необходимые метаданные в графическом интерфейсе. Много лет его авторы не развивали, но вернулись снова к проекту в 2020 году.
- Validata [10] сервис проверки CSV файлов на соответствие схемам данных во Франции. Создан их федеральной ИТ службой Etalab для проверки публикации данных местными властями. Также основан на инструментах и спецификации Frictionless Data.
- Open Data Blend [11] - набор коммерческих сервисов по доступу к данным, аналитике и другим инструментам по работе с открытыми данными в Великобритании. Был, отчасти, прообразом того что наша команда делает в виде проекта DataCrafter, но оформлено у них визуально получше, так что нам есть над чем работать.
Если знаете какие-то не самые популярные, но полезные продукты с открытым кодом или сервисы по работе с данными, приходите обсуждать их в чат @begtinchat к этому каналу.
Ссылки:
[1] https://github.com/scrapinghub/article-extraction-benchmark
[2] https://github.com/adbar/trafilatura
[3] https://dagster.io
[4] https://dagster.io/blog/decade-of-data
[5] https://superset.apache.org/
[6] https://www.metabase.com/
[7] https://frictionlessdata.io
[8] https://frictionlessdata.io/adoption/#pilot-collaborations
[9] https://github.com/qcif/data-curator
[10] https://validata.fr/doku.php
[11] https://www.opendatablend.io/
#data #tools #opensource #datatools
- Article extraction benchmark [1] сравнение качества работы большого числа инструментов с открытым кодом и некоторых коммерческих сервисов по извлечению статей/текстов из веб-страниц. В общей сложности 17 движков, с открытым кодом на первом месте trafilatura [2]
- Dagster [3] - ETL/ELT движок для data orchestration (управления потоками данных) с открытым кодом. Буквально совсем недавно они получили $14M финансирования на стартап Elementl [4] который будет предоставлять услуги в облаке, а открытый продукт останется в режиме open core, а то есть будет развиваться параллельно созданию облачного продукта. В целом стратегия понятная и распространённая и продукт неплохой, хочется надеяться что он станет ещё лучше.
- Apache Superset [5] и Metabase [6] - open-source инструменты по быстрому развертыванию систем визуализации бизнес аналитики. Superset только с открытым кодом, Metabase в гибридной модели где частично открытый код, а часть возможностей уже только в pro версии и в облаке за деньги.
- Frictionless Data [7] - на сегодняшний день наиболее проработанный стандарт обмена табличными данными а ля CSV. Данные упаковываются в специальный ZIP контейнер и включают необходимые метаданные для их использования. Авторы с самого начала нацелились на научную среду и много внедрений именно в каталогах исследовательских данных [8]. Формируют большую экосистему продуктов/сервисов/форматов с открытым кодом.
- Data Curator [9] один из продуктов поддерживающих Frictionless Data используемый для подготовки пакетов данных. Полезный для не-программистов поскольку позволяет заполнить необходимые метаданные в графическом интерфейсе. Много лет его авторы не развивали, но вернулись снова к проекту в 2020 году.
- Validata [10] сервис проверки CSV файлов на соответствие схемам данных во Франции. Создан их федеральной ИТ службой Etalab для проверки публикации данных местными властями. Также основан на инструментах и спецификации Frictionless Data.
- Open Data Blend [11] - набор коммерческих сервисов по доступу к данным, аналитике и другим инструментам по работе с открытыми данными в Великобритании. Был, отчасти, прообразом того что наша команда делает в виде проекта DataCrafter, но оформлено у них визуально получше, так что нам есть над чем работать.
Если знаете какие-то не самые популярные, но полезные продукты с открытым кодом или сервисы по работе с данными, приходите обсуждать их в чат @begtinchat к этому каналу.
Ссылки:
[1] https://github.com/scrapinghub/article-extraction-benchmark
[2] https://github.com/adbar/trafilatura
[3] https://dagster.io
[4] https://dagster.io/blog/decade-of-data
[5] https://superset.apache.org/
[6] https://www.metabase.com/
[7] https://frictionlessdata.io
[8] https://frictionlessdata.io/adoption/#pilot-collaborations
[9] https://github.com/qcif/data-curator
[10] https://validata.fr/doku.php
[11] https://www.opendatablend.io/
#data #tools #opensource #datatools
GitHub
GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts
Article extraction benchmark: dataset and evaluation scripts - scrapinghub/article-extraction-benchmark
Для тех кто интересуется где взять интересных данных для отраслевых проектов напомню о проекте "Карты данных" [1] со схемами данных:
- «Данные об авиации»
- «Данные об экологии»
- «Данные в образовании»
- «Данные о госфинансах»
- «Данные в здравоохранении»
- «Данные в законотворчестве»
- «Данные о нефти и газе».
С 2018 года мы их не обновляли, часть ссылок может устареть, но большая часть всё ещё актуальны. Карты данных не помогают в обработке данных, но дают возможность структурировать поиск нужных данных.
Поэтому сейчас мы не делаем карты потому что большую ценность имеет каталогизация данных, но и уже созданное может пригодится в работе.
Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/
#opendata #datasets
- «Данные об авиации»
- «Данные об экологии»
- «Данные в образовании»
- «Данные о госфинансах»
- «Данные в здравоохранении»
- «Данные в законотворчестве»
- «Данные о нефти и газе».
С 2018 года мы их не обновляли, часть ссылок может устареть, но большая часть всё ещё актуальны. Карты данных не помогают в обработке данных, но дают возможность структурировать поиск нужных данных.
Поэтому сейчас мы не делаем карты потому что большую ценность имеет каталогизация данных, но и уже созданное может пригодится в работе.
Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/
#opendata #datasets
Для тех кто ищет международные данные и не знает где они могут быть, порталы и проекты данных ООН.
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.
- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA
А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.
#datasets #opendata #un
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.
- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA
А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.
#datasets #opendata #un
data.unhabitat.org
Urban Indicators Database
Explore, visualize, compare and download urban indicators data
Правительство решило расширить список [1] предустанавливаемого ПО программами для чтения книг
Инициатива которую я очень осуждаю - это всё что касается предустановки ПО.
Есть много причин почему вся она - одна большая ошибка:
1. Потребитель в минусе. Гражданина/потребителя/избирателя не спрашивают, не дают выбора из нескольких программ или отказа от их установки на этапе предустановки. Вместо этого безальтернативное одно приложение.
2. Большие становятся больше, малый и средний бизнес в пролёте. Предустановка ПО у которого от 500 тысяч инсталляций - это не про малый или средний бизнес, это про консолидацию рынка мобильных приложений и сверконсолидации в нескольких крупных игроках.
3. Правительство несёт ответственность за коммерческую слежку. А вот это особенно важный момент. Пока органы власти и Пр-во осуществляли регулирование, то они были, как бы, вне схватки. А теперь Правительство отвечает за всю слежку которую за пользователями ведут предустановленные приложения.
Ну и в который раз не могу не отметить что видно что есть лоббисты разработчиков приложений расширяющие этот список, но оказывается нет лоббистов интересов граждан. Интересы граждан не представлены, а значит это расширение списка не последнее.
Ссылки:
[1] https://government.ru/news/43958/
#mobile #privacy
Инициатива которую я очень осуждаю - это всё что касается предустановки ПО.
Есть много причин почему вся она - одна большая ошибка:
1. Потребитель в минусе. Гражданина/потребителя/избирателя не спрашивают, не дают выбора из нескольких программ или отказа от их установки на этапе предустановки. Вместо этого безальтернативное одно приложение.
2. Большие становятся больше, малый и средний бизнес в пролёте. Предустановка ПО у которого от 500 тысяч инсталляций - это не про малый или средний бизнес, это про консолидацию рынка мобильных приложений и сверконсолидации в нескольких крупных игроках.
3. Правительство несёт ответственность за коммерческую слежку. А вот это особенно важный момент. Пока органы власти и Пр-во осуществляли регулирование, то они были, как бы, вне схватки. А теперь Правительство отвечает за всю слежку которую за пользователями ведут предустановленные приложения.
Ну и в который раз не могу не отметить что видно что есть лоббисты разработчиков приложений расширяющие этот список, но оказывается нет лоббистов интересов граждан. Интересы граждан не представлены, а значит это расширение списка не последнее.
Ссылки:
[1] https://government.ru/news/43958/
#mobile #privacy
Совершенно занимательная история о том что Мировой банк отказывается раскрывать результаты аудита договоров и сами тексты договоров с получателями средств [1]. Автор и ещё несколько представителей НКО запрашивали у представителей Мирового Банка сведения по контрактам заключённым в рамках мер противодействия COVID-19 и нескольких контрактов банка с его кредитополучателями.
Представители банка отказали в их предоставлении, но мировая бюрократия на то и мировая бюрократия чтобы там была процедура обжалования. И вот, например, 3 ноября банк опубликовал результаты рассмотрения жалобы (Appeal #88) [2] на получение данных о контракте в рамках финансирования по COVID-19 правительства Сьерра-Леоне. Самое интересное что в формулировках отказа присутствует упоминание о том что раскрытие содержание контракта в процессе его исполнения может нести репутационные риски для банка () и создать напряжение в отношениях между банком и получателем средств (в оригинале - Disclosing such information during a project under implementation may cause reputational risk to the Bank and strain the relationship between the Bank and the borrower).
Ко всему можно прибавить неспешность бюрократии банка.
- 2 ноября 2020 года они получают запрос на доступ к информации
- 23 февраля 2021 года банк отказывает предоставить сведения
- 29 марта 2021 года банк получает запрос на обжалование решения об отказе
- 3 ноября 2021 года банк публикует результаты рассмотрения обжалования
Там же автор упоминает и многие другие запросы, например, на сведения о контрактах на финансирование инфраструктуры обогрева в Вильнюсе (Литва) в 2002-2003 годах (Appeal #76) [3], а также проектах в Камеруне, Мозамбике, Буркина Фасо и других странах. Во всех решениях в отказе от раскрытия информации представители банка ссылаются на "prerogative" (исключительное право) в отказе от раскрытия информации в случае если представители банка считают что ущерб от раскрытия сведений перевешивает возможную пользу.
Похожая ситуация была в 2015 году когда Freedom Info запрашивали у банка сведения о контракте на выкачку воды из затопленной шахты в Сербии [4].
Вся описанная история интересна сразу с нескольких сторон:
1. Не стоит идеализировать открытость международных организаций, она работает только под постоянным давлением извне и часто значительно замедлена.
2. Можно обратить внимание на классический юридический подход к доступу информации через запросы. То что исследователи The GovLab определяли как "первую волну открытых данных" когда их можно было получить только через запросы на открытие сведений (Freedom of Information Requests).
3. Интересно что процедура обжалования непредоставления сведений и наличие специальной группы внутри банка ответственной за рассмотрение жалоб и тот факт что каждое рассмотрение практически как судебное решение, публикуется довольно подробно.
4. Важна и та часть где банк связывается с получателями средств, правительствами стран, запрашивая их разрешение на предоставление документов третьим сторонам (запрашивающим эти документы). Это, конечно, совсем не модель открытости по умолчанию, по видимому у Мирового Банка в договорах нет пункта о праве на раскрытие информации в одностороннем порядке, или не во всех договорах.
Ссылки:
[1] https://eyeonglobaltransparency.net/2021/11/12/world-bank-refuses-public-access-to-contract-reviews-and-contract-texts-too/
[2] https://thedocs.worldbank.org/en/doc/7d690d60be37ed3debef4bd51e63268b-0090012021/original/AIC-Decision-Case-AI7243-Merits.pdf
[3] https://thedocs.worldbank.org/en/doc/d16cfcc3a736d7bcd72b07fe9f2c5a3b-0090012020/original/AIC-Appeal-76-Case-AI6359-1.pdf
[4] https://www.freedominfo.org/2015/02/world-bank-rejects-request-for-serbian-project-report/
#opendata #spending #contracts #worldbank #covid19 #transparency
Представители банка отказали в их предоставлении, но мировая бюрократия на то и мировая бюрократия чтобы там была процедура обжалования. И вот, например, 3 ноября банк опубликовал результаты рассмотрения жалобы (Appeal #88) [2] на получение данных о контракте в рамках финансирования по COVID-19 правительства Сьерра-Леоне. Самое интересное что в формулировках отказа присутствует упоминание о том что раскрытие содержание контракта в процессе его исполнения может нести репутационные риски для банка () и создать напряжение в отношениях между банком и получателем средств (в оригинале - Disclosing such information during a project under implementation may cause reputational risk to the Bank and strain the relationship between the Bank and the borrower).
Ко всему можно прибавить неспешность бюрократии банка.
- 2 ноября 2020 года они получают запрос на доступ к информации
- 23 февраля 2021 года банк отказывает предоставить сведения
- 29 марта 2021 года банк получает запрос на обжалование решения об отказе
- 3 ноября 2021 года банк публикует результаты рассмотрения обжалования
Там же автор упоминает и многие другие запросы, например, на сведения о контрактах на финансирование инфраструктуры обогрева в Вильнюсе (Литва) в 2002-2003 годах (Appeal #76) [3], а также проектах в Камеруне, Мозамбике, Буркина Фасо и других странах. Во всех решениях в отказе от раскрытия информации представители банка ссылаются на "prerogative" (исключительное право) в отказе от раскрытия информации в случае если представители банка считают что ущерб от раскрытия сведений перевешивает возможную пользу.
Похожая ситуация была в 2015 году когда Freedom Info запрашивали у банка сведения о контракте на выкачку воды из затопленной шахты в Сербии [4].
Вся описанная история интересна сразу с нескольких сторон:
1. Не стоит идеализировать открытость международных организаций, она работает только под постоянным давлением извне и часто значительно замедлена.
2. Можно обратить внимание на классический юридический подход к доступу информации через запросы. То что исследователи The GovLab определяли как "первую волну открытых данных" когда их можно было получить только через запросы на открытие сведений (Freedom of Information Requests).
3. Интересно что процедура обжалования непредоставления сведений и наличие специальной группы внутри банка ответственной за рассмотрение жалоб и тот факт что каждое рассмотрение практически как судебное решение, публикуется довольно подробно.
4. Важна и та часть где банк связывается с получателями средств, правительствами стран, запрашивая их разрешение на предоставление документов третьим сторонам (запрашивающим эти документы). Это, конечно, совсем не модель открытости по умолчанию, по видимому у Мирового Банка в договорах нет пункта о праве на раскрытие информации в одностороннем порядке, или не во всех договорах.
Ссылки:
[1] https://eyeonglobaltransparency.net/2021/11/12/world-bank-refuses-public-access-to-contract-reviews-and-contract-texts-too/
[2] https://thedocs.worldbank.org/en/doc/7d690d60be37ed3debef4bd51e63268b-0090012021/original/AIC-Decision-Case-AI7243-Merits.pdf
[3] https://thedocs.worldbank.org/en/doc/d16cfcc3a736d7bcd72b07fe9f2c5a3b-0090012020/original/AIC-Appeal-76-Case-AI6359-1.pdf
[4] https://www.freedominfo.org/2015/02/world-bank-rejects-request-for-serbian-project-report/
#opendata #spending #contracts #worldbank #covid19 #transparency
Eye on Global Transparency
World Bank Refuses Public Access to Contract Reviews and Contract Texts, Too · Eye on Global Transparency
By Toby McIntosh The World Bank is denying access to documents about its reviews of contracts using Bank funds, and to the contracts themselves. The…
4 декабря я выступаю на Digital Innopolis Days с лекцией "Управление основанное на данных в государственном и частном секторе" и участвую в дискуссии "Практики предоставления государственных данных (data sharing). Потребности государства и бизнеса" [1].
Пока не знаю будет ли онлайн-трансляция, скорее всего будет и я размещу на неё ссылку. Если же Вы будете на конференции, приходите на лекцию и дискуссию.
Ссылки:
[1] https://digitalinnopolisdays.ru
#events #data
Пока не знаю будет ли онлайн-трансляция, скорее всего будет и я размещу на неё ссылку. Если же Вы будете на конференции, приходите на лекцию и дискуссию.
Ссылки:
[1] https://digitalinnopolisdays.ru
#events #data
digitalinnopolisdays.ru
Digital Innopolis Days 2024 & Innopolis AI Conference
Международный форум 2 - 4 октября, Иннополис. 56 треков, 341спикер, 3083 участника
ngo_2021_11.csv
90.6 KB
8 ноября я писал [1] о том что в российском ЕГРЮЛ перестали раскрывать сведения об учредителях НКО - АНО, Фондов и других. Сейчас, 1-го декабря, мы перепроверили это и всё подтверждается. У НКО зарегистрированных в ноябре 2021 года в открытой части ЕГРЮЛ нет сведений об учредителях.
Как это проверить? В CSV файле с этой публикации перечислены все НКО с кодами ОКОПФ '70400', '70401', '70402', '70403', '70404', '71500', '71601', '71400' зарегистрированные с 1 по 31 ноября 2021 года. По ОГРН кодам этих организаций любой желающий может проверить их в любом сервисе проверки контрагентов, коммерческом или официальном на сайте egrul.nalog.ru.
Так что увы, наблюдается деградация раскрытия информации о юридических лицах в России. Даже при том что у НКО большую роль может иметь состав правления и иных управляющих органов, но отсутствие сведений об учредителях также крайне критичная ситуация.
Всё таки, видимо, без официального запроса в ФНС тут никак.
Ссылки:
[1] https://t.iss.one/begtin/3227
#opendata #disclosure #fns
Как это проверить? В CSV файле с этой публикации перечислены все НКО с кодами ОКОПФ '70400', '70401', '70402', '70403', '70404', '71500', '71601', '71400' зарегистрированные с 1 по 31 ноября 2021 года. По ОГРН кодам этих организаций любой желающий может проверить их в любом сервисе проверки контрагентов, коммерческом или официальном на сайте egrul.nalog.ru.
Так что увы, наблюдается деградация раскрытия информации о юридических лицах в России. Даже при том что у НКО большую роль может иметь состав правления и иных управляющих органов, но отсутствие сведений об учредителях также крайне критичная ситуация.
Всё таки, видимо, без официального запроса в ФНС тут никак.
Ссылки:
[1] https://t.iss.one/begtin/3227
#opendata #disclosure #fns
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
На сайте проекта СП РФ "Госрасходы" теперь доступен новый модуль - "Организации" (https://spending.gov.ru/orgs/) ^_^. Собрали первую версию профилей организаций, работающих со средствами из бюджета (получающих или распределяющих), на основе данных проекта: контрактов, субсидий (на конец 2020 года), расходов федерального бюджета. Пока бета-версия, будем постепенно расширять функционал.
А в октябре мы запустили модуль "Бюджет", содержащий данные о расходах федерального бюджета с 2016 года: https://spending.gov.ru/budget/
А в октябре мы запустили модуль "Бюджет", содержащий данные о расходах федерального бюджета с 2016 года: https://spending.gov.ru/budget/
В рубрике интересных наборов данных OSCAR (Open Super-large Crawled Aggregated coRpus) Dataset 21.09 [1] многоязычный корпус текстов созданный на базе Common Crawl [2] с помощью ungoliant [3], специального приложения по потоковому извлечению текстов из дампов Common Crawl.
А также для тех ищет большие веб архивы WebTAP, Princeton Web Census Data Release [4] архив результатов сбора ежемесячного сбора данных с 2015 по 2019 годы по 1 миллиону сайтов сведений о измерении приватности. В общей сложности около 15 терабайт. Также, у них немало публикаций по результатам сбора этих данных. [5]
Ссылки:
[1] https://oscar-corpus.com/post/oscar-v21-09/
[2] https://commoncrawl.org
[3] https://github.com/oscar-corpus/ungoliant
[4] https://webtransparency.cs.princeton.edu/webcensus/data-release/
[5] https://webtap.princeton.edu/publications/
#web #datasets
А также для тех ищет большие веб архивы WebTAP, Princeton Web Census Data Release [4] архив результатов сбора ежемесячного сбора данных с 2015 по 2019 годы по 1 миллиону сайтов сведений о измерении приватности. В общей сложности около 15 терабайт. Также, у них немало публикаций по результатам сбора этих данных. [5]
Ссылки:
[1] https://oscar-corpus.com/post/oscar-v21-09/
[2] https://commoncrawl.org
[3] https://github.com/oscar-corpus/ungoliant
[4] https://webtransparency.cs.princeton.edu/webcensus/data-release/
[5] https://webtap.princeton.edu/publications/
#web #datasets
В качестве напоминания, полезные данные и код для работы с открытыми данными:
- russiannames - библиотека и набор данных для определения способа написания ФИО и пола человека. Заранее отвечая на вопрос, нет, пол не всегда можно определить по отчеству потому что слишком часто в системах информация о человеке может вносится очень разными способами. В России иногда пишут полные ФИО, иногда только фамилию и инициалы, иногда имя и фамилию и так далее. В общем эта библиотека создавалась для распознавания этих самых способов написания и уже после этого для идентификации пола. Набор данных для работы библиотеки собирался в "дикой среде" и неидеален, но максимально полон. Для этой же библиотеки есть альтернативный набор данных на основе ФИО из ЕГРЮЛ и ЕГРИП. Записей имен, отчеств и фамилий там примерно в 8 раз меньше, зато данные хорошо вычищены.
- govdomains - публичная база и код сбора сведений о доменах госструктур в России. Используется для обнаружения сайтов для проекта архивации ruarxive (Национальный цифровой архив). Сейчас рабочая база данных перенесена в Airtables, там же идёт обогащение данных, а этот репозиторий содержит регулярные слепки данных. Охватывает, в первую очередь, сайты ФОИВов и других федеральных органов власти. Почти все поддомены в зоне .gov.ru и многие другие доменные зоны используемые органами власти.
- данные OpenNGO - открытые данные о российских НКО, слепок базы данных проекта Открытые НКО по более чем 700 тысячам некоммерческих организаций
- данные и API Госзатраты - открытое API для работы с госконтрактами в рамках проектов Госзатраты в форматах JSON lines. Данные позволяют делать самостоятельный анализ сведений о госрасходах.
Все эти данные и сервисы предоставляются AS IS, без какой-либо поддержки и ответственности разработчиков. Вы используете их на свой страх и риск, разумеется.
#API #data #opendata #dataset #opensource
- russiannames - библиотека и набор данных для определения способа написания ФИО и пола человека. Заранее отвечая на вопрос, нет, пол не всегда можно определить по отчеству потому что слишком часто в системах информация о человеке может вносится очень разными способами. В России иногда пишут полные ФИО, иногда только фамилию и инициалы, иногда имя и фамилию и так далее. В общем эта библиотека создавалась для распознавания этих самых способов написания и уже после этого для идентификации пола. Набор данных для работы библиотеки собирался в "дикой среде" и неидеален, но максимально полон. Для этой же библиотеки есть альтернативный набор данных на основе ФИО из ЕГРЮЛ и ЕГРИП. Записей имен, отчеств и фамилий там примерно в 8 раз меньше, зато данные хорошо вычищены.
- govdomains - публичная база и код сбора сведений о доменах госструктур в России. Используется для обнаружения сайтов для проекта архивации ruarxive (Национальный цифровой архив). Сейчас рабочая база данных перенесена в Airtables, там же идёт обогащение данных, а этот репозиторий содержит регулярные слепки данных. Охватывает, в первую очередь, сайты ФОИВов и других федеральных органов власти. Почти все поддомены в зоне .gov.ru и многие другие доменные зоны используемые органами власти.
- данные OpenNGO - открытые данные о российских НКО, слепок базы данных проекта Открытые НКО по более чем 700 тысячам некоммерческих организаций
- данные и API Госзатраты - открытое API для работы с госконтрактами в рамках проектов Госзатраты в форматах JSON lines. Данные позволяют делать самостоятельный анализ сведений о госрасходах.
Все эти данные и сервисы предоставляются AS IS, без какой-либо поддержки и ответственности разработчиков. Вы используете их на свой страх и риск, разумеется.
#API #data #opendata #dataset #opensource
GitHub
GitHub - datacoon/russiannames: Russian names parsers, gender identification and processing tools
Russian names parsers, gender identification and processing tools - datacoon/russiannames
Для тех кто следит за современными технологиями и инструментами работы с данными, подборка материалов для чтения, подписки:
- Data Stack News - ежемесячная рассылка от команды Meltano о том как развивается их open source проект по управлению потоками данных и с материалами по современным стекам обработки данных.
- Open Source Data Stack Conference - материалы конференции по инструментам сборки собственного стека данных из решений с открытым кодом. Обзор таких продуктов как dbt, Meltano, Superset, Dagster и многих других.
- The Modern Data Stack - большая коллекция инструментов, ресурсов, вебинаров и иных полезных материалов по современному стеку данных
- Modern Data Experience и Devops and the Modern Data Experience - две полезные заметки в стиле Writing is thinking (писать - это думать) о том как меняется современное воприятие данных в компаниях/командах работающих с данными непрерывно. Мыслей много, поговорить о них и подумать вслух тоже стоит.
- Emerging Architectures for Modern Data Infrastructure - большой обзор современных инструментов экосистемы работы с данными от команды a16z.
- Headless Business Intelligence - интересная концепция построения BI систем без GUI/UI, по аналогии с headless CMS. По той же теме полезный для изучения инструмент Supergrain созданнфй по модели API-first BI platform.
- The State of Data Quality Monitoring in 2021 - обзор инструментов контроля качества данных за 2021 год от Metaplane.
- The Modern Data Stack: Open-source Edition - взгляд на современный стек данных от компании Datafold.
Особенность большей части инструментов в теме Modern Data Stack что у них почти нет аналогов для импортозамещения, только много инструментов с открытым кодом. Отчасти потому что российский рынок не так велик как хотелось бы, отчасти потому что если есть команда делающая инструменты по работе с данными то проще сразу делать его на мировую аудиторию, а не на внутренний рынок.
#moderndatastack #datastack #data #reading
- Data Stack News - ежемесячная рассылка от команды Meltano о том как развивается их open source проект по управлению потоками данных и с материалами по современным стекам обработки данных.
- Open Source Data Stack Conference - материалы конференции по инструментам сборки собственного стека данных из решений с открытым кодом. Обзор таких продуктов как dbt, Meltano, Superset, Dagster и многих других.
- The Modern Data Stack - большая коллекция инструментов, ресурсов, вебинаров и иных полезных материалов по современному стеку данных
- Modern Data Experience и Devops and the Modern Data Experience - две полезные заметки в стиле Writing is thinking (писать - это думать) о том как меняется современное воприятие данных в компаниях/командах работающих с данными непрерывно. Мыслей много, поговорить о них и подумать вслух тоже стоит.
- Emerging Architectures for Modern Data Infrastructure - большой обзор современных инструментов экосистемы работы с данными от команды a16z.
- Headless Business Intelligence - интересная концепция построения BI систем без GUI/UI, по аналогии с headless CMS. По той же теме полезный для изучения инструмент Supergrain созданнфй по модели API-first BI platform.
- The State of Data Quality Monitoring in 2021 - обзор инструментов контроля качества данных за 2021 год от Metaplane.
- The Modern Data Stack: Open-source Edition - взгляд на современный стек данных от компании Datafold.
Особенность большей части инструментов в теме Modern Data Stack что у них почти нет аналогов для импортозамещения, только много инструментов с открытым кодом. Отчасти потому что российский рынок не так велик как хотелось бы, отчасти потому что если есть команда делающая инструменты по работе с данными то проще сразу делать его на мировую аудиторию, а не на внутренний рынок.
#moderndatastack #datastack #data #reading
Substack
Data Stack News
Updates from Meltano on best practices for the future of data and DataOps. Click to read Data Stack News, by Meltano, a Substack publication with hundreds of readers.
Алишер Усманов вышел из капитала VK [1] и теперь основным владельцем группы компаний является Газпром через группу СОГАЗ.
Я даже не знаю как трактовать эту новость. Сверхконцентрация медиаактивов не несёт ничего хорошего, а у Газпрома через Газпром медиа, их немало. Rutube, множество СМИ, а теперь ещё и VK. У среднего и малого бизнеса не только в России есть острые опасения что "большие становятся ещё больше", а остальным приходится как-то выживать.
Ссылки:
[1] https://www.kommersant.ru/doc/5102919
#itmarket #vk #gazprom #socialnetworks
Я даже не знаю как трактовать эту новость. Сверхконцентрация медиаактивов не несёт ничего хорошего, а у Газпрома через Газпром медиа, их немало. Rutube, множество СМИ, а теперь ещё и VK. У среднего и малого бизнеса не только в России есть острые опасения что "большие становятся ещё больше", а остальным приходится как-то выживать.
Ссылки:
[1] https://www.kommersant.ru/doc/5102919
#itmarket #vk #gazprom #socialnetworks
Коммерсантъ
USM выбирается из соцсетей
Холдинг продает VK СОГАЗу