Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Для тех кто интересуется поиском по данным и каталогами данных, реестр каталогов переехал на сайт Dateno и теперь доступен по адресу dateno.io/registry и содержит ещё и статистику из самого портала Dateno, по странам и по каждому каталогу в числе датасетов.

Собственно Dateno - это крупнейший открытый индекс и поисковик по данным и раскрытие по масштабу индексирования - это про то как он работает.

Пока в качестве преданонса, в поисковик загружаются ещё миллионы датасетов и это то что будет в следующем его обновлении. А вскоре будет и обещанное API, в первую очередь для beta тестирования и по запросу, а когда сделаем личный кабинет на сайте то и доступное для всех.

#dateno #datacatalogs #datasearch #data #opendata
В рубрике больших каталогов открытых данных данные проекта ENCODE [1] энциклопедии элементов ДНК. Всего в проекте более 643 тысяч наборов данных в специализированных форматах bigWig, bed bed 3+, fastq, bam и других, общим количеством в несколько петабайт.

Эти же данные доступны исследователям через сервисы Amazon AWS и Azure Datasets.

Это очень специализированные данные которые ищут по своей логике и правилам. Например, мы без труда сможем добавить их в поисковый индекс Dateno , что сразу увеличит число датасетов привязанных к США, имеющих научную атрибуцию поскольку почти все эти данные созданы в США и более 80% в одной лаборатории.


Ссылки:
[1] https://www.encodeproject.org/datasets/

#opendata #datacatalogs #datasets #data
В рубрике как это устроено у них британское НКО Align to Innovate [1] сфокусированы на развитии открытости в биоинформатике через конкурсы, турниры и открытые данные в этой сфере. У них пример подхода к публикации данных через верификацию сообществом [2] начиная с dataset proposal (предложения конкретного набора данных) и продолжая сбором данных.

Очень логичная инициатива потому что подготовка больших верифицированных академических датасетов - это большая работа и дорогая к тому же. А здесь логичный процесс особенно если научные фонды понимают зачем создаются данные и то что надо финансировать процесс их создания.

Ссылки:
[1] https://alignbio.org
[2] https://alignbio.org/datasets-in-detail

#opendata #datasets #openaccess #data
В рубрике как это работает у них портал открытых данных Фолклендских островов [1] включает 560 наборов данных большая часть которых посвящена территории, океану, окружающей среде, животному миру островов и окружающей территории.

Общее население островов 3662 человека (по итогам 2021 года).

Бюджет островов также весьма невелик.

Если посравнивать с тем сколько данных публикуется в других странах, то это очень даже немало.

Ссылки:
[1]https://dataportal.saeri.org/

#opendata #data #uk #falklands #datacatalogs #datasets
Открытость исчезла из деятельности Правительства Нижегородской области РФ (c)

Этот заголовок можно воспринимать буквально, поскольку после обновления сайта Пр-ва Нижегородской области из него полностью исчез раздел Открытые данные . Ранее он был доступен и сейчас его можно найти на старом сайте Пр-ва [1] и ссылка не него была в разделе Деятельность старого сайта [2].

На новом сайте раздела нет и в разделе Деятельность [3] нет упоминания открытости и по словам "открытые данные" [4] ничего не найти.

Пока ещё остались только отдельные упоминания датасетов на сайтах отдельных органов власти области.

Ссылки:
[1] https://old.nobl.ru/?id=158039
[2] https://old.nobl.ru/activities
[3] https://nobl.ru/deyatelnost-pravitelstva/
[4] https://nobl.ru/search/?q=%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5+%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5

#opendata #datasets #data #closeddata #russia
В рубрике как это устроено у них статистическая служба Мексики в лице INEGI, Национального института статистики и географии, публикует топографические данные статнаблюдений в векторном виде, Shape файлах [1], а также предоставляет API для доступа к большей части статистических публикаций и индикаторов [2]. Ещё одна важная их особенность в том что по каждому наблюдению все продукты которые на его основе создаются собраны вместе на вкладках исследования можно наблюдать:
- методологию/документацию
- таблицы в Excel
- открытые данные
- микроданные (если есть)
- статсборники если есть

Все их можно скачать разом, в режиме массовой выгрузки через систему DENUE [3] сводящую метаданные из всех баз данных поддерживаемых INEGI

Ссылки:
[1] https://www.inegi.org.mx/programas/topografia/50000/#descargas
[2] https://www.inegi.org.mx/servicios/api_indicadores.html
[3] https://www.inegi.org.mx/app/descarga/

#opendata #statistics #mexico #datasets #data
Свежий 2024 AI Index Report [1] много полезных материалов, и основные выводы:

1. ИИ превосходит человека в некоторых задачах, но не во всех.
2. Промышленность продолжает доминировать в исследованиях передового ИИ.
3. Пограничные (Frontier) модели становятся все дороже.
4. США опережают Китай, ЕС и Великобританию в качестве ведущего источника лучших моделей ИИ.
5. Надежных и стандартизированных оценок ответственности LLM очень не хватает.
6. Инвестиции в генеративный ИИ стремительно растут.
7. Данные получены: ИИ делает работников более продуктивными и приводит к повышению качества работы.
8. Научный прогресс еще больше ускорится благодаря ИИ.
9. В США резко увеличивается количество нормативных актов, касающихся ИИ.
10. Люди по всему миру больше осознают потенциальное влияние ИИ и больше нервничают.


Ссылки:
[1] https://aiindex.stanford.edu/report/

#ai #reports #readings
В рубрике как это работает у них ILOSTAT Bulk download facility [1] сервис массовой выгрузки данных статистического подразделения Международной организации труда (ILO).

Международная организация труда ведёт несколько баз статистики труда по всему миру и предоставляет их конечным пользователям в виде портала индикаторов [2], кроме того они предоставляют сервис Bulk download facility в котором предоставляют возможности по автоматической выгрузке всей их базы данных.

Кроме того ILO предоставляют библиотеку Rilostat на языке R [3] для автоматизированного доступа к этим данным.

Итого, в дополнение к базе и интерфейсу к индикаторам ILO предоставляют:
1) Возможность выгрузки всех данных массово
2) Доступ к сервису и данным через готовое API с открытым кодом (в виде библиотеки для R, в данном случае)

Ссылки:
[1] https://ilostat.ilo.org/data/bulk/
[2] https://ilostat.ilo.org/data/
[3] https://ilostat.github.io/Rilostat/

#opendata #opensource #statistics #ilo #data
Читать нормативные документы дело неблагодарное и пока непонятно как это интерпретировать как рост закрытости или как халатность, но на сайте Минцифры России не публикуются приложения ко многим приказам ведомства.

Например, *Приказ Минцифры России № 296 О составе Экспертного совета при Министерстве цифрового развития, связи и массовых коммуникаций Российской Федерации по вопросам развития и цифровой трансформации книжной индустрии* [1] в тексте содержит *...изложить в новой редакции согласно приложению к настоящему приказу.* Но самого приложения нет. В "текстовой версии" приказа тоже нет приложения [2] и даже в "графической версии" (скане) [3] приложения нет. Аналогично с приказом N287 [4]

И, похожим образом по всем приказам касающихся сервитутов [5]

В то же время, другие приказы приложения содержат, в виде ссылок правда, но хоть так [6]

И отдельная история про то почему не все приказы федеральных органов власти публикуются на портале правовых актов и в системе регистрации НПА Минюста.

Ссылки:
[1] https://digital.gov.ru/ru/documents/9542/
[2] https://digital.gov.ru/uploaded/files/prikaz-o-vnesenii-izmenenij-v-sostav-es-po-izd-deyatelnosti-yur2sispr.docx
[3] https://digital.gov.ru/uploaded/files/296_PfRi2Gh.pdf
[4] https://digital.gov.ru/ru/documents/9541/
[5] https://digital.gov.ru/ru/documents/9531/
[6] https://digital.gov.ru/ru/documents/9333/

#closeddata #opendata #legaldocs #russia #laws #russia
Очередные обновления в Dateno:
- загружены более 4.9 миллионов карточек датасетов, удалены часть недоступных, почищены часть дубликатов. Итого в поисковом индексе сейчас 14.85 миллионов наборов данных
- из добавленного: индикаторы Всемирного банка, индикаторы множества национальных статслужб таких как Финляндия, Латвия, Эстония, Филлипины, Швеция и многих других
- Улучшилась фильтрация по форматам файлов, все форматы теперь приводятся к стандатизированным значениям
- Появился фильтр по типу данных таким как: геоданные, семантические данные, архивы, изображения, итд. включая просто data (привычные дата файлы) . Построен поверх фильтра по форматам файлов.
- Из небольшого и необычного, проиндексированы датасеты инсталляций ПО Aleph, используемых журналистами расследователями и частично открытые через интерфейс и API. Таких датасетов чуть более 300, но они бывают весьма большими.

Список изменений можно почитать тут, а новость на английском чуть позже на наших ресурсах в соц сетях.

Всё, по прежнему, работает в режиме максимально быстрого поиска, что дорого обходится по аппаратным ресурсам, зато даёт незабываемые ощущения когда надо что-то быстро найти.

Сейчас система достигла временного пика по размеру поискового индекса и ближайшие шаги мы будем предпринимать в сторону повышения качества индекса, улучшения и развития UI и постепенной архивации хотя бы части данных. Новые источники будут подключаться понемногу, и в основном небольшие.

Не могу не напомнить что Dateno создаётся в Армении, небольшой распределённой командой и цель проекта в том чтобы дать современный удобный быстрый и насколько только возможно большой поисковик и поисковый индекс по всем общедоступным наборам данных.

#opendata #datasets #datacatalogs #datasearch #dateno
В рубрике как это устроено у них каталоги связанных данных в мире. Их немного, но они есть.

ASCDC LOD Datasets Platform [1
Платформа публикации связанных данных от тайваньской Academia Sinica Center for Digital Cultures

13 наборов данных и 633,847 записей

Universal Dependencies [2
Проект по аннотированию грамматики различных языков с наборами данных под эти языки. Более 250 наборов данных.

Ссылки:
[1] https://data.ascdc.tw
[2] https://universaldependencies.org

#opendata #linkeddata #datacatalogs