Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Пока идёт опрос в котором пока явно лидирует интерес к тому где найти значимые источники данных, подборка каталогов данных для машинного обучения

- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- Radiant ML Hub mlhub.earth - каталог геоданных для машинного обучения

Я добавлю также что помимо каталога данных по России и ряде постсоветских стран datacatalogs.ru у нас есть пока непубличный каталог каталогов по всему миру. Но если datacatalogs.ru был сверхдетальным, с долгим поиском не только региональных каталогов данных, но и, например, реестров данных на сайтах городов и муниципалитетов, то каталог международных данных выглядит иначе и включает информацию о ПО на котором он сделан и фокус сбора на каталогах открытых данных, статистических базах, геопорталах с данными (почти все или на Geonetwork, или на ArcGIS Hub), каталогах микроданных и ещё много всего.

Итоговый результат - это не только сам каталог, но и постепенное приближение к созданию открытого глобального индекса доступных данных и поисковой системы поверх него.

Сам каталог каталогов будет доступен сильно позже, после сборки хотя бы 1000+ таких каталогов, будет собрано.

#opendata #datasets #machinelearning
Миром правят кровь, любовь и риторика... с негативной эмоциональной нагрузкой

C 2000 года идёт рост использования слов связанных с негативными эмоциями в заголовках наиболее популярных (англоязычных) СМИ [1]

Ссылки:
[1] https://twitter.com/george__mack/status/1640010316468858880

#media
Думаю что дня достаточно чтобы подвести итоги. Совершенно неожиданно для меня:
- менее всего всем интересно про открытие и закрытие данных в России (видимо потому что всё и так очевидно, а ведь мне немало что есть рассказать об этом). Не обещаю об этом не писать, но мнение учту
- более всего интересно про то где какие интересные и значимые данные есть. Что для меня скорее неожиданно, но по этой теме есть что написать и немало.

Далее по значимости научные данные, больше про технологии с конкретными примерами и про приватность и регулирование. Мне и самому интересно об этом читать, жаль что не так много источников как хотелось бы и приходится читать и писать самому об этом чаще.

Всем спасибо за обратную связь!

#blogging #thoughts #polls
Подборка регулярного чтения про данные, технологии и не только:
- A Eulogy for Dark Sky, a Data Visualization Masterpiece [1] о визуализации данных в погодном приложении The Dark Sky для iOS и там же про наглядные решения контекстуализации данных. Я бы добавил этот термин в словарь "констектуализация данных" - это когда данные у Вас есть, но Вы подаёте их в том виде в каком они наиболее информативны и наглядны именно в том контексте/приложении/среде в которой их смотрят. А это приложение погоды отличный пример

- The Beginner's Guide to Databases [2] для новичков желающих разобраться в базах данных отличное руководство, оно не покрывает очень много чего, но одновременно даёт все нужные вводные для старта работы

- Meet Alpaca: Stanford University’s Instruction-Following Language Model that Matches GPT-3.5 Performance [3] новый интересный продукт как альтернатива GPT-3.5 под названием Альпака, главные отличия в открытости и меньших требованиях к железу. Открытый код главное преимущество [4]

- Finding Undocumented APIs [5] автор пишет про мою любимую тему, обнаружение недокументированных API. Я несколько выступлений и лекций проводил за эти годы про поиск и нахождение недокументированных API и ещё немало трюков могу рассказать о том как API находить, помимо перехвата запросов браузера к серверу. Так вот два самых очевидных способа часто срабатывающих:
* 1) Поискать API поиском Гугла на сайте явным образом вроде "REST API site:roskachestvo.gov.ru" и результат может удивить
* 2) Выяснить на каком программном продукте работает сайт и проверить не сохранилось ли в нём API идущее по умолчанию, у многих продуктов такое есть. Пример: Архив оцифрованных материалов Национальной электронной детской библиотеки РФ arch.rgdb.ru работает на движке DSpace, а у DSpace по умолчанию API доступно по ссылке /rest, проверяем, ага, вот и оно https://arch.rgdb.ru/rest/
Я могу не то что презентацию, а целый курс прочитать только по этой теме. Тем не менее ту статью рекомендую, часто информацию о API приходится выковыривать из сессий браузера.

- Data wrangling essentials: comparisons in JavaScript, Python, SQL, R, and Excel [6] сравнение функций преобразований данных в Excel, Python, R, SQL и Javascript. Полезно для тех кто вынужден пользоваться 2-3 языками/синтаксисами. Python там, правда, это не совсем Python, а конкретно Pandas, но текст от этого ценности не теряет.

Ссылки:
[1] https://nightingaledvs.com/dark-sky-weather-data-viz/
[2] https://technically.substack.com/p/the-beginners-guide-to-databases
[3] https://pub.towardsai.net/meet-alpaca-stanford-universitys-instruction-following-language-model-that-matches-gpt-3-5-490a38114a7e
[4] https://github.com/tatsu-lab/stanford_alpaca
[5] https://inspectelement.org/apis.html
[6] https://observablehq.com/@observablehq/data-wrangling-translations

#opensource #readings #api #data #guides
Один из важнейших элементов научной инфраструктуры данных - это так называемые универсальные репозитории (Generalist data repositories), хранилища научных данных не привязанные ни к одной из научных дисциплин и при этом дающие возможность сохранять данные условно любого объёма и с метаданными/описанием пригодным для интеграции в другие цифровые продукты и элементы цифровой научной инфраструктуры.

У журнала Nature есть неплохая подборка со списком всех хранилищ данных по их темам и, в том числе, список универсальных хранилищ [1], это:
- Dryad Digital Repository https://datadryad.org/
- figshare https://figshare.com
- Harvard Dataverse https://dataverse.harvard.edu
- Open Science Framework https://osf.io
- Zenodo https://zenodo.org
- Science Data Bank https://scidb.cn

Можно обратить внимание что тут есть китайский SciDb и китайские научные власти приложили немало усилий чтобы превратить SciDb в полноценный открытый репозиторий с интеграцией, например, с OpenAIRE. В то же время тут нет Mendeley Data от Elsevier потому что его как открытый репозиторий не рассматривает как минимум редакция Nature.

Подобные списки есть и в других изданиях, а также у многих университетов в специальных руководствах в статьях "Choosing a data repository' или "Selecting a data repository".

Помимо универсальных репозиториев есть ещё и тысячи узкодисциплинарных, привязанных к конкретным отраслям и часто включающим не только/не столько наборы данных в чистом виде, но добавления к существующим базам структурированных объектов. Например, репозиторий Vivli [2] для хранения исследовательских данных клинических исследований построен вокруг исследований (study), а не наборов данных, а исследования, в свою очередь, включают специфичные атрибуты для данной дисциплинарной области.

Ещё один подвид научных репозиториев данных - это университетские репозитории данных, чаще от одного университета, реже, но бывает, от их группы/ассоциации. Но и в этом случае создатели таких репозиториев стараются создавать профили на портале Re3Data [3] поскольку за последние годы многие издания стали рекомендовать выбирать репозиторий именно из этого каталога, при соблюдении ряда условий, таких как публикация на принципах FAIR [4].

Научные репозитории данных можно рассматривать как один из "индикаторов жизни" научных дисциплин в странах, наряду с числом публикаций, патентов, цитирований, активных исследователей и т.д.

Одним из важнейших трендов в современной цифровой научной инфраструктуре в распространении принципов открытости данных. Они касаются не только новых исследований, но и существующих архивов ранее доступных учёным только по запросу.

Открытость научных данных является одним из важнейших трендов в развитии открытости данных в мире, в ряде стран национальные порталы открытых данных уже интегрируются в научную инфраструктуру (США, Франция), в других это есть в планах.

Ссылки:
[1] https://www.nature.com/sdata/policies/repositories
[2] https://vivli.org/
[3] https://www.re3data.org
[4] https://www.go-fair.org/fair-principles/

#likbez #openscience #openaccess #data #datacatalogs
Forwarded from Weekly Charts
Реестр иностранных агентов в CSV

По мотивам поста Ивана Бегтина. Минюст публикует единый реестр иностранных агентов в виде PDF файла (на момент написания поста 18 страниц и 559 записей). При этом сам реестр, судя по метаданным, ведется в MS Excel 2013, но сохраняется в формате PDF. Написал на R скрипт для скачивания PDF файл с сайта Минюста и извлечения данных с помощью пакета
tabulizer
. Результат сохраняется в csv и google-таблицы. Скрипт выполняется по расписанию на моем сервере. Автоматическое обновление – каждую пятницу в 20.00 МСК. В google-таблицах размещается исходная таблица реестра, а также дополнительные поля:
• Физлицо (1 – да, 0 – нет)
• Возраст ФЛ на дату обновления данных
• Возраст ФЛ на дату включения
• Возраст ФЛ на дату исключения
• Дней в реестре
• Исключен (1 – да, 0 – нет)
• Год включения
• Год исключения

#opendata #dataset #R
Google выложили в открытый доступ локальную версию СУБД AlloyDB [1] которую в прошлом году сделали доступной как сервис в своём облаке. Теперь можно скачать бесплатную версию для разработчиков и экспериментировать на своём локальном компьютере. Из заявленных фич AlloyDB - это совместимость с PostgreSQL с более чем 2-х кратным ускорением и колоночные таблицы для ускорения ряда типов запросов. Звучит достаточно интересно чтобы попробовать, насколько интересно чтобы делать на это ставку лично я пока сомневаюсь, потому что бесплатная девелоперская версия означает что в продакшн всё равно надо разворачивать на инфраструктуре Google, а это лишь очередная модель облачного vendor lock-in, лично я не люблю такие ограничения, даже при очень интересных технологиях. К тому же исходный код AlloyDB закрыт, контрибьюта в исходный код PostgreSQL также не планируется.

Не могу не напомнить что совместимых с Postgres баз данных множество и многие - это весьма активные стартапы. У Hasura есть перечень таких СУБД с которыми они работают [2], например, Neon, о которых я писал в июле 2022 г. [3], но у Neon переписанный бэкэнд с открытым кодом [4] как и у ряда других Postgres совместимых СУБД.

А вот реализация колоночных таблиц очень напоминает про Clickhouse, StarRocks и др. подобным продуктам и, быть может, в этой фиче Гугл позиционируют AlloyDB как их альтернативу. Но, опять же, выбирая между близкими по производительности продуктами с открытой лицензией и открытым кодом и без оной, с vendor lock-in и без него, выбор очевиден.

Мне лично особенно не нравится облачный vendor lock-in, потому что одно дело если ты можешь купить корпоративную лицензию, но у тебя потом есть время на миграцию, и другое дело когда ты зависишь от создателя продукта не только разрешением на его использование, но и инфраструктурно.

Поэтому возвращаясь к альтернативам, напомню про Citus [5] которые также реализовали колоночное хранилище для Postgres и с открытым кодом, именно его использует Microsoft в Azure Cosmos DB [6].


Ссылки:
[1] https://cloud.google.com/blog/products/databases/run-alloydb-anywhere
[2] https://hasura.io/docs/latest/databases/postgres/index/
[3] https://t.iss.one/begtin/4113
[4] https://github.com/neondatabase/neon
[5] https://www.citusdata.com/
[6] https://learn.microsoft.com/en-us/azure/cosmos-db/postgresql/concepts-columnar

#opensource #dbms #google
Как развивается цифровая инфраструктура научных данных во Франции. С 2022 года действует проект Un écosystème au service du partage et de l’ouverture des données de recherche (Экосистема на службе обмена и открытия данных исследований ) в виде сайта recherche.data.gouv.fr [1] которая является, с одной стороны частью национального портала открытых данных data.gouv.fr [2], а с другой реализуется Ministère de l'Enseignement Supérieur et de la Recherche (Министерством управления образованием и наукой) в рамках Le deuxième plan national pour la science ouverte (Второго национального плана по открытости науки 2021-2024 включающего темы открытости публикаций, открытости научных данных и открытости программного кода созданного в результате научных исследований.

Особенность французской научной экосистемы в большом числе автономных исследовательских центров которые в рамках этого проекта объединены через специальный комитет Министерства и как участники проекта в ролях кластеров данных (междисциплинарных центров) [4], центром компетенций, ресурсных центров и других участников.

Один из уже доступных результатов проектов - это национальный репозиторий открытых научных данных Recherche Data Gouv Génération datapaper (entrepot.recherche.data.gouv.fr) [5] созданный на базе продукта Dataverse. Там уже опубликованы 2413 наборов данных и 30 тысяч файлов из которых часть данных будет собираться из других научных репозиториев, сейчас подключен SciencesPo [6] и явно будут подключаться другие в течение 2023 года, благо Dataverse это позволяет без особых сложностей.

Одна из целей проекта в том чтобы стать службой европейского открытого научного облака (EOSC) [7], а то есть расширить интеграцию французских исследовательских центров в Европейскую цифровую научную инфраструктуру и, хотя это явно не заявляется, но кажется очень логичным, спозиционировать национальный портал исследовательских данных как один из универсальных репозиториев рекомендуемых ведущими научными изданиями для размещения данных.

В конце концов у китайцев же получается с SciDb [8], так может получится и во Франции, хотя это и выглядит слегка необычно поскольку в Евросоюзе есть наднациональные универсальные репозитории.

Интересно как будет развиваться дальнейшая интеграция раскрываемых государством данных и этого исследовательского портала, рискну предположить появление единого французского поисковика по всем открытым порталам данных, научным и государственным, потому что их много и не все собраны только в федеральных источниках и не все туда агрегируются.

Ссылки:
[1] https://recherche.data.gouv.fr/fr
[2] https://data.gouv.fr
[3] https://cache.media.enseignementsup-recherche.gouv.fr/file/science_ouverte/20/9/MEN_brochure_PNSO_web_1415209.pdf
[4] https://recherche.data.gouv.fr/fr/page/ateliers-de-la-donnee-des-services-generalistes-sur-tout-le-territoire
[5] https://entrepot.recherche.data.gouv.fr
[6] https://data.sciencespo.fr
[7] https://recherche.data.gouv.fr/fr/page/a-propos-de-recherche-data-gouv
[8] https://scidb.cn

#likbez #france #openaccess #opensciences #datasets #datacatalogs #opendata
Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.

А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.

Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]

Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.

Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement

#opendata #openscience #openaccess #france #europe
Меня сильно меньше в последнее время интересует состояние госинформатизации в России, слишком много антипримеров, слишком очевидны причины провалов и ещё много чего. Поэтому пишу я всё реже по этой теме и вот только сейчас не сдержусь, но опять же в контексте не только российской информатизации.

РБК пишут [1] про то что у Счетной палаты возникли претензии с порталу Работа для всех [2] с логичными вопросами о том что же так получается, столько денег потрачено, а работает хреноватенько, по сравнению с коммерческими порталами. Вопросы все, наверное, справедливые, претензии правильные и всё такое.

Вот только проблема в другом, проблема, я бы сказал, куда серьёзнее. Проблема в том что государство в лице Роструда вышло на создание продукта для массового потребителя в ситуации активного, конкурентного и состоявшегося рынка. Кроме HH и SuperJob существуют десятки если не сотни сервисов поиска вакансий и специалистов формирующих довольно успешные экосистемы с хантерами, работодателями, другими сервисами и игроками на рынке.

Так вот, ключевое в том что на этом рынке государству с самого начала делать нечего, портала Труд Всем просто не должно было существовать потому что трата денег на него - это бессмысленное сжигание средств налогоплательщиков. Я подозреваю что если аудиторы СП заглянули не только в статистику посещаемости, а ещё и опросили бы HR'ов компаний нужен ли им такой портал, оказались бы выводы куда плачевнее.

Но ведь есть Роструд скажете вы, есть центры занятости, они же там не собачий censored censored, а делом занимаются, им же нужны аналитика и данные. Так вот что я скажу, государство должно регулировать и обеспечивать мониторинг, сложившийся активный рынок продукты создаст сам. Если центры занятости хоть зачем-то ещё нужны (а есть сомнения) то всё что должен был сделать Роструд - это предоставлять собираемые из центров данные порталам поиска работы как открытые данные, через дампы и через API.

Второе что должен был Роструд делать - это собирать аналитику, статистику и ещё многие данные от коммерческих игроков для мониторинга рынка труда, публикуя хоть еженедельно аналитику по зарплатам, ожиданиям работников, востребованности профессий и так далее.

Вышло бы дешевле и было бы эффективнее. Но дешевле это не про российские ФОИВы.

А теперь у ТрудВсем одна судьба, переходить на Гостех как можно скорее. Почему? Потому что все тухлые яйца в одной корзине ронять проще!

Ссылки:
[1] https://www.rbc.ru/technology_and_media/30/03/2023/64242ef19a7947e130ede9d4
[2] https://trudvsem.ru/

#government #russia
Целенаправленный поиск данных в мире привычно называется data discovery (или "обнаружение данных") и его применение можно разделить на корпоративное и общедоступное.

Корпоративное применение этого термина - это про корпоративные каталоги данных, специальные внутренние инструменты для идентификации всех используемых баз данных, таблиц в них и сопровождающей информации. Корпоративные задачи data discovery - это идентификации персональных данных и соответствие требованиям законодательства, это систематизация данных для работы аналитиков, инженеров и разработчиков и, реже, но набирающее популярность применение - это идентификация данных для машинного обучения.
Всё это решается коммерческими или открытыми продуктами вроде Open Metadata, Datahub и им подобным. О том что это подробнее на английском можно легко нагуглить, или прочитать, например, тут [1]. Как-нибудь я напишу об этом этом подробнее в лонгрид в рассылку

Параллельно этом data discovery среди общедоступных данных - это поиск данных необходимых для исследовательских или рабочих задач. Как правило, это поиск открытых данных, либо данных имеющих какой-либо регламентированный доступ или возможность их запросить. Наиболее очевидный способ поиска - это привычные поисковые системы где вбиваешь что ищешь и добавляешь слова "data" или "dataset', чуть менее очевидный, но специализированный - это воспользоваться поиском Google для наборов данных он всё ещё экспериментальный, сильно зашумлённый SEOшниками коммерческих продуктов [3], но пока ничего другого сравнимого нет. Ни в Bing, ни в Ya[ndex] ничего подобного нет.

Есть ли альтернативы? Какие ещё системы поиска по данным существуют? Они есть, их не так много и они чаще всего специализированы.
Итак:
- ArcGIS Hub search https://hub.arcgis.com/search - поисковая система по наборам данных опубликованных клиентами сервиса ArcGIS Hub, используемом широко в мире (в основном в США) для публикации геоданных и открытых данных. Это один из крупных поисковиков именно по разным геоданным.
- OpenAIRE explore.openaire.eu - поисковая система по результатам научной деятельности (research output) в Евросоюзе, в первую очередь, но не только. Наборы данных подпадают под научную деятельность и OpenAIRE крупнейший индексатор и поисковик по подобным данным.
- Datacite Commons commons.datacite.org - DataCite является одним из сервисов выдачи DOI со специализацией на данных. Их поиск работает по всем работам получавшим DOI через их сервис. Являются одним из источников для OpenAIRE
- Da | Ra www.da-ra.de - поисковая система по открытым научным данным Германии
- DANS EASY easy.dans.knaw.nl - поисковая система по открытым научным данным Нидерландов
- DataMed datamed.org поисковая система по наборам данных в медицине

Этот список неполон, я постарался указать лишь наиболее известные поисковые системы и обращаю внимание что в основном они создаются вокруг данных открытости науки. Исключение лишь ArcGIS Hub, но сколь долго он будет существовать неизвестно, поскольку коммерческая польза для него для компании неочевидна.

А вот в сторону всё большего ухода в концепцию о том что open data = open research data уходят очень многие системы инфраструктуры открытости. Google Datasets в документации и дорожной карте показывают всё более тесную интеграцию с научными дата репозиториями, индексацию ORCID, DOI, ROR, связывание научных статей и цитируемых ими научных данных. Я лично не удивлюсь если в какой-то момент Google объединят поиск по наборам данных и Google Scholar. Во всяком случае в этом будет некая существенная логика.

Ссылки:
[1] https://snowplow.io/blog/data-discovery/
[2] https://datasetsearch.research.google.com/
[3] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d

#opendata #datadiscovery #datasearch #datasets #likbez
Не обещаю часто пересылать сюда стихи, но уже почти 1е апреля, так что раз в год можно;)
Forwarded from ministryofpoems
Я тот кто думает таблицами
Я считаю таблицы, рисую таблицы, проектирую таблицы
Когда я пишу текст, я начинаю его с таблицы
Я превращаю в таблицы чужие тексты
Даже раздевая глазами красивых женщин я свожу все в таблицу в голове
Я хорош в своем деле
И только глубокими темными ночами я распеваю матерные частушки
Негромко