Ivan Begtin
8.09K subscribers
1.98K photos
3 videos
102 files
4.69K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Инфокультура
К Дню архивов запускаем проект «Цифровой архив госфинансов и госуправления»

Фонд «Институт экономической политики имени Е.Т. Гайдара» и АНО «Информационная культура» запускают новый общественный проект «Цифровой архив госфинансов и госуправления», доступный по адресу finlibrary.ru.

Основная цель проекта — сохранить исторические источники о государственных финансах и госуправлении и сделать их доступными для экономистов, историков, исследователей, разработчиков и всех заинтересованных.

Портал «Цифровой архив госфинансов» создан для публикации электронных копий исторических документов и машиночитаемых данных, сгенерированных на их основе. Веб-интерфейс портала предоставляет доступ к первичным и систематизированным историческим источникам для обычных пользователей и наборам открытых данных и API для исследователей и разработчиков.

Источниками для проекта являются архивные документы, книги, визуализации и статистические сборники, размещенные на сторонних ресурсах или отсканированные силами команды проекта. Среди собранных документов можно найти Государственные бюджеты СССР и РСФСР, выпуски журнала “Проблемы экономики” и бюллетени Счетной Палаты РФ, документы департаментов Минфина XIX века, книги по истории Минфина России, бюджеты городов и многое другое.

Самый ранний государственный бюджет, доступный в базе данных проекта, датирован 1866 годом, а всего на данный момент собраны государственные бюджеты за 81 год.

Уже сейчас на портале доступно более 1000 электронных копий редких и уникальных материалов, а также несколько десятков машиночитаемых наборов данных, сформированных на основе оцифрованных и верифицированных сведений из таблиц, содержащихся в материалах-первоисточниках.

К концу 2024 года мы планируем расширить базу данных до 3 тысяч документов за счет поиска новых источников.

Будем рады пожеланиям и предложениям. Пишите на почту [email protected] (Ольге Пархимович) или в телеграм @k0shk. Более подробную информацию о проекте можно найти в анонсе: https://finlibrary.ru/s/finarchive/page/news.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Цифровой архив госфинансов: Бюджеты Российской империи и СССР в виде книг и открытых данных

К Дню архивиста мы (Инфокультура и Институт Гайдара) запускаем новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). Наша главная задача - сохранить и сделать доступными и машиночитаемыми исторические документы о госфинансах. Мы хотим собрать источники о государственном бюджете за 150 лет, агрегировать наиболее полную базу статистических сборников и подготовить открытые данные для разработчиков.

Среди собранных документов можно найти Государственные бюджеты СССР и РСФСР, выпуски журнала “Проблемы экономики” и бюллетени Счетной Палаты РФ, документы департаментов Минфина XIX века, книги по истории Минфина России, бюджеты городов и многое другое. Уже сейчас в нашей базе данных собраны государственные бюджеты за 80 лет, с практически непрерывным покрытием 1866-1945 гг.

При разработке проекта мы делаем акцент на следующих пунктах:

1. Полнота базы данных: мы добавляем все те источники, которые можем найти (не забывая о проверке наличия открытых лицензий). На данный момент мы частично собрали источники из проекта «Исторические документы» Минфина России и проекта «Исторические материалы», а также нашли еще несколько проектов, документы с которых агрегируем в этом году.

2. Открытые данные: мы хотим не только собрать базу документов и добавить к ним текстовый слой, но и разработать на основе них наборы открытых данных.

3. Уникальные документы: года 4 мы скупаем исторические документы с профильных площадок и сканируем их. Также для данного проекта мы отсканировали личный архив исторических книг А.Л. Кудрина (в который вошли, например, 7 томов истории Минфина России). А в 2022 году мы оцифровали архивные отчеты Счетной Палаты.

4. Метаданные: большинство документов, которые мы собрали, практически не систематизированы, поэтому мы ставим для себя задачу обогатить их метаданными и разработать для этого соответствующие классификаторы.

«Почти 25 лет назад Минфин начал сохранять, формировать и популяризировать историю государственных финансов. 
Мне приятно осознавать, что эта деятельность активно развивается и сегодня благодаря усилиям нового поколения специалистов в области компьютерной обработки информации.
 
Желаю исследователям и пользователям проекта «Цифровой архив госфинансов и госуправления» успехов в их непростой, но чрезвычайно интересной работе, требующей универсальных навыков в самых разных сферах – от истории и архивного дела до современных цифровых технологий», - Алексей Кудрин, д.э.н., главный научный сотрудник, член Попечительского совета Института Гайдара.

Иногда самые интересные книги могут быть написаны от руки. Например, исторические бюджеты Санкт-Петербурга. Такие случаи требуют особого внимания и поэтому работы предстоит очень много. Мы заинтересованы в партнерах и волонтёрах. Нам нужна помощь в следующих задачах:

⁃ сбор исторических документов с сторонних сайтов;
⁃ разметка базы данных;
⁃ разработка справочников и классификаторов;
⁃ создание наборов открытых данных;
⁃ предоставление исторических документов на оцифровку.

Будем рады пожеланиям и предложениям. Пишите на почту [email protected] (Ольге Пархимович) или в телеграм @k0shk. Более подробную информацию о проекте можно найти в анонсе: https://finlibrary.ru/s/finarchive/page/news.
Казалось бы небольшая, но весьма интересная новость о том что проект chDB присоединяется к Clickhouse [1].

chDB [2] - это внедряемая OLAP база на движке Clickhouse, фактически прямой конкурент DuckDb и, как и DuckDb, замена Sqlite.

Казалось бы, ну что тут такого, а вот DuckDb сейчас одно и наиболее заметных явлений в дата-мире и внедряемая база это очень удобная штука. Многие датасеты может оказаться что удобнее распространять в виде такой базы данных, благо что она с открытым кодом.

И вот chDB это такое же как DuckDb по логике, но движок Clickhouse может быть поинтереснее. В треде на ycombinator [3] есть интересные ссылки на эту тему, например, сравнение clickhouse-local и DuckDb [4] и clickhouse-local там был особенно крут на больших объёмах данных. Можно предположить что автор chDb переходит в clickhouse прокачать chDB также как сейчас прокачано DuckDb.

В общем и целом новость оптимистичная, больше embedded баз данных разных и полезных.

Ссылки:
[1] https://auxten.com/chdb-is-joining-clickhouse/
[2] https://www.chdb.io/
[3] https://news.ycombinator.com/item?id=37985005
[4] https://www.vantage.sh/blog/clickhouse-local-vs-duckdb

#data #opensource #databases #datatools
В Казахстане два госоргана проводят опросы по поводу открытых данных. Это Комитет государственных доходов МФ РК [1] и Акимат Северо-Казахстанской области [2]

Как думаете, что не так с этими опросами?

Не так то что в Казахстане нет портала открытых данных потому что на портале данных РК [3] не только нет свободных лицензий, но и любая выгрузка данных построчная (!). Честно говоря я ни в одной стране мира, ни на одном каталоге данных такого не видел чтобы данные отдавали построчно и не больше 100 строк за раз (!). Может после авторизации там получше, но авторизация только для граждан.

Так что нет в Казахстане портала открытых данных;)

А в опросах главная проблема в сужении раскрытия данных. Должен быть не выбор из, а открытость по умолчанию, open by default. Надо не опросы проводить что раскрыть из списка, а раскрыть всё и опросы проводить в стиле "что более востребовано из того что мы раскрыли", но это и так было бы понятно.

P.S. Вообще чувствуется что не любят в их Министерстве цифрового развития людей, ох не любят. Люто не любят. Потому что предоставлять данные построчным экспортом - это неописуемо. Я бы даже сказал уникально. Это как повесить баннер "не заходить! а если зашли, то валите отсюда!" потому что проще данные в первоисточнике взять.

Ссылки:
[1] https://dialog.egov.kz/surveycontroller/index#/view?id=5020
[2] https://dialog.egov.kz/surveycontroller/index#/view?id=5022
[3] https://data.egov.kz

#opendata #kazakhstan #closeddata #datacatalogs
В отношении Казахстана я, также, напомню что в стране много данных за пределами официального портала data.egov.kz. Например, много геопорталов и есть, даже, пара научных репозиториев. Полный список можно увидеть в реестре Common Data Index [1] там 37 каталогов данных. Из них 9 индексируются в Dateno, это каталоги на базе Geonode, GeoServer и ArcGIS Server. Остальные сделаны, или на каких-то собственных движках, или не индексируются с внешних серверов или имеют какие-то другие ограничения.

Также в Казахстане есть система индикаторов TALDAU [2] и есть много данных на сайтах Пр-ва, госорганов, акиматов и тд. А ещё немало недокументированного API у государственных систем через которые можно собирать местные реестры.

Всё это к тому что национальный портал данных страны data.egov.kz на всём этом фоне выглядит реально вызывающе плохо.

Если появится в стране кто-то кто захочет сделать общественный портал открытых данных то собрать каталог значительно большего объёма совершенно несложно.

Я большого секрета не открою если скажу что пару лет назад мы с коллегами обсуждали не создать ли большой каталог данных на всю Центральную Азию, но в итоге делать этого не стали не будучи достаточно погруженными в местный контекст. Вместо этого появился Dateno в котором охватываются вообще все страны миры.

Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://taldau.stat.gov.kz/

#opendata #data #datacalogs #kazakhstan
Наконец-то уже можно представить широко, проект Dateno, поисковая система по датасетам, о которой я писал и выступал на днях открытых данных в Ереване и в России, теперь доступна для всех желающих.

Подробнее в анонсе на Product Hunt.
Там, кстати, не хватает Ваших лайков, если каждый у кого там есть аккаунт зайдёт и отметит его, то это очень поможет;)

Сейчас в Dateno 10 миллионов наборов данных из 4.9 тысяч каталогов данных, поддерживается 13 поисковых фасетов/фильтров и вскоре будет открытое API и дополнительно открытый код.

Отдельное спасибо всем бета тестерам за отклики и обратная связь всегда бесценна. Если найдете ошибки, неудобства или идеи - пишите обязательно.

#opendata #datasets #data #datacatalogs #dateno
В России закрыт централизованный портал поиска по судебным решениям bsr.sudrf.ru [1] через который ранее можно было найти любое принятое решение судом любой юрисдикиции. Закрыт без новостей о том насколько закрыт, когда откроют и так далее. С текущей формулировкой он может не быть открыт никогда или завтра.

Судебные решения всё ещё доступны через сайты судов в разделах "Судебное делопроизводство", однако сайтов тысячи и поиск на них требует введения каптчи.

При этом в формате открытых данных судебные решения судебным департаментом никогда не публиковались, а поиск и сайты были единственными способами получения этих сведений.

Почему закрыли версий может быть более одной. Работа журналистов расследователей , изменения в руководстве Верховного суда и многое другое. Важнее то что эти данные активно использовались во многих проектах/задачах/исследованиях и закрытие поиска это ещё один сигнал о растущей закрытости значимых для общества сведений.

Ссылки:
[1] https://bsr.sudrf.ru

#opendata #closeddata #russia
Forwarded from Open Data Armenia
В нашем каталоге уже доступны выгруженные усилиями нашей команды метаданные об армянских и связанных с Арменией объектах искусства, хранящихся в российских музеях. Данные пока не прошли тонкую обработку, и если вы хотите к ней присоединиться, дайте нам знать и (или) начинайте думать, что интересного можно сделать с этими данными к нашему следующему конкурсу. Подробные сведения о наборах данных на нашем Гитхабе.
Для тех кто мог пропустить запуск finlibrary.ru одновременно архивного проекта и проекта с историческими экономическими данными.

Ещё бы раздобыть исторических справочников и статистики и их тоже собрать, но когда российский Росстат сподобится их оцифровать и публиковать?

Кстати, в справочниках Российской Империи на НЭБе есть немало статистики по постсоветскому пространству, а не только по нынешней России, но справочники тоже надо переводить в данные.

#opendata #digitalpreservation
К вопросу о том почему я лично пишу про Polars, DuckDb, а теперь ещё и присматриваюсь к chDb, потому что в моей работе есть частые задачи с очисткой и обработкой данных. В принципе, чем бы я в жизни не занимался, читал лекции, делал презентации, программировал и тд., всегда есть задача чистки данных.

Есть много способов чистить данные с помощью кода, есть хороший инструмент OpenRefine [1] известный многим кто с открытыми данными работает. Но, честно скажу, в плане скорости, но не удобства, к примеру, DuckDB бьёт все рекорды. Главный недостаток - отсутствие удобного UI аналогичного OpenRefine или то что в OpenRefine нельзя, к примеру, заменить его движок на DuckDb.

В остальном это реально очень быстро. И работать с локально с многогигабайтными датасетами и в миллионы и десятки миллионов записей - вполне реально. Для сравнения, OpenRefine у меня едва-едва тянет базу в 100 тысяч записей в 680 MB.

Использовать это можно много где. К примеру, датасет от мусорных записей, найти и удалить персональные данные, обогатить дополнительными данными на основе текущий значений столбцов, исправить ошибки в данных и многое другое.

В общем-то на базе DuckDB и, скорее всего, chDb можно построить полноценную дата-студию по приведению данных в порядок перед загрузкой в хранилище. Опять же, если иметь полноценный веб интерфейс поверх.

Такие инструменты хорошо встраиваются как ядро более прикладных дата-продуктов.

Ссылки:
[1] https://openrefine.org

#data #datatools #thoughts #duckdb #openrefine
В рубрике интересных наборов данных OMDB (Openmusic Database) [1] база метаданных по более чем 150 миллионам песен, 28 миллионам альбомов и 5 миллионам артистов. Всё это в виде дампа базы для PostgreSQL. В сжатом виде 72GB, в распакованном 175GB. Из известных мне это крупнейшая такая доступная база.

Из описания похоже что с копирайтами автор никак не разбирался и скрейпил описания из каких-то источников где копирайты есть, поэтому он поясняет что датасет только для исследований, а с копирайтами надо разбираться самостоятельно.

Для тех кто хочет поработать с большими наборами данных в исследовательских целях, научную статью написать или инфографику сделать, может быть весьма любопытно.

Ссылки:
[1] https://github.com/OatsCG/OMDB

#opendata #datasets #data
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.

Вот 7 наиболее приоритетных, в моём вольном переводе:

1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.

По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.

Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france

#opendata #ai #france #strategies #reports #readings
Полезные ссылки про данные, технологии и не только:
- Про автоматизированное видеонаблюдение на олимпиаде в Париже [1]. Под пэйволом, но в общем-то и так понятно что использует положение об экспериментах в законе об Олимпийских играх во Франции [2]
- Devin, the first AI software engineer [3] AI помощник для программистов от Cognition. Ключевая фишка - он лучше умеет самостоятельно решать Github Issues, успешно около 13.86%. Не учитесь дети на программистов, скоро они останутся без работы! Шутка, а не шутка то что джуниорам придётся нелегко.
- Grok от X.AI (Элон Маск) в открытом коде [4] пока оставлю без комментариев, пусть его потестят и расскажут те кто тестят GPT-подобные модели на регулярной основе
- Croissant: a metadata format for ML-ready datasets [5] стандарт метаданных для ML датасетов. Теперь поддерживается основными платформами Kaggle, HuggingFace и OpenML. Google обещают поддерживать его в Google Dataset Search. Подробнее в спецификации тут [6]


Ссылки:
[1] https://www.lemonde.fr/en/pixels/article/2024/03/03/paris-olympics-2024-testing-on-algorithmic-video-surveillance-of-the-games-begins_6580505_13.html
[2] https://www.lemonde.fr/en/sports/article/2023/04/13/paris-2024-french-parliament-approves-the-olympic-bill-and-its-video-surveillance-flagship-project_6022755_9.html
[3] https://twitter.com/cognition_labs/status/1767548763134964000
[4] https://github.com/xai-org/grok-1
[5] https://blog.research.google/2024/03/croissant-metadata-format-for-ml-ready.html
[6] https://mlcommons.org/working-groups/data/croissant/

#data #datatools #privacy #ml #opendata #ai
Миллионы научных статей рискуют исчезнуть из онлайн-хранилищ

Анализ цифровых идентификаторов научных статей показал, что результатов исследований публикуется больше, чем архивируется. Проблема, в первую очередь, затрагивает небольшие издательства, у которых нет средств и возможностей для долгосрочного хранения большого количества опубликованных материалов.

По данным анализа более семи миллионов цифровых публикаций, около четверти всех научных статей не архивируются и не хранятся в интернете должным образом. Результаты показывают, что онлайн-хранилища не успевают за постоянно растущим потоком новых работ, передает ERR.EE

По словам Мартина Ива, одного из авторов нового исследования, вся эпистемология науки основана на списках ссылок. Другими словами, автор статьи должен быть в состоянии проверить, что о предмете его исследования говорили другие, в противном случае ему придется полагаться на слепую веру в факты, объяснение которых ему недоступно.

Для нового анализа Ив использовал выборку из 7 438 037 научных работ. Все изученные статьи снабжены цифровым идентификатором объекта, или DOI. Это последовательность цифр, букв и символов, которая действует как идентификационный код электронного документа. DOI позволяют однозначно распознать научную работу и использовать ее в качестве ссылки.

Из всех исследований, включенных в выборку, 28%, или более двух миллионов статей, не были доступны ни в одном из крупных цифровых архивов, даже если публикация имела действующий DOI. Только 58% DOI ссылались на статьи, хранящиеся хотя бы в одном архиве. Оставшиеся 14% работ были исключены из исследования, поскольку они были опубликованы слишком недавно, не являлись журнальными статьями или их изначальный источник не мог быть определен.

Полученные результаты не означают, что статьи вообще нельзя найти в сети. Например, они могут быть доступны на сайтах издательств. Однако если последние обанкротятся или что-то случится с их серверами, соответствующие научные работы могут исчезнуть из онлайн-хранилищ.

Оказалось, что менее 1% – или всего около 200 – издательств, загрузили свои статьи в несколько архивов. Около трех четвертей издателей добавили работы в три или более архивных сред. Менее 10% разместили свои материалы как минимум в двух хранилищах.

Треть издательств вообще не занимались постоянным архивированием.
По словам Мартина Ива, его анализ следует рассматривать с некоторыми оговорками. В частности, в выборку исследования вошли только статьи с DOI-метками. Кроме того, в него были включены не все цифровые хранилища, например, архивные среды самих исследовательских институтов не рассматривались.
Несмотря на эти оговорки, анализ хорошо приняли специалисты по хранению данных, не связанных с исследованием. Например, Микаэль Лааксо, сам занимающийся вопросами публикации научных работ в Школе экономики Ханкен в Хельсинки, говорит, что многие люди слепо верят в то, что наличие DOI гарантирует вечную доступность статьи. Вместе с коллегами в 2021 году он показал, что на самом деле в период с 2000 по 2019 год из интернета исчезло более 170 журналов с открытым доступом.

Кейт Виттенберг, управляющий директор Portico, поставщика услуг цифрового архива, предупреждает, что неспособность сохранять статьи ставит под удар не столько крупные, сколько мелкие издательства. Хранение опубликованного контента стоит денег и требует инфраструктуры, технологий и опыта, которыми небольшие организации не располагают.

В своем анализе Ив предлагает меры по улучшению сохранности цифрового контента. Например, можно ужесточить требования к регистрации DOI. Также, по его мнению, стоило бы повысить осведомленность о проблеме сохранности среди издателей и самих ученых.

Исследование было опубликовано в журнале Journal of Librarianship and Scholarly Communication.

#DOI
____
@rujournals - Научные журналы и базы данных
Я в своих выступлениях про поисковик по данным Dateno рассказывал про то что один из приоритетов его развития - это повышение качества данных.

Причём, чтобы было понятно, качество данных и их описания, метаданных, подавляющего числа порталов открытых данных плохое. Иногда совсем плохое - чаще, реже среднее, но очень хорошее - это огромная редкость. Причём почти всегда это качество является отражением того что с ним работают люди которые вручную вносят файлы и заполняют описание.

Вот пример одной из практических задач. В Dateno сейчас 3383 типа форматов файлов, но, в реальности, это лишь 129 форматов, потому что пользователи указывают в полях типа file format что попало, часто с ошибками. Помимо того что есть указания по которым вообще нельзя понять что это за файл, так есть ещё и много форм написания расширений и типов. На скриншотах примеры с форматами и расширениями которые приходится приводить в порядок, сейчас, полувручную. Похожая ситуация с типами MIME, они очень даже активно заполняются с ошибками, хотя, казалось бы, так быть не должно.

Поэтому большая часть работы над поисковиком - это обогащение данных, повышение качества их описания, извлечение метаданных из самих данных и многое другое для нормализации описания каждого датасета.

На скриншотах можно увидеть проверку в OpenRefine автоматически размеченных форматов и типов mime по одному из снапшотов базы Dateno. И это с оговоркой что сейчас проиндексированы далеко не самые "грязные" каталоги данных. Скорее всего ситуация будет сильно хуже с форматами когда начнём индексировать большие каталоги научных данных. Вот тут, конечно, хотелось бы найти инструмент который бы всё это делал без участия человека, но такого не наблюдается.

Потому что, например, определение форматов и типов mime относительно хорошо можно делать по содержанию файла, но скачивание всех-всех файлов для поисковика является весьма дорогостоящей задачей, и с точки зрения трафика и с точки зрения ресурсов.

#dateno #data #howitworks #datasearch #dataquality