Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Open Data Armenia (Ivan Begtin)
[RU] Многие открытые данные и материалы культурного наследия Армении и армян разбросаны по архивам по всему миру, картины художников, работы скульпторов, книги писателей доступны на сайтах музеев, галерей и архивов. Чаще всего их невозможно найти просто указанием страны, не все архивы позволяют искать идентифицируя по культурному происхождению или по стране.

В некоторых странах, например, в Российской Федерации значительная часть культурных данных доступны в виде больших наборов данных, доступных для выгрузки, анализа и исследований. Где найти эти культурные данные?

Госкаталог музейного фонда (https://goskatalog.ru)

Создан Минкультуры РФ, включает описание и превью более чем 37 миллионов экспонатов. В каталоге много материалов относящихся к Армении, например, картины Ованесса Айваязана (Ивана Айвазовского) [1] или картины и иные материалы связанные с работой Мартироса Сарьяна [2]. Данные из Госкаталога доступны в на портале открытых данных Минкультуры РФ, их можно скачать и найти в них эти и другие материалы связанные с культурой и историей Армении и армянского народа.

Артефакт – гид по музеям России (https://ar.culture.ru)

Другой проект Минкультуры России охватывает множество музеев РФ и предоставляет изображения экспонатов в высоком качестве. В этом проекте, также, немало картин имеющих отношение к Армении и армянским художникам. Там есть страница и галерея посвящённая Ивану Айвазовскому (Ованесу Айвазяну) [4], или Налбандяна Дмитрия Аркадьевича [5] и многих других художников. В системе Артефакт не публикуются открытые данные, но есть недокументированное API и возможность собрать данных через скрейпинг данных.

Национальная электронная библиотека (https://rusneb.ru)

В Национальной электронной библиотеке собраны миллионы книг открытого доступа из библиотек и архивов России. Многие книги в НЭБ написаны армянскими писателями на русском языке или переведены на русский язык. Например, в НЭБ есть книги Мартироса Сарьяна [6] и Ованеса Туманяна [7], а также небольшое число книг на армянском языке [8]. У НЭБ нет открытого API или открытых данных, но эти и другие материалы можно найти поиском и собрать скрейпингом с веб-страниц НЭБ. Также в НЭБ немало документов Российской Империи включающих историю и статистику губерний населённых армянами.

Этот список источников далеко не исчерпывающий, многие художественные произведения публикуются на сайтах других музеев, галерей, библиотек и архивов. Мы собираем список таких источников данных со всего мира и если Вы знаете такие сайты, обязательно напишите нам, мы опубликуем итоговый список в в каталоге данных Open Data Armenia и организуем сбор этих данных.

Ссылки:
[1] https://t.ly/MbOQ
[2] https://t.ly/g2-LI
[3] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[4] https://ar.culture.ru/ru/person/ayvazovskiy-ik
[5] https://ar.culture.ru/ru/person/dmitriy-arkadevich-nalbandyan
[6] https://t.ly/A9ph
[7] https://t.ly/T71z
[8] https://t.ly/FAsT

#opendata #digitalheritage #culture #armenia #datasets
Forwarded from Open Data Armenia (Ivan Begtin)
For everyone ready to help with data collection for Open Data Armenia, we have started publishing tasks for volunteers. The first six tasks are already available via the link. If you have some free time, you are a programmer or an analyst; you can help the community. If you need programming skills but know where data needs to be collected/transformed, or you have ideas about what can be built on their basis, we invite you to share your thoughts in the general chat.

Для всех кто готов помочь со сбором данных для Open Data Armenia мы начали публиковать задачи для волонтеров. Первые 6 задач уже доступны по ссылке. Если у Вас есть немного свободного времени, Вы программист или аналитик, то Вы можете помочь сообществу. Если Вы не умеете программировать, но знаете где есть данные которые нужно собрать/преобразовать или у Вас есть идеи что можно на их основе построить, приглашаем поделиться идеями в общем чате.

Բոլորի համար, ովքեր պատրաստ են օգնել Open Data Armenia-ի տվյալների հավաքագրմանը, մենք սկսել ենք կամավորների համար առաջադրանքներ հրապարակել: Առաջին վեց առաջադրանքներն արդեն հասանելի են հղման միջոցով։ Եթե ունեք ազատ ժամանակ, դուք ծրագրավորող եք կամ վերլուծաբան; դուք կարող եք օգնել համայնքին: Եթե Ձեզ անհրաժեշտ են ծրագրավորման հմտություններ, բայց գիտեք, թե որտեղ պետք է տվյալները հավաքվեն/փոխակերպվեն, կամ ունեք գաղափարներ այն մասին, թե ինչ կարելի է կառուցել դրանց հիման վրա, մենք ձեզ հրավիրում ենք կիսվել ձեր մտքերով ընդհանուր չաթում:

Tasks list https://github.com/opendataam/opendatam-tasks/issues
Chat for discussion https://t.iss.one/opendataamchat

#opendata #armenia #tasks #volunteering
Forwarded from Open Data Armenia (Kseniia Orlova)
[EN] Awesome list: a toolkit for text analyzis Armenian language

- Eastern Armenian National Corpus Electronic Library provides a full view of works by classical authors (these books are in the public domain because their authors died more than 70 years ago). The corpus contains 4547379 words from 104 books by 12 authors. 

- Named entity recognition. pioNer — trained data for Armenian NER using Wikipedia. This corpus provides the gold standard for automatically generated annotated datasets using GloVe models for Armenian. Along with the datasets, 50-, 100-, 200-, and 300-dimensional GloVe word embeddings trained on a collection of Armenian texts from Wikipedia, news, blogs, and encyclopedias have been released.

- The Polyglot library for Python supports language detection, named entity extraction (using Wikipedia data), morphological analysis, transliteration, and sentiment analysis for Armenian.

- Kevin Bougé Stopword Lists Page includes th Armenian language.

- Ranks NL Stopword Lists Page includes the Armenian language.

If you know of new usefull tools and guides, please share that knowledge with us!

Image author Aparna Melaput

#opendata #armenia #language #tools #digitalhumanities
Я, кстати, не могу не поделиться что за время работы над каталогом данных в рамках Open Data Armenia [1] наша команда подготовила уже 28 хорошо описанных задач для тех кто готов помогать создавать открытые данные в Армении. Задачи самые разные, какие-то требуют хорошего знания Армянского языка, но для очень многих достаточно знания английского или русского. Например, в задаче по сбору исторических мест из древности [3] задача в том чтобы проанализировать базу проекта Pleiades [4] и извлечь оттуда данные связанные с историей Армении. Они там точно есть и точно не только те что на нынешней территории страны.

Другие данные по Армении и армянской культуре есть в российских источниках и архивах и в архивах многих стран мира.

Вообще хотелось бы довести число наборов данных в стране хотя бы до 1000, но не хочется набивать портал бессмысленными данными, наоборот, лучше меньше, но с понятным и полезным применением.

Ссылки:
[1] https://data.opendata.am
[2] https://github.com/opendataam/opendatam-tasks/issues
[3] https://github.com/opendataam/opendatam-tasks/issues/30
[4] https://pleiades.stoa.org/

#opendata #armenia #digitalhumanities
Forwarded from Open Data Armenia (Valeria Babayan)
[EN] And here are some new inspiring 3D models, this time of Geghard monastery alongside Ani. They are published at the Open Heritage website. Open Heritage 3D is a project dedicated to making primary 3D cultural heritage data open and accessible as well as to ease sharing these data for publishers.

CyArc which led the documentation of both sites is one of the most authoritative in the field of digital culture preservation. Interestingly, Geghard Monastery was immortalized by the high schoolers of the TUMO Center for Creative Technologies during the two-week workshop ran by CyArk.

Feel free to share if you know any other interesting data sources aimed at preserving cultural heritage.

#opendata #armenia #history #architecture
К вопросу о поиске данных, в портал открытых данных по Армении (data.opendata.am) [1] мы начали загружать больше данных из разных источников и автоматически. Я вспомнил навыки по загрузке данных в CKAN и просто загрузил датасеты которые собирал в рамках Common Data Index с фильтром по Армении как по стране. Сейчас там более 700 наборов данных и ещё не меньше можно собрать.

По такому же принципу существует портал openAfrica [2], тоже общественная инициатива, только они собрали 6 886 по всему континенту. Не очень много, можно и больше, я недавно с ними общался и подсказывал где больше африканских порталов с данными. Собственно порталы на базе CKAN обладают встроенными API и функциями сбора данных из других порталов. По опыту API удобнее, правда.

И вот тут есть особенность что чем больше страна, тем больше по ней данных разбросано по международным и научным каталогам данных, потому что есть данные исследователей из страны, есть данные по биоразнообразию, есть данные исследований о земле, данные спутниковых снимков и так далее. Если поискать, например, данные о России за пределами России то можно насобирать до 40-50 тысяч наборов данных без феноменальных сложностей.

На одном только портале Pangaea более 14 тысяч наборов данных [4] по ключевому слову "Russia". К примеру, по слову "Armenia" находится только 46 наборов данных [5]. Поэтому размер территории, экономики и научной активности имеет значение когда собираешь данные по отдельной стране, за её пределами.

Я когда-то думал об этом размышляя над перезапуском нашего российского Хаба открытых данных [3]. Я совершенно не шучу что туда можно очень быстро добавить очень много данных, очень-очень много данных, разного размера, от маленького объёма до баз данных которые невозможно обработать на персональном компьютере.

Но в целом Государство российское, в его нынешней инкарнации, много лет скорее препятствует работе по повышению доступности данных. Помимо того что они убили Кенни портал открытых данных data.gov.ru, так за все эти годы не появилось ни одного портала научных данных, кроме ЕСИМО, нет нормальных каталогов геоданных, и сами открытые данные госорганов сейчас крайне фрагментированы даже когда доступны.

Поэтому можно ли и нужно ли создавать Российский национальный не-государственный портал открытых данных - это вопрос открытый. И в значительной степени он упирается в аудиторию такого проекта.

Ссылки:
[1] https://data.opendata.am
[2] https://africaopendata.net
[3] https://hubofdata.ru
[4] https://pangaea.de/?q=Russia
[5] https://pangaea.de/?q=Armenia

#opendata #datasets #russia #armenia #datacatalogs #data
Хорошая статья на Хабре про девушку которая в виду отсутствия данных о качестве воздуха в Ереване самостоятельно начала собирать датчики [1] и сделала сайт для публикации данных. Лучший способ побуждать любое государство публиковать данные - это создавать данные. Иногда, правда, у государств просто нет ресурсов. Например, Армения не самая богатая страна и данных о качестве жизни не так уж много.

Тут и сайт есть, и данные и сообщество будет формироваться. Просто отличная инициатива!

А мы обязательно добавим эти данные в каталог данных Open Data Armenia [2]

Ссылки:
[1] https://habr.com/ru/articles/755586/
[2] https://data.opendata.am

#armenia #opendata #lifequality #airquality #sensors
Forwarded from Open Data Armenia (Ivan Begtin)
More Armenian open data available. We added list of all branches of Armenian post (Haypost) [1] in Armenian, English and Russian. Data collected from Haypost public but undocumented API.

Also we added lists of Armenia related keywords [2] in Russian and, in future, in English to collect Armenia-related data from Russian data sources like Goskatalog and National Electronic Library. These lists are still in development and include mostly geographic names related to Armenia and family names related to Armenians.

We keep working to collect more interesting datasets for our upcoming open data contest that we will announce soon!

LInks:
[1] https://data.opendata.am/dataset/armenian-post-branches
[2] https://github.com/opendataam/armenian-keywords

#opendata #armenia #datasets
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):

В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.iss.one/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.iss.one/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am

В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.

Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.

Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.

#opendata #russia #armenia #projects #digitalpreservation
Как Вы думаете сколько Excel файлов опубликовано на сайте российского ЦБ ? Более 18 тысяч, в форматах XLS и XLSX, даже если предположить что большая часть из них это ежемесячные файлы в повторяющейся структуре - это будет сотни-тысячи наборов данных. Сколько Excel файлов публикуется другими органами власти - сотни тысяч, причём в развитых странах, как правило, большая их часть - это не продукт ручной работы, а экспорт из внутренних систем органов власти.

Ещё когда только-только появлялись первые порталы открытых данных я говорил что собрать десятки тысяч, сотни тысяч файлов наборы данных не является сложной задачей. Сложности не в том чтобы собрать, а в том чтобы собрать полезное и поддерживать сообщество вокруг. В мире, по моим наблюдениям, это лучше всего получается во Франции и в Испании, но не только, просто везде разные акценты. В США на бесконечном объёме научных и геоданных, в Европе на геоданных и на high-value datasets и так далее.

Всё проще когда данных много в общедоступных государственных информационных системах и когда открытые данные худо-бедно существуют. Поэтому на российских общественных порталах открытых данных вроде Хаба открытых данных (hubofdata.ru) мы не стали собирать бесконечное количество Excel файлов, хотя они в наличии всегда были.

Сложнее когда этих систем мало или когда они устаревают и получить структурированные данные из них сложно. Поэтому, к примеру, портал открытых данных Армении (data.opendata.am) который мы создали включает те немногие данные что были доступны онлайн, но многие источники не в стране, а порталы вроде WorldPop или Humanitarian Data Exchange. Внутри страны открытые данные как открытые данные органами власти практически не публикуют. Мы сейчас собрали 810 наборов данных, что немало для страны с населением чуть менее 3 миллионов человек, но есть ещё много других данных

Что возвращает нас к всего лишь нескольким способам их создания:
1. Попросить у госорганов. Написать в госорганы в Армении запрос на публикацию существующих данных как открытых. Скорее всего займёт много времени и ответы в стиле "спасибо что написали, но у нас на это денег нет", что во, многом, правда.
2. Извлечь из существующих информационных систем и дата-каталогов. Их список известен (https://registry.commondata.io/country/AM) и частично это уже сделано, но данных там не так много как хотелось бы.
3. Вернуться к идее сбора Excel файлов по госсайтам и не просто парсить HTML таблицы, а собрать и систематизировать опубликованные реестры и иные данные с официальных госсайтов: правительства, министерств, служб, региональных правительств (марзов) и так далее. Это даст возможность собрать ещё несколько тысяч наборов данных.
4. Самоограничить себя до сбора high-value datasets и их размещения в открытом доступе, а то есть тех данных которые:
- обладают большим объёмом
- имеют множественное практическое применение
- хорошо визуализирутся
- весьма востребованы

Такие данные тоже есть, например, все законы в РА из системы ARLIS.

Как бы то ни было, идея в автоматизации сбора Excel файлов с сайтов органов власти меня до конца не покинула, она не то чтобы совсем проста, но не слишком сложна в реализации.

#opendata #opengov #armenia