Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Open Data Armenia (Kseniia Orlova)
[EN] Awesome list: a toolkit for text analyzis Armenian language

- Eastern Armenian National Corpus Electronic Library provides a full view of works by classical authors (these books are in the public domain because their authors died more than 70 years ago). The corpus contains 4547379 words from 104 books by 12 authors. 

- Named entity recognition. pioNer — trained data for Armenian NER using Wikipedia. This corpus provides the gold standard for automatically generated annotated datasets using GloVe models for Armenian. Along with the datasets, 50-, 100-, 200-, and 300-dimensional GloVe word embeddings trained on a collection of Armenian texts from Wikipedia, news, blogs, and encyclopedias have been released.

- The Polyglot library for Python supports language detection, named entity extraction (using Wikipedia data), morphological analysis, transliteration, and sentiment analysis for Armenian.

- Kevin Bougé Stopword Lists Page includes th Armenian language.

- Ranks NL Stopword Lists Page includes the Armenian language.

If you know of new usefull tools and guides, please share that knowledge with us!

Image author Aparna Melaput

#opendata #armenia #language #tools #digitalhumanities
Я, кстати, не могу не поделиться что за время работы над каталогом данных в рамках Open Data Armenia [1] наша команда подготовила уже 28 хорошо описанных задач для тех кто готов помогать создавать открытые данные в Армении. Задачи самые разные, какие-то требуют хорошего знания Армянского языка, но для очень многих достаточно знания английского или русского. Например, в задаче по сбору исторических мест из древности [3] задача в том чтобы проанализировать базу проекта Pleiades [4] и извлечь оттуда данные связанные с историей Армении. Они там точно есть и точно не только те что на нынешней территории страны.

Другие данные по Армении и армянской культуре есть в российских источниках и архивах и в архивах многих стран мира.

Вообще хотелось бы довести число наборов данных в стране хотя бы до 1000, но не хочется набивать портал бессмысленными данными, наоборот, лучше меньше, но с понятным и полезным применением.

Ссылки:
[1] https://data.opendata.am
[2] https://github.com/opendataam/opendatam-tasks/issues
[3] https://github.com/opendataam/opendatam-tasks/issues/30
[4] https://pleiades.stoa.org/

#opendata #armenia #digitalhumanities
Forwarded from Open Data Armenia (Valeria Babayan)
[EN] And here are some new inspiring 3D models, this time of Geghard monastery alongside Ani. They are published at the Open Heritage website. Open Heritage 3D is a project dedicated to making primary 3D cultural heritage data open and accessible as well as to ease sharing these data for publishers.

CyArc which led the documentation of both sites is one of the most authoritative in the field of digital culture preservation. Interestingly, Geghard Monastery was immortalized by the high schoolers of the TUMO Center for Creative Technologies during the two-week workshop ran by CyArk.

Feel free to share if you know any other interesting data sources aimed at preserving cultural heritage.

#opendata #armenia #history #architecture
К вопросу о поиске данных, в портал открытых данных по Армении (data.opendata.am) [1] мы начали загружать больше данных из разных источников и автоматически. Я вспомнил навыки по загрузке данных в CKAN и просто загрузил датасеты которые собирал в рамках Common Data Index с фильтром по Армении как по стране. Сейчас там более 700 наборов данных и ещё не меньше можно собрать.

По такому же принципу существует портал openAfrica [2], тоже общественная инициатива, только они собрали 6 886 по всему континенту. Не очень много, можно и больше, я недавно с ними общался и подсказывал где больше африканских порталов с данными. Собственно порталы на базе CKAN обладают встроенными API и функциями сбора данных из других порталов. По опыту API удобнее, правда.

И вот тут есть особенность что чем больше страна, тем больше по ней данных разбросано по международным и научным каталогам данных, потому что есть данные исследователей из страны, есть данные по биоразнообразию, есть данные исследований о земле, данные спутниковых снимков и так далее. Если поискать, например, данные о России за пределами России то можно насобирать до 40-50 тысяч наборов данных без феноменальных сложностей.

На одном только портале Pangaea более 14 тысяч наборов данных [4] по ключевому слову "Russia". К примеру, по слову "Armenia" находится только 46 наборов данных [5]. Поэтому размер территории, экономики и научной активности имеет значение когда собираешь данные по отдельной стране, за её пределами.

Я когда-то думал об этом размышляя над перезапуском нашего российского Хаба открытых данных [3]. Я совершенно не шучу что туда можно очень быстро добавить очень много данных, очень-очень много данных, разного размера, от маленького объёма до баз данных которые невозможно обработать на персональном компьютере.

Но в целом Государство российское, в его нынешней инкарнации, много лет скорее препятствует работе по повышению доступности данных. Помимо того что они убили Кенни портал открытых данных data.gov.ru, так за все эти годы не появилось ни одного портала научных данных, кроме ЕСИМО, нет нормальных каталогов геоданных, и сами открытые данные госорганов сейчас крайне фрагментированы даже когда доступны.

Поэтому можно ли и нужно ли создавать Российский национальный не-государственный портал открытых данных - это вопрос открытый. И в значительной степени он упирается в аудиторию такого проекта.

Ссылки:
[1] https://data.opendata.am
[2] https://africaopendata.net
[3] https://hubofdata.ru
[4] https://pangaea.de/?q=Russia
[5] https://pangaea.de/?q=Armenia

#opendata #datasets #russia #armenia #datacatalogs #data