We are always looking for more Armenian textual data: Collections of free to use texts, especially under open licence. We already collected more than 200k texts from ARLIS database of Armenian laws 23Gb uncompressed. But laws are very specific texts, so more data is needed for the use of any advanced applications that could be created in the planned open data competitions.
If you are aware of any other source of Armenian texts, please drop us a note in the chat https://t.iss.one/opendataamchat
#texts #datasets #helpneeded
If you are aware of any other source of Armenian texts, please drop us a note in the chat https://t.iss.one/opendataamchat
#texts #datasets #helpneeded
data.opendata.am
Armenian legislation database from ARLIS - Data Catalog Armenia
Armenia legislation database extracted from the ARLIS website (arils.am) with all metadata and texts of Armenian laws and other legal documents. The dataset is relatively big, about 23 GB...
Друзья нашего проекта пытаются переводить сканированные книги на армянском языке в текст, причём у книг не всегда есть текстовый слой и часто нестандартные (несовременные) шрифты.
Например, такая книга "Очерк по истории русских" Гавриила Айвазовского [1] издана в Венеции в 1836 году.
Попытки распознать её с помощью ABBYY Finereader успехом не увенчались. Может быть кто-то из читателей канала и нашего сообщества знает инструменты с помощью которого можно было бы такой текст распознать?
А мы бы в Open Data Armenia очень хотели бы собрать большой набор данных армянских текстов, чтобы в будущем разработчики могли бы делать на их основе исследования и создавать интересные инструменты и продукты.
Ссылки:
[1] https://greenstone.flib.sci.am/gsdl/collect/armbook/books/hamarot_patmutivn_rusac1836.pdf
#questions #texts #publicdomain
Например, такая книга "Очерк по истории русских" Гавриила Айвазовского [1] издана в Венеции в 1836 году.
Попытки распознать её с помощью ABBYY Finereader успехом не увенчались. Может быть кто-то из читателей канала и нашего сообщества знает инструменты с помощью которого можно было бы такой текст распознать?
А мы бы в Open Data Armenia очень хотели бы собрать большой набор данных армянских текстов, чтобы в будущем разработчики могли бы делать на их основе исследования и создавать интересные инструменты и продукты.
Ссылки:
[1] https://greenstone.flib.sci.am/gsdl/collect/armbook/books/hamarot_patmutivn_rusac1836.pdf
#questions #texts #publicdomain