Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В блоге Meta пишут о том что компания строит свой переводчик реального времени с использованием ИИ [1] и обещают поддерживать много языков и хорошее качество перевода, но не указывают сроки. Тут сложно не вспомнить что похожие технологии появляются и у других компаний, например, в Microsoft Skype уже довольно давно умеет переводить между 40 языками.

Это как раз из тех задач для которых нужны огромные объёмы данных и тем важнее оцифровка и доступность языковых данных. Системы перевода могут спасти вымирающие языки от полного исчезновения.


Ссылки:
[1] https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time

#ai #translation #data
В рубрике интересных наборов данных United Nations Parallel Corpus [1] с одной стороны многим известный, а с другой, на удивление, далеко не всем.

Этот набор данных включает связанные тексты на разных языках позволяя развивать технологии перевода, как минимум, между популярными языками которые использует ООН.

В общей сложности это 799 276 документов и 1 727 539 пар связанных документов.

Доступно под свободной лицензией, но не стандартной, а с требованием упоминания ООН и исследования в рамках которого этот набор данных был создан.

Ссылки:
[1] https://conferences.unite.un.org/uncorpus

#opendata #un #datasets #languages #translation