Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это работает у них проект Nueva Economía de la Lengua [1], Новая языковая экономика в Испании.

В его основе инвестиции в размере 1.1 миллиарда евро в изучение испанского языка из которых:
- 475 миллионов евро идёт на создание цифровой платформы изучение языка и оцифровку материалов Института Сервантеса
- 330 миллионов евро идёт на создание языковых моделей для работы искусственного интеллекта.

Эти модели уже активно создаются. Из последних можно привести в пример ESCORPUS [2] языковая модель высокого качества на 50 миллионов слов, а также исходный код и многочисленные другие модели языков и публикации научные и популярные [3] создаваемые в суперкомпьютерном центре в Барселоне.

Обо всём этом, проектах и результатах, на сайте Министерства экономики Испании [4], результатов там немало.

Всё это делает испанский язык наиболее вероятным языком после английского языка по появлению новых продуктов на базе языковых моделей. Может быть ещё китайский язык составляет конкуренцию, разве что.

С точки зрения работы с данными можно рассматривать этот план как создание огромных качественных открытых наборов данных с чётко сформулированными целями в рамках долгосрочной государственной политики.

Испанский язык один из наиболее распространённых в мире и его распространение явно продолжится.

А есть ли на постсоветском пространстве похожие инициативы? Есть ли государственные инвестиции и открытые модели для русского, казахского, армянского, узбекского и других языков? Можно ли сохранять свои языки популярными и востребованными не вкладываясь в технологии их применения?

Ссылки:
[1] https://planderecuperacion.gob.es/como-acceder-a-los-fondos/pertes/perte-nueva-economia-de-la-lengua
[2] https://huggingface.co/datasets/LHF/escorpius
[3] https://github.com/PlanTL-GOB-ES
[4] https://plantl.mineco.gob.es/Paginas/index.aspx

#opendata #datasets #spain #languages #government #policy #eu
August 13, 2022
August 19, 2022
August 23, 2022
October 24, 2023
August 16, 2024
Пишут что Гарвард опубликовал датасет из более чем 1 миллиона книг которые не закрыты копирайтом и можно их свободно использовать при обучении ИИ [1].

Правда ссылки на сам датасет мне нигде не удалось найти, и даже первоисточник новости на сайте Гарварда тоже, но тем не менее.

1 миллион книг при работе с которыми нет юридических рисков - это очень много, втрое больше чем набор данных Books3 [2] к которому были как раз юридические претензии.

К вопросу о больших языковых моделей, они создаются на текстах, тексты надо откуда-то брать.

Если Ваше правительство не создаёт большие открытые наборы данных с текстами на национальном языке, значит за него это сделает кто-то ещё.

В этом смысле судьба языков малочисленных народов всё более будет под вопросом. Без большого пласта письменной истории они совсем выпадут из обихода.

Ссылки:
[1] https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
[2] https://www.wired.com/story/battle-over-books3/

#languages #datasets #ai
December 12, 2024