Веб-архив сайтов Испании стал источником построения языковой модели для искусственного интеллекта
Национальная библиотека Испании (Biblioteca Nacional de España) ежегодно собирает архив всех сайтов в зоне .es. За 2009-2019 годы так было собрано 59ТБ WARC файлов архивов.
На основе этих архивов исследователями из суперкомпьютерного центра в Барселоне была создана языковая модель
RoBERTa-large-bne размером в 570GB, составленная из 201+ миллиона документов.
Эта модель создана в рамках инициативы Plan de Tecnologías del Lenguaje по созданию языковых моделей испанского языка.
По мере использования этой модели можно говорить о том что национальная цифровая архивация имеет не только исторический, но и прикладной экономический и научный результаты.
#language #digitalpreservation #spain
Национальная библиотека Испании (Biblioteca Nacional de España) ежегодно собирает архив всех сайтов в зоне .es. За 2009-2019 годы так было собрано 59ТБ WARC файлов архивов.
На основе этих архивов исследователями из суперкомпьютерного центра в Барселоне была создана языковая модель
RoBERTa-large-bne размером в 570GB, составленная из 201+ миллиона документов.
Эта модель создана в рамках инициативы Plan de Tecnologías del Lenguaje по созданию языковых моделей испанского языка.
По мере использования этой модели можно говорить о том что национальная цифровая архивация имеет не только исторический, но и прикладной экономический и научный результаты.
#language #digitalpreservation #spain
huggingface.co
PlanTL-GOB-ES/roberta-large-bne · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.