Cуперкомпьютер MareNostrum сгенерирует модель для изучения испанского языка из миллионов цифровых материалов Национальной библиотеки Испании

Cуперкомпьютер MareNostrum сгенерирует модель для изучения испанского языка из миллионов цифровых материалов Национальной библиотеки Испании

Проект является частью комиссии по оцифровке и искусственному интеллекту при BSC (Барселонский суперкомпьютерный центр – Национальный центр суперкомпьютинга) в рамках Плана продвижения языковых технологий.

Суперкомпьютер MareNostrum уже начал получать огромное количество данных из веб-архива Национальной библиотеки Испании и станет основой для создания модели для изучения испанского языка.

Испанский веб-архив – это коллекция, созданная веб-сайтами с доменом .es (включая блоги, форумы, документы, изображения, видео и т. д.), а также все те материалы, которые считаются документальным наследием, включенные в другие домены. BSC является ответственным за выполнение этой задачи, которая состоит из двух частей: передача данных и их обработка. В настоящее время в суперкомпьютере хранится 45 терабайт.

Следующим шагом будет обработка этих данных для генерации языковых моделей.

Аналогичный ресурс уже существует для английского языка, наиболее известным из которых является Google Bert.

Модель BSC отличается от других испанских инициатив в области моделей для изучения испанского языка количеством, качеством и разнообразием данных, что делает их более точными и более универсальными.

Read more: Новости ...