La normalització del català en l’àmbit digital pren cos

El projecte Aina enllesteix el corpus lingüístic per preparar la intel·ligència artificial que faran servir els assistents de veu

El Barcelona Supercomputing Center participa en el disseny científic i el càlcul

Xavi Aguilar - Barcelona

L’estratègia de la Generalitat de garantir la supervivència i competitivitat del català en un entorn cada cop més globalitzat i digital comença a prendre forma. El conseller de Polítiques Digitals i Administració Pública, Jordi Puigneró, en va oferir ahir els primers resultats en la presentació del projecte Aina, un programa amb un pressupost de 13,5 milions d’euros per a quatre anys que vol dotar la llengua pròpia del país dels recursos digitals i lingüístics per tal que les empreses que creen aplicacions basades en intel·ligència artificial, com ara assistents de veu i traductors automàtics, puguin fer-ho fàcilment en català.

El Barcelona Supercomputing Center (BSC) serà un agent cabdal en aquesta adaptació a l’entorn virtual, ja que hi aporta el coneixement científic i la capacitat de càlcul per aixecar el projecte. De moment, ja s’ha elaborat el corpus lingüístic textual, el més gran que s’ha fet mai de la llengua catalana, consistent en 1.770 milions de paraules reunides en 95 milions de frases. Per construir-lo s’han descarregat i processat textos del Diari Oficial de la Generalitat de Catalunya i els seus webs, l’Agència Catalana de Notícies, els 500 dominis .cat amb més trànsit, la Viquipèdia i altres corpus i bases de dades ja existents.

Tot plegat va generar un volum d’informació que el superordinador MareNostrum va polir i netejar de duplicats amb 2.000 hores de processadors. Ara es crearan nous corpus per incorporar les diferents variants dialectals del català, diferents registres lingüístics (col·loquial, literari, administratiu, etc.) i arxius de veu i imatge, que es nodriran del repositori documental de la Corporació Catalana de Mitjans Audiovisuals.

Amb tota aquesta informació, el següent pas serà entrenar xarxes neuronals multicapa perquè “aprenguin el català” i generin models de la llengua, models de la parla i models per a la traducció. Es tracta d’eines molt costoses de crear, perquè necessiten gran capacitat de càlcul, però que es posaran a disposició dels desenvolupadors per crear assistents de veu, predictors i correctors lingüístics, xatbots, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l’anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre altres.

Batejat en honor d’Aina Moll, filòloga menorquina que des de la direcció general de Política Lingüística de la Generalitat va ser figura central de la normalització del català, aquest projecte arrenca amb una inversió inicial de 250.000 euros del govern al BSC i espera rebre finançament dels fons europeus NextGenerationEU.

El català no té un estat que el protegeixi, tot i que la constitució ho estableix. Ho hem de fer nosaltres

Jordi Puigneró

conseller de Polítiques Digitals

Si la dictadura no va eliminar el català, tampoc no ho farà la digitalització. Alexa parlarà català abans que es pugui fer al Congrés o al Suprem

Notícies relacionades

El projecte Aina reivindica el català a internet a les pantalles de Times Square

Desar la notícia al meu compte

Escriure un comentari

Identificar-me. Si ja sou usuari verificat, us heu d'identificar. Vull ser usuari verificat. Per escriure un comentari cal ser usuari verificat.

Nota: Per aportar comentaris al web és indispensable ser usuari verificat i acceptar les Normes de Participació.

Enllaços relacionats

Tema: Llengua

Barcelona

La normalització del català en l’àmbit digital pren cos

El projecte Aina enllesteix el corpus lingüístic per preparar la intel·ligència artificial que faran servir els assistents de veu

El Barcelona Supercomputing Center participa en el disseny científic i el càlcul

Notícies relacionades

El projecte Aina reivindica el català a internet a les pantalles de Times Square

Enllaços relacionats

Publicat a

Més llegides

Intervenen més d’un miler de productes i joguines a Vic

Dos ferits greus i dotze de lleus en un incendi en un centre de discapacitats a Cerdanyola

Mor Duckadam, l’heroi de l’Steaua a la final de Sevilla

Acaben les reformes dels tres ponts sobre el parc de Vallparadís

Investiguen la causa de l’accident a Portè i possibles irregularitats de l’empresa d’autocars

Impulsen una eina pionera per a les persones amb discapacitat intel·lectual

Dos detinguts per cometre robatoris amb violència i intimidació

Presenten el llibre ‘La captivadora història de Castell d’Aro, Platja d’Aro i S’Agaró’

Mor a Sabadell la súper centenària Felicitas Esteban (111 anys)

Riqui Puig es trenca el lligament encreuat anterior del genoll

Estic registrat i vull presentar-me

Notícies relacionades

Enllaços relacionats

Publicat a

Més llegides