Societat

Ensenyar català a les màquines

El projecte Aina busca milions de veus per fer la base de dades que permeti portar la llengua oral a les plataformes digitals

El Centre de Supercomputació de Barcelona participa en el projecte, que rep 3 milions d’euros

Ara que es tendeix de manera clara cap a la comunicació verbal amb tota mena de dispositius electrònics, el govern busca voluntaris que ofereixin la seva veu per generar el primer corpus o “diccionari de veu” del català i establir les bases perquè aquesta interacció digital es pugui fer també en català oral. És l’objectiu del projecte Aina, engegat pel Departament de Polítiques Digitals en col·laboració amb el Barcelona Supercomputing Center, que enguany s’impulsarà amb una partida de tres milions d’euros.

El projecte no aspira a crear un assistent de veu en català, sinó que recopila els conjunts massius de dades i els models de la llengua catalana per tal que qualsevol empresa o organització pugui utilitzar-los i desenvolupar les seves solucions o serveis específics. Això permetria l’aplicació de la llengua a traductors, assistents personals, sintetitzadors de veu i classificadors de textos, per exemple.

La idea és ensenyar català a les màquines de manera que la ciutadania pugui relacionar-s’hi i participar en el món digital en català al mateix nivell que els parlants d’una llengua global, com ara l’anglès, i evitar, així, l’extinció digital de la llengua catalana.

Malgrat la globalització, la responsable de la unitat de mineria textual del Barcelona Supercomputing Center, Marta Villegas, defensa que, en el context actual, “la tecnologia juga a favor” de llengües minoritàries com el català. I ho argumenta: “A Apple o Amazon, no els costarà gens incloure el català en el seu catàleg d’idiomes i fer que Siri o Alexa el parlin. No hauran de fer regles específiques o un nou diccionari per al català. El que necessiten són les dades, la base. I si nosaltres l’establim, posaran el català a tot arreu”, diu la responsable del programa.

En paral·lel a aquest projecte, cal dir que les grans empreses tecnològiques ja han fet alguns moviments, amb més o menys eficàcia, per mirar d’implementar el català pel seu compte. De moment, qui més ha avançat és Google, que, gràcies al gran volum d’usuaris que té, ja entén el català oral, però encara no el parla. Quan el projecte Aina acabi, però, facilitarà l’arribada de la llengua a les empreses amb molts menys mitjans.

Els darrers anys, el projecte Aina ja ha desenvolupat un corpus de text de més de 1.770 milions de paraules, reunides en 95 milions de frases. Fins i tot s’han començat a recollir dades de veu, a partir de les sessions parlamentàries, que tenen una transcripció textual que permet utilitzar-les per entrenar la intel·ligència artificial.

A partir d’avui, però, el govern vol accelerar la marxa obrint la recol·lecció de veus a tota la població catalanoparlant, buscant la màxima diversitat de variants i edats. Això permetrà agilitzar el procés: si en els darrers tres anys s’han recollit mil hores d’enregistrament de veu, l’objectiu és que enguany se’n puguin obtenir mil més.

Amb la feina feta fins ara, s’ha aconseguit que la intel·ligència artificial conegui la sintaxi de la llengua, com s’estructura. En la nova fase, es vol que aprofundeixi en el lèxic, en la semàntica i en tota la part oral. “Ja tenim l’esquelet. Ara el que hem de construir és la musculatura, gràcies a un web que permetrà que qualsevol persona pugui ajudar l’Aina a aprendre el català”, insisteix el vicepresident del govern.

El corpus textual que s’ha generat fins ara té un pes de 10 gigabytes (GB), res a veure amb el que ocupen els de llengües amb una dimensió molt més planetària i, per tant, amb molta més facilitat per generar recursos. El corpus de l’anglès, que ja disposa d’arxius de veu (que pesen molt més que els de text) té 825 GB i el del castellà, 570. “És evident que encara tenim molt camí per recórrer”, assenyala Villegas, sense determinar a quin volum de dades voldria arribar.

La recopilació de veus es fa des del web projecteaina.cat, que enllaça amb la plataforma Common Voice, de la Fundació Mozilla. Es tracta d’una iniciativa “per ajudar a ensenyar a les màquines com parlen les persones de veritat” i que recopila i valida veus en diferents idiomes. Segons dades de la mateixa fundació, el català és ara la sisena llengua amb més hores acumulades: en té unes 1.100 d’enregistrades i 953 d’aprovades, és a dir, que han estat validades per almenys dos usuaris més de la plataforma. Common Voice no disposa encara de cap registre en aranès i el govern no té intenció de potenciar-ho, almenys a curt termini.

En canvi, el vicepresident Puigneró sí que va reiterar la voluntat d’impulsar un assistent de veu per complementar la prestació de serveis d’atenció de la Generalitat.

LES FRASES

Nosaltres no farem aplicacions finals, sinó la infraestructura perquè d’altres ho acabin aprofitant
Marta Villegas
Unitat de Mineria de Textos del Barcelona Supercomputing Center

LES XIFRES

Això és un projecte de país en un moment de pressió sobre la llengua i hi dedicarem l’esforç que calgui
Jordi Puigneró
Vicepresident de la Generalitat
1.000
hores
d’enregistrament de veu és l’objectiu que s’han fixat els impulsors del projecte per a aquest any.
10
gigabytes
ocupa el corpus del català, que encara no té veu. El de l’anglès sí que en té i pesa 825 GB. El del castellà, 570.


Identificar-me. Si ja sou usuari verificat, us heu d'identificar. Vull ser usuari verificat. Per escriure un comentari cal ser usuari verificat.
Nota: Per aportar comentaris al web és indispensable ser usuari verificat i acceptar les Normes de Participació.
[X]

Aquest és el primer article gratuït d'aquest mes

Ja ets subscriptor?

Fes-te subscriptor per només 48€ per un any (4 €/mes)

Compra un passi per només 1€ al dia