Ciència

Drets d’autor i la lluita per controlar les dades

Les tecnològiques afronten la creixent escassetat de dades per entrenar la IA i els reptes legals

La demanda de dades podria superar l’oferta disponible abans del 2028 i posa en risc la IA

OpenAI va utilitzar més d’un milió d’hores de vídeos de YouTube per entrenar GPT-4

Internet s’ha convertit en el camp de batalla d’una nova guerra: la lluita pel control de les dades que alimenten les intel·ligències artificials (IA). Les grans tecnològiques han posat l’ull en els continguts que milions de persones publiquen diàriament, però aquesta carrera per entrenar les IA xoca frontalment amb els drets d’autor. Què passa quan la necessitat de dades col·lideix amb la protecció de la creativitat humana?

Quan es parla d’entrenament de models d’IA, ens referim al procés pel qual els algorismes analitzen grans quantitats de dades per aprendre patrons, generar prediccions o crear continguts. Aquest procés depèn fonamentalment de la disponibilitat de grans volums de textos, imatges, vídeos i àudios. El problema sorgeix quan aquestes dades estan protegides per drets d’autor, fet que ha conduït a un conflicte creixent entre les tecnològiques i els creadors de contingut.

Mustafa Suleyman, director d’intel·ligència artificial a Microsoft, va afirmar recentment que tot el que es publica a internet des dels anys noranta esdevé “software lliure” que pot ser utilitzat per entrenar IA. Aquestes declaracions han generat polèmica, especialment entre creadors i editors que veuen en aquestes pràctiques una violació dels seus drets. Les empreses tecnològiques com OpenAI i Google han estat acusades en nombroses ocasions de no respectar els drets d’autor a l’hora d’entrenar els seus models, i han arribat a ser demandades per organitzacions com Getty Images i The New York Times.

Sam Altman, CEO d’OpenAI, ha admès que seria “impossible” entrenar els models d’IA més avançats sense utilitzar materials protegits per drets d’autor, argumentant que la majoria d’expressions humanes estan cobertes per aquesta legislació. Aquests materials són essencials per crear sistemes d’IA capaços de satisfer les necessitats actuals, fet que ha portat la companyia a utilitzar dades accessibles en línia, inclosos continguts protegits per copyright, sense demanar permís o pagar als autors.

La manca de dades fiables i noves és un problema creixent per a les empreses d’IA. Els experts avisen que la demanda de dades podria superar l’oferta disponible abans del 2028, fet posaria en risc el desenvolupament de nous models. Ja s’estan explorant mètodes alternatius com l’ús de dades sintètiques generades per les mateixes IA o el circular learning, que implica alimentar els sistemes amb informació d’alta qualitat d’una manera més estructurada.

Aquests mètodes encara no han demostrat ser tan efectius com les dades reals. OpenAI va utilitzar més d’un milió d’hores de vídeos de YouTube per entrenar GPT-4, incomplint les polítiques de la plataforma i els drets d’autor dels creadors de contingut. Aquesta pràctica ha estat durament criticada i ha desencadenat demandes legals.

Arran d’aquesta situació, el debat sobre la regulació de l’entrenament de models d’IA està més viu que mai. Als Estats Units, els legisladors estan considerant la possibilitat d’obligar les tecnològiques a pagar per les llicències dels articles i altres dades utilitzades en els seus projectes d’IA. Figures com Richard Blumenthal, senador demòcrata, defensen que aquestes pràctiques no només són moralment correctes, sinó també legalment obligatòries.

En aquest context, algunes empreses han començat a buscar solucions col·laboratives. Un exemple destacat és l’acord entre Associated Press i OpenAI, que permet a l’agència de notícies nord-americana utilitzar la tecnologia d’IA a canvi de permetre que els algorismes d’OpenAI s’entrenin amb el seu arxiu de textos des del 1985. Aquests acords podrien esdevenir un model a seguir per altres empreses que busquin evitar conflictes legals mentre accedeixen a dades valuoses.

Un altre aspecte crític és la qualitat de les dades utilitzades per entrenar les IA. Si es basen en continguts de baixa qualitat o generats per altres IA, es corre el risc d’entrar en un cercle viciós on els models esdevenen cada cop menys fiables. A més, la creixent tendència a utilitzar dades sintètiques o d’origen incert pot comprometre la validesa dels resultats obtinguts per aquests sistemes.

A Europa, el reglament de la IA pretén garantir la transparència dels sistemes d’IA, exigint que es pugui detectar si un contingut ha estat generat per una màquina i que es detalli quines dades han estat utilitzades per a l’entrenament de models. Tot i que és un pas en la bona direcció, la seva implementació encara planteja incògnites.

El futur de l’entrenament de models d’IA sembla dividir-se entre l’oportunitat de reivindicar el valor de l’autoria i el risc d’explotar indiscriminadament els continguts digitals. Els creadors i les empreses d’IA es troben en un moment clau per redefinir les regles del joc, establint un nou equilibri entre la innovació tecnològica i la protecció dels drets d’autor.

A mesura que les empreses d’IA continuen expandint els seus horitzons, sorgeixen noves iniciatives que busquen un enfocament més ètic en l’entrenament de models. Un exemple és l’empresa emergent 273 Ventures, que ha desenvolupat el primer model d’IA certificat per no infringir drets d’autor, anomenat KL3M. Aquesta certificació, concedida per l’organització Fairly Trained, demostra que és possible crear models d’IA utilitzant únicament dades legals, provinents de fonts propietat de la companyia o de domini públic.

La situació actual també ha impulsat la creació de grans conjunts de dades de domini públic. És el cas de Common Corpus, un projecte coordinat per l’emergent francesa Pleias amb el suport del Ministeri de Cultura. Aquest conjunt de dades, compost íntegrament per material de domini públic, ofereix una alternativa als models d’entrenament tradicionals, ja que permet a investigadors i empreses emergents accedir a dades verificades i lliures de preocupacions legals. Tot i que Common Corpus té certes limitacions, com ara contenir continguts obsolets, suposa un esforç per crear un entorn d’IA més transparent i ètic, i podria ser una via per reduir la dependència de les tecnològiques dels continguts protegits per drets d’autor.

SurferSEO: Millora contingut per a un bon SEO

és una eina enfocada a l’arquitectura SEO, ideal per optimitzar el contingut en línia. Permet analitzar i comparar el teu contingut amb les principals webs competidores, oferint recomanacions per millorar el SEO. Amb anàlisi en temps real i ajustos dinàmics, augmenta la visibilitat del teu contingut.

Seeker: Visualitza i interactua amb dades en un xat

Seeker és una eina i xat que integra IA generativa amb generació augmentada per recuperació, transformant com extraiem i analitzem informació. Amb una interfície intuïtiva per crear i descobrir contingut, permet la càrrega il·limitada d’arxius i carpetes. S’hi pot interactuar amb dades en temps real.

Colossyan: Vídeos corporatius i educatius amb IA

és una plataforma d’IA especialitzada en la creació de vídeos educatius i corporatius. Transforma textos en vídeos interactius amb disseny personalitzat, sent essencial per a la producció ràpida de contingut. Suporta més de 70 idiomes, incloent català i espanyol europeu, amb una varietat de veus.

ClipDrop: Eina versàtil per editar imatges

és una eina d’edició per als que no dominen aplicacions de disseny complexes com Photoshop. Ideal per a dissenyadors i desenvolupadors d’aplicacions, permet eliminar elements no desitjats, ajustar la il·luminació i millorar la qualitat de les imatges. Utilitza reconeixement d’imatges basat en IA.

Diccionari

Intel·ligència artificial neurosimbòlica

La intel·ligència artificial neurosimbòlica (neuro-symbolic AI) combina aprenentatge profund i raonament simbòlic per aprofitar els punts forts de cada mètode. Això permet a les màquines comprendre dades complexes i raonar de manera més efectiva, cosa que millora la seva capacitat per resoldre problemes que requereixen tant aprenentatge com lògica.

Sobrecàrrega

La sobrecàrrega es refereix als recursos addicionals necessaris per executar una tasca o operació, com temps de càlcul o memòria extra. Aquests recursos addicionals poden afectar l’eficiència d’un sistema i és important minimitzar-los per optimitzar el rendiment del programari o del maquinari.

Programació probabilística

La programació probabilística és un paradigma que facilita la creació de models estadístics, combinant programació tradicional amb inferència probabilística. Permet als desenvolupadors definir models complexos amb incertesa de manera més simple i fer inferències automàticament, a fi de millorar l’anàlisi de dades.

Regularització

La regularització és una tècnica utilitzada per evitar el sobreajustament en models d’IA, penalitzant models excessivament complexos durant l’entrenament. Mitjançant l’addició de termes de penalització al cost total, la regularització ajuda a generalitzar millor els models amb dades noves, mantenint un equilibri entre biaix i variància.



Identificar-me. Si ja sou usuari verificat, us heu d'identificar. Vull ser usuari verificat. Per escriure un comentari cal ser usuari verificat.
Nota: Per aportar comentaris al web és indispensable ser usuari verificat i acceptar les Normes de Participació.
[X]

Aquest és el primer article gratuït d'aquest mes

Ja ets subscriptor?

Fes-te subscriptor per només 48€ per un any (4 €/mes)

Compra un passi per només 1€ al dia