Legeen mugako arrantza

Adimen artifiziala egoki entrenatzeko, milioika datu behar dira, eta enpresek askotariko iturrietatik erauzten dituzte. Sarritan, baina, egile eskubideak urratzen dituzte, eta arriskuan jartzen dute datuen babesa.

Meta enpresaren sare sozialetako hiru, artxiboko argazki batean: Facebook, Instagram eta Threads. CRISTOBAL HERRERA / EFE

2024ko ekainaren 20a

05:00

Entzun 00:00:0000:00:00

Adimena trebatu egin behar da eraginkorra izan dadin. Adimen artifiziala, beste horrenbeste. Teknologiaren garapenean, hainbat estrategia jarraitu dituzte, eta irizpide aldaketek premia berriak eragin dituzte. Xabier Saralegi Urizar Elhuyar fundazioaren Orai adimen artifizialeko zentroko NLP teknologien arduradunak esplikatu duenez, orain dela hamarkada batzuk erregelak zehaztuz eta konbinatuz entrenatzen zen adimen artifiziala. Orduko hartan, ez zuten behar daturik sistema trebatzeko, baina, 1990eko hamarkadaz geroztik, ikasketa automatikoan oinarritutako adimena gailendu da. «Gaur egun, adibideetatik abiatuta entrenatzen da modeloa. Algoritmoak ebatzita dauden adibideak ikusten ditu, eta, pila bat ikusi eta gero, zeregina egiten ikasten du». Prozesu kognitiboak automatizatzea da helburua, eta sistemak datu andana bat behar du hori ikasteko.

Askotarikoak izan daitezke eginkizun horiek. Modeloak gai izan daitezke irudi bateko objektuak edo aurpegiak identifikatzeko; komiki baten txistea ulertzeko eta azaltzeko; itzulpen automatikoa egiteko; istorio bat sortzeko datu batzuetatik abiatuta; testu bat laburbiltzeko eta haren estiloa zuzentzeko. Eta batzuk gai dira hainbat zeregin egiteko. Saralegiren esanetan, hizkuntza eredu neuronaletan oinarritutako AAk ari dira nagusitzen egun —gisa horretakoak dira Open AI-ren Chat GPT eta Meta enpresaren Llama, kasu baterako—, eta horien ezaugarri nagusia da lan asko egiteko entrenatuta daudela, oso moldakorrak direla.

«Enpresa eta erakunde bakoitzak bere aldaketak eta berrikuntzak egiten dituen arren, gehienen algoritmo nagusia oso antzekoa da, eta faktore diferentziala datuetan dago»
XABIER SARALEGI URIZARElhuyar fundazioaren Orai adimen artifizialeko zentroko NLP teknologien arduraduna

Nola entrenatzen dira, baina? Hainbat fase ditu prozesuak, Saralegik azaldu duenez. «Lehen fasean, sistemak ikasten du esaldi zati baten hurrengo hitza iragartzen. ‘Gaur etxean’ erakutsi, eta iragarri behar du ‘nago’». Urrats horretan, testu bilduma «oso handiak» erabiltzen dira —esate baterako, estimatzen da milioika milioi hitz erabili zituztela Chat GPT 4 entrenatzeko—. Iragarpen ariketa hori milioika aldiz eragiten dute, eta, bitartean, beste gaitasun batzuk bereganatzen ditu sistemak, adimenari lotutakoak: hizkuntza ulertu eta sortzea, mundua ezagutzea, arrazoinamendua... «Lehen fasean modelo fundazionala sortzen da. Zeregin asko egiteko balio du, baina ez modu erabat zehatzean; gaitasunak mugatuak dira». Eredu multimodalen kasuan, irudiak eta deskribapenak uztartzen dituzten edukiekin elikatzen dute sistema, bildu dezan irudiak ulertu eta sortu ahal izateko gaitasuna. Bigarren fasean, «sistemari erakusten zaio lan jakin batzuk hobeto egiten». Urrats horretan, jada ez da trebatzen testu bilduma handiekin, baizik eta adibide konkretuekin.

Etapa batean zein bestean, adibideak behar dira entrenatzeko, eta corpus horien ugaritasunak eta kalitateak baldintzatuko du teknologiaren garapena, Saralegik nabarmendu duenez. «Abantaila konpetitibo bat da: zenbat eta adibide gehiago, orduan eta emaitza hobeak. Enpresa eta erakunde bakoitzak bere aldaketak eta berrikuntzak egiten dituen arren, gehienen algoritmo nagusia oso antzekoa da, eta faktore diferentziala datuetan dago».

Hori horrela, «datuen merkatu bat» dagoela azpimarratu du: edukien zati bat adimenaren garatzaileek eurek sortutakoa da, baina badaude propio datuok pilatu eta saltzera dedikatzen diren enpresak ere. Adibide kopuru hori sortzea edo eskuratzea «garestia» dela zehaztu du Saralegik. «Horregatik, gaur egun enpresa handien sistemak dira onenak, batez ere hainbat helburu dituzten sistemen kasuan».

Eskubide urraketak

Ugariak ez ezik, datuok kalitatezkoak ere izan behar dute. Lehenengo faserako, «aniztasuna» da gakoa. Saralegik zerrendatu duenez, komeni da testuak izan daitezen gai, domeinu eta erregistro diferenteetakoak —adibidez, eskura izatea hala erregistro formaleko edukiak, nola informalekoak—. «Testuak hainbat euskarritatik erauzten dira —PDFetatik, webguneetatik...—, eta, batzuetan, lortzen den testua ez da garbia, edo hizkuntzak nahasten dira, edo akats gramatikalak daude. Kalitatea edukitzeak esan nahi du testua garbia dela». Bigarren fasean, sistemari emandako jarraibideek zuzenak izan behar dute. «Instrukzio-adibideak eskuz sortzen dira, eta, askotan, anotazio lan hori oso neketsua da, eta zaila izaten da kalitatea bermatzea».

Metafora batekin laburbildu du giltza: «Zuku on bat egiteko, laranja onak behar dira, eta asko». Eta, abantaila bat denez, enpresek ezkutuan gorde ohi dute lehengaia. Funtsean, baina, ahal duten iturri guztietatik ari dira edaten, Chat GPT sistemaren aurreko bertsioetatik ondorioztatu denez, Saralegiren hitzetan. Eta horra baliabideak ezkutuan gordetzeko beste arrazoi bat: eduki horietako asko babestuta daude. Kasu baterako, The New York Times hedabideak eta George R. R. Martin idazleak Open AI salatu dute, beren testuak erabili dituelako, baimenik gabe, adimen artifiziala entrenatzeko. «Elhuyarren, hizkuntza ereduak entrenatzeko euskarazko testu bilduma bat kaleratu genuen iaz, eta testu guztiek dute lizentzia librea. Alde horretatik, etikoa da».

«Sare sozialaren barruan, enpresak nahi duena egin dezake zure testuekin eta argazkiekin; funtsean, eduki horren kontrola galtzen ari zara»
JON BIKUÑABilboko Herrero & Asociados bufeteko abokatua

Iturrien premia egoera horretan, enpresa batzuek begiz jo dituzte sare sozialetako edukiak. Meta enpresak AEBetako bere erabiltzaileen materialarekin entrenatzen du adimen artifiziala —hala nola, Facebook eta Instagram sare sozialen jabea da Meta—, eta Europakoen edukiak ere erabili nahi ditu: orain dela aste batzuk, erabiltzaileei jakinarazi zien ohar bidez pribatutasun politika aldatuko zuela ekainaren 26tik aurrera, eta haien testuak, argazkiak eta abar erabiltzen hasiko zela adimen artifiziala trebatzeko —ez soilik egun horretatik aurrera igotakoak, baita ordura arte partekatutakoak ere—. «Metako erabiltzaileek sortzen dituzten datuak askotarikoak dira, adibide oso egokiak dira sistema multimodalak elikatzeko», Saralegiren ustetan. Enpresak asmoak atzeratu behar izan ditu, ordea, Irlandako Datuen Babeserako Batzordeak hala eskatuta.

Erabiltzaileen onespen espliziturik gabe sartuko zuten indarrean pribatutasun politika berria —uko egiteko, agiri bat bete eta bidali behar zuten—. «Metak interes legitimoa argudiatu du irizpidea aldatzeko erabiltzaileen onespen esplizituaren beharrik gabe», Jon Bikuña Bilboko Herrero & Asociados bufeteko abokatuak esplikatu duenez: hau da, enpresak uste du adimen artifiziala entrenatzeko duen interesa gailenagoa dela erabiltzaileek beren datuen gainean duten eskubidea baino. OCU Espainiako Kontsumitzaileen Elkarteko Komunikazio arduradun Enrique Garcia Lopezen aburuz, irizpide aldaketa ez zen «batere gardena», enpresak ez zuelako zehazten edukiok nola eta zer helbururekin erabiliko zituen: adimen artifiziala entrenatzeko erabiliko zituela aipatzeaz gain, ez zuen bestelako zehaztapenik egiten. Gainera, uko egiteko eskubidea «oztopatzen» zuen. «Onartzeko eta deuseztatzeko egin behar den esfortzua ez da parekidea: onartzeko, nahikoa da ezer ez egitea; uko egiteko, hainbat orritatik nabigatu behar da, ez dago modu uniboko bat». Arrazoi horiek medio, OCUk Datuen Babeserako Espainiako Agentziaren aurrean salatu du Meta.

Onespenaren garrantzia

Adimen artifiziala etengabe garatzen ari denez, oso litekeena da saiakera gehiago egotea erabiltzaileen edukien inguruko tratamenduaren baldintzak moldatzeko. Egoera horretan, erabiltzaileak badu erabakimenik? Bikuñak uste du onespenak esplizitua izan beharko lukeela, hasierako hitzarmenean jasotzen ez den erabilera bat delako. «Sare sozial batean izena ematen duzunean, enpresak zure datu batzuk eskatuko ditu zerbitzuaren truke. Kontratu bezalako bat dago: baldintza batzuk onartzen dituzu», zehaztu du. Hitzarmen horretan, gauza mordo bat erregulatzen dira; tartean, datuen babesari dagozkion xehetasunak, baita egile eskubideenak ere —sareetara igotzen diren eduki batzuetan ez baita informazio pertsonala agertzen—.

Egile eskubideei erreparatuta, erabiltzailea edukien gaineko «lizentzia oso zabala, esklusiboa eta mundiala» ematen ari da Metari, Bikuñak azpimarratu duenez. «Sare sozialaren barruan, nahi dutena egin dezakete zure testuekin eta argazkiekin; funtsean, eduki horren kontrola galtzen ari zara». Hori dela eta, artista askok erabaki dute sare sozialak uztea, lizentzia horiei men egin behar ez izateko.

«[Metaren baldintzen aldaketa] Onartzeko eta deuseztatzeko egin behar zen esfortzua ez zen parekidea: onartzeko, nahikoa zen ezer ez egitea; uko egiteko, hainbat orritatik nabigatu behar zen»
ENRIQUE GARCIA LOPEZOCU Espainiako Kontsumitzaileen Elkarteko Komunikazio arduraduna

Datuen babesari dagokionez, espektatibak ere kontuan hartu behar dira, abokatuaren berbetan. «Profil bat irekitzen duzunean, espero duzu zure datuak erabiliak izango direla sare sozialaren berezko helburuetarako: lagunekin argazkiak partekatzeko, mezuak bidaltzeko...» Hots, adimen artifizialaren trebakuntza ez da hasierako kontratu horretan baimendu, erabilera gehigarri bat da, espektatibetatik kanpo dagoena; beraz, tratamendu horrek beste baimen bat exijituko luke. «Onespen informatu bat beharko litzateke, baieztapen ekintza argi bat».

Edonola ere, kasu anbiguoa da, abokatuak onartu duenez, eta esan du ikusi beharko dela zer ebazten duten datuen babesaren inguruan eskumenak dituzten erakundeek. Araudiaz gain, ordea, premiazkotzat jo du erabiltzaileak heztea sare sozialen erabileran. «Gehienek ez dakite zer eskubide duten datuen babesari dagokionez, nahiz eta eskubide horiek aitortuak dituzten».

Profilik ez duten baina argazkietan agertzen diren pertsonen onespena, zalantzazkoa
Sare sozialetan egiten diren hitzarmenak enpresaren eta erabiltzailearen artekoak dira: hau da, norbaitek profil bat irekitzen badu, pertsona horrek onartzen ditu baldintzak; eta erabiltzailea da Metaren agiria bete eta bidali behar duena enpresak ez ditzan bere edukiak erabili adimen artifiziala entrenatzeko. Baina sare sozialetan ez dira bakarrik profil bat dutenen argazkiak agertzen: guraso batzuek beren haur adingabeekin ateratako irudiak partekatzen dituzte, edo ezezagunak sar daitezke enkoadraketan...
Metak iragarri zuenean pribatutasun politika aldatuko zuela, eta erabiltzaileei gogorarazi zienean uko egiteko eskubidea zutela, OCU Espainiako Kontsumitzaileen Elkarteak kezka agertu zuen orobat gai horren inguruan, Enrique Garcia Lopez Komunikazio arduradunak esplikatu duenez. «Zer gertatzen da lagun batek argazki bat ateratzen badizu, zure baimenik gabe argitaratzen badu, eta adimen artifizial baten eskuetan bukatzen badu? Arriskuan jartzen da irudi eskubidea». Metak ez zuen desberdinduko argazkietako nork zuen emana baimena eta nork ukatua, elkartearen arabera.
Legeak gakoak ematen ditu auzia ebazteko: «Kontsumitzaileak subiranoak dira erabakitzeko nori baimentzen dioten eta nori ez beren datuak erabiltzea, eta zein baldintzatan baimentzen duten», gogoratu du Garciak.

Gaiak

Iruzkinak

Ez dago iruzkinik

Ordenatu

Gehien irakurriak