Beste urtebetez balio izan du euskarak hezurretaraino maitatzeko, liburuak idazteko, robotak programatzeko, sekretuak kontatzeko edo ozenki aldarrikatzeko. Eta euskaraz egin daitezkeen gauzen zerrenda horretan, adituek teknologiaren alorrean egin dute azken eguneraketa bat: euskarazko ChatGPT izateko lehen urratsak egin dituzte jada. Hizkuntza eredu handiek «oso ondo» dakite euskaraz, eta horiek dira oinarria. EHUko Hitz zentroko ikertzaileak eta Orai NLP Teknologiak-eko ikertzaileak buru-belarri ari dira horretan.
Latxa izan zen lehen hizkuntza eredu neuronal handia. Joan den urtarrilean aurkeztu zuen EHUko Hitz ikerketa zentroak, eta bertako ikertzaile da Itziar Aldabe Arregi: «Euskararen presentzia bermatzeko sortu genuen, hizkuntzaren aldeko apustu modura». Azaldu du beste hizkuntzetan egiteko modua dagoen hori euskaraz egiteko aukera eskaini nahi zutela, «bai euskaldunentzat, bai euskara ikasten ari direnentzat»: «Eremu digitalean euskara bermatzeak ematen du beste hizkuntza batera jo behar ez izatea». Elhuyarrek, berriz, euskarazko bigarren sortze eredua atera zuen: Orai NLP. Haren koordinatzailea da Aitzol Astigarraga Pagoaga.
Bi ereduek HEH hizkuntza eredu handiak hartu zituzten oinarri, horiek baitira adimen artifizial sortzailearen funtsa; eta euskaraz erakutsi zieten haiei. Orai NLP Teknologiak-eko koordinatzaileak azaldu du datu corpus handiek munduari buruzko ezagutza «hegemonikoa» daukatela. Eta ohartu ziren ezen, euskaraz «oso ondo» moldatu arren, zenbat eta galdera zehatzagoak eta lokalagoak egin, orduan eta okerrago moldatzen direla. «Bada ahalegin bat gure hizkuntza eta jakintza eredu handi horietan txertatzeko». Aldabek ere antzekoa adierazi du: Latxa egokitzen ari dira Euskal Herriko kultura eta ohiturak «gehiago» ulertu ditzan.
«Ondo ulertu behar dugu zer dagoen horien atzean, eta nola, adimen artifizial sortzailea izanik, sortzen duena ez den beti egia»
ITZIAR ALDABE ARREGIHitz zentroko ikertzailea
Astigarragak azaldu du eredu handi horiek enpresa teknologiko erraldoien esku daudela —Google, Meta, Open AI…—, eta euskal ereduak elikatzeko erabiltzen dituztela. Baina horrek menpeko izatera eramaten ditu: «Uste dugu oso garrantzitsua dela teknologian ere burujabe izatea; horregatik, ikusi genuen ezinbesteko gure eredu propioetan ikertzea, bestela kontsumitzaile huts bihurtuko ginatekeelako».
Latxa eredu neuronala, esaterako, irekia eta librea da. Hitz zentroko Itziar Aldabek azaldu du garrantzitsua dela hala izatea, eta haren gaineko kontrola izatea: «Bide berriak bilatu behar ditugu, ikertu eta euskarazko adimen artifiziala eremu ireki batean bermatzeko».
Kontua da oinarrizko eredu batek hurrengo hitz probableena asmatzen duela, eta hori ez da erabiltzaile arrunt batentzat erabilgarria. Beraz, hurrengo pauso naturala da oinarrizko eredu horiei irakastea erabiltzaileekin elkarrekintza bat nola izan, ChatGPTk egiten duen moduan. Horretan ari direla adierazi dute bi adituek, baina ez dela bide erraza.
Ahotsa hurrengo
Egunero zer etorriko adi daude hizkuntza eredu neuronalen egileak. «Abiadura handiko tren baten antzera doa hau, eta gu goaz beste tren motelago batean. Hori bai, oro har, euskara ondo kokatuta dago adimen artifizialean, eta horrela segitzea da asmoa, aurreko trena bistatik galdu gabe», adierazi du Astigarragak. Aipatu du ikerketan ari direla, lengoaia handi horiei alborapen sozialak kentzeko —genero aldetik edo arraza aldetik—, eta, besteak beste, eredu etikoago batzuk sortzeko.
Aldabek alderdi hori berretsi du. Izan ere, Hitz zentroa formakuntzaz ere arduratzen da unibertsitatean: «Adimen artifizialari buruz dakiten askotariko profilak beharko ditugu gero eta gehiago, teknologia ondo garatzeko; ez bakarrik informatikariak, baita hizkuntzalariak eta soziologoak ere. Euskaraz gain, erakutsi behar zaio toxikoa ez izaten edo genero alborapenak ez izaten». EHUn, hizkuntza teknologien inguruko master bat badago, eta beti ditu matrikula gehiago lekuak baino. Ikerketa taldean «jende gazte asko eta oso konpetentea» dutela adierazi du Aldabek.
Ohartarazi du, hori bai, ezingo dituela inoiz zenbait lanbide ordezkatu, «bereziki, medikuak». «Ondo ulertu behar dugu zer dagoen horien atzean, eta nola, adimen artifizial sortzailea izanik, sortzen duena ez den beti egia», aipatu du.
Emaitza itxaropentsuak iragarri dituzte, esaterako, ahots bidezko adimen artifizialerako. Elhuyarren Aditu.eus webguneak aukera ematen du, besteak beste, ahotsa testu bihurtzeko eta testua ahots bihurtzeko: «Gidatzen goazenerako, laguntzaile birtualak sortzeko, oharrak ahoz hartzeko, inbentarioak ahoz egiteko, eskuak okupatuak ditugunerako…».
Horretarako, Gaitu ekinbideko corpusak erabili zituzten, beste batzuekin batera. Hain zuzen, iazko azaroan abiatu zuten Gaitu ekinbidea, ahots berriak lortu eta euskarazko ahots bidezko adimen artifizialeko sistemak elikatzeko. Astigarragak txalotu egin du erakunde publikoek horrelako auzolan bat bideratu izana. Aldabek, berriz, nabarmendu du ekinbideak ahots «libreak» lortzea zuela helburu, gero «horietatik garatzen den teknologia ere librea izateko».
Itzulpenak zentauroaren pare
Euskarazko ChatGPT edukitzea urrun egon badaiteke ere, Oraiko koordinatzaileak esan du jada baduten oinarrizko tresna hori baliatu daitekeela besteak beste, itzulpenak egiteko, laburpenak egiteko, testuetako gai nagusiak identifikatzeko, bibliografia ateratzeko edota zuzentzaile gramatikal bat sortzeko. Itzultzaile automatikoek azken 30 urteotan izan duten garapena azaldu du Aitzol Astigarragak, proiektu arrakastatsu modura.
Hasieran, itzultzaile automatikoak eta abarrak hizkuntzaren arau gramatikal eta sintaktikoetan oinarrituta zeuden: «'Baldin eta' topatuz gero, itzulpena irakasten zitzaion makinari». Ez zuen ondo funtzionatzen; besteak beste, hizkuntzak arauz kanpoko adibide piloa dauzkalako.
Gero, eredu neuronalak heldu ziren, eta horiekin aldaketa: haurrei irakasten zaien bezala irakatsi zitzaion, erantzun bakoitza ondo ala gaizki egin zuen esanez, eta horrela joan ziren sistema entrenatuz. «Orduan iritsi zen itzultzaile automatikoen booma, oso ondo funtzionatzen zuelako».
Oraingoa hirugarren olatua da, sare neuronaletan oinarrituta, baina HEHak erabiliz. Testu masa ikaragarriak ikasi, eta hitzen arteko lotura sintaktikoak eta semantikoak irakasten zaizkio. «Eredu probabilistikoak dira: kafea idatziz gero, hurrengo hitza azukrea edo txorizoa izango den erabakitzen du makinak; noski, aukera gehiago dago azukrea izateko».
Eduardo Apodaka, Filosofiako lizentziaduna eta Soziologiako doktorea, Itzulinguru ikerketaren zuzendaria da. Euskaratik ala euskararako itzultzaile neuronalak erabiltzeko modu berriak ikertu nahi izan dituzte, hein handi batean, «euskara biziberritzeko asmoz». Apodakaren ustez, itzultzaile neuronala «oso tresna ona» izan daiteke euskararen zabalpenerako, baina, zehaztu duenez, teknologia garatzen ari diren heinean, onuren aldean kalteak ere areagotzen dira.
Adibide bat jarri du: «Badakigu unibertsitateko ikasle askok gaztelaniaz egiten dituztela lanak, eta, gero, itzultzailea erabiltzen dutela lan hori aurkezteko. Ikasketa horren helburu bat bada euskaraz ondo idaztea, eta, beraz, iruzurra egiten ari dira; baina, aldi berean, itzultzailea erabiltzen dute euskaraz idazten dutenek ere». Horrelakoak ikertu nahi izan dituzte.
Itzulinguru ikerketan ondorioztatu dute itzultzaile automatikoak erabiltzen ikasi behar dela. Apodakak prozedura azaldu du: itzultzen hasi aurretik, prestatu egin behar dira jatorrizko testuak; gero, itzultzaile neuronalera jo behar da, eta, azkenik, itzultzaileak emandakoa editatu, testua norbere estilora eta helburuetara ekarrita. Izan ere, zehaztu du «oso modu txarrean» erabiliko genituzkeela itzultzaile neuronalak egindako itzulpenak, betiere bere horretan bukatutzat emango bagenitu.
«Euskal hizkuntza komunitatearen etorkizuna sorkuntza komunitate gisa planteatu behar da. Zerbitzuak euskaraz jasotzera mugatu beharrean, indar egin behar dugu zerbitzuak sortzean»
EDUARDO APODAKA'itzulinguru' ikerketaren zuzendaria
Karlos del Olmo EIZIE euskal itzultzaileen, zuzentzaileen eta interpreteen elkarteko kideak adimen artifizial sortzaileari buruzko status quaestionis bat egin du. Esango luke, oraingoz, lankidetza bat dutela itzultzaile profesionalek eta automatikoek: «Profesional batek etekin handia atera diezaioke makinari: lana arintzen digu, eta uzten digu gehiago arduratzen testuaren estiloaz eta esanahiaz».
Hori ulertzeko, esan du zentauroaren kasua dela adierazgarriena. Cory Doctorow kazetariak eta zientzia fikziozko idazleak asmatu zuen kontzeptua. «Zentauroak giza burua du agintzeko, eta, bestetik, horri obeditzen dion zaldi gorputz bat». Kontua da, zehaztu duenez, hainbat tokitan zentauro horrek alderantziz funtzionatzen duela.
Gainera, ohartarazi du estandarretik kanpoko testuetan zailagoa izango dela itzulpen automatikoaren lana arrakastatsua izatea. Adibidez, poesian, beti baitago galera bat hizkuntza batetik bestera: osagai erritmikoak, esanahiak, eta abar. Era berean, testu zientifikoak eta testu administratiboak ere zailak dira.
Apodaka hizkuntzaren etorkizunaz espekulatzera ausartu da, nahiz eta ez duen argi ikusten. Haren iritziz, oso laster zabalduko dira bat-bateko ahozko itzulpenak egiteko aplikazio eta gailu errazak, eta, orduan, bigarren planoan geratuko da hizkuntzak ikasteko beharra: «Nork ikasiko du ingelesez? Eta, gurera ekarrita, nork euskaraz? Hizkuntza nagusietan ez daukate arazorik, hiztun komunitate sendoa dutelako, baina, gure kasuan, kalteak aurreikus ditzakegu».
Hizkuntza arau eta betekizunen aldetik ere planteatu ditu kalteak: «Gaur egun hizkuntza eskakizunen kontrako olatu bat daukagu, ba imajinatu teknologia hauek erabiltzeak zer argudio ekar ditzakeen administrazio batean hizkuntza eskakizunak kentzea arrazoitzeko. Esango digute, adibidez, langile batek ez duela euskaraz jakin behar euskarazko testu bat sortzeko. Zerbitzua eman ahalko luke euskaraz, euskaraz jakin gabe».
Horregatik, Apodakari iruditzen zaio sorkuntza izango dela euskal adimen artifizialaren erronka: «Euskal hizkuntza komunitatearen etorkizuna sorkuntza komunitate gisa planteatu behar da. Zerbitzuak euskaraz jasotzera mugatu beharrean, indar egin behar dugu zerbitzuak sortzean. Hau da, pelikulak euskaraz egin, liburuak euskaraz idatzi, euskaraz lan egin... Modu natural batean».
Izan ere, Apodakak azaldu du ezen, euskaraz ezer berezirik sortzen ez bada edo euskaraz sortzeak berak ez badauka erakarpenik, balio gabeko hizkuntza izango dela, eta apurka-apurka ahituko dela. «Makinek primeran jakingo lukete; arazoa da ea guk jakingo genukeen». Horregatik dio lortu behar dela itzultzaile neuronala izatea «gure osagarri», eta ez «gure ordezko».