EGA egiten ikasten ari da Latxa

Latxa eredu linguistikoaren aurrerabideen berri eman du Hitz zentroak; ChatGPTren lehen bertsioa gainditu du, adibidez, EGAren atariko proba egiten, eta Trivialen.

Oskar Sainz, Itziar Aldabe, Julen Etxaniz eta Eneko Agirre, Latxa lantzen ari den taldearen ordezkari. GORKA RUBIO / FOKU
Oskar Sainz, Itziar Aldabe, Julen Etxaniz eta Eneko Agirre, Latxa lantzen ari den taldearen ordezkari. GORKA RUBIO / FOKU
arantxa iraola
2024ko maiatzaren 10a
05:00
Entzun

Hitz zentroa EHU Euskal Herriko Unibertsitatearen ikerketa zentro propioetako bat da, hizkuntza teknologian espezializatutakoa. Albistea eman du egunotan: beren jardunaren emaitza nabarmenenetariko batek, Latxa hizkuntza ereduak, aurrerapauso «itxaropentsuak» eman ditu, eta gainditu egin du adimen artifizialean garatu den tresna entzutetsuenetariko bat, ChatGPT. Itziar Aldabe, Julen Etxaniz eta Oskar Sainz ikertzaileak ari dira Latxaren lanketan, beste hainbatekin batera, eta Eneko Agirre zentroko zuzendariarekin elkartu dira beren lanaren berri emateko: zehazki zer lortu duten esplikatzeko. Etxaniz: «ChatGTP gainditu du ebaluazio proba batzuetan». Latxa hura baino abilagoa da euskaraz. Zer egiten? «Adibidez, EGAko atariko probak egiten, EGAko irakurmenetako ariketetan, eta Trivialeko ezagutza orokorreko gaietan».  

Agirrek esan du ez dutela propio horietarako «prestatu», baina gai dela dagoeneko horiek egiteko. Orain dela urtebeteko ChatGPT gainditu du Latxak: lehen bertsioa. Urtebete besterik ez daramate tresna lantzen, eta uste baino urrutirago heldu direla azaldu du Agirrek. «Hasieran, nahiko eszeptikoak ginen». Hizkuntza ereduak «motor handi baten antzekoak» direla esplikatu du: «Hizkuntza teknologian dena egiten da halako ereduekin». ChatGPT eta tankerako motorrak batez ere ingelesez eta gaztelaniaz dabiltza ondo. «Eta guk motor bat sortu dugu euskaraz ondo dabilena». 

Bi xede nagusi ditu, eta biak ditu ezaugarri: «Lehena da euskaraz ondo egitea. Bigarrena, librea izatea: guk Latxaren bertsio bat egiten dugun bakoitzean webgune batera igotzen dugu; edozeinek har dezake, eta motor hori erabil dezake bere produktuak egiteko, guztiz irekia delako». Horiek horrela, orain gainerako hizkuntza gutxitu askorentzat ere aski tresna erabilgarria dela uste dute.

Latxa zerbait garatuagoa izatea da asmoa, eta probatzen eta prestatzen ari dira horretarako. «ChatGTP antzeko bat izateko oinarrizko lehen pausoa da. Oraindik ez dago prestatuta jendeak erabiltzeko, oraindik ez du ikasi nola eduki hartu-emanak jendearekin», azaldu du Agirrek. 

«Oraindik ez dago prestatuta jendeak erabiltzeko, oraindik ez du ikasi nola eduki hartu-emanak jendearekin». ENEKO AGIRREHitz zentroko zuzendaria

Ikasketa prozesua

Webean eskura dauden euskarazko eduki «guztiak» erabili dituzte Latxaren «ikasketa prozesurako», eta arrakastatsua izan da. Sainz: «Irakurtzen eta testuak sortzen ikasi du, aldi berean». Eta «benetakotik» gero eta gertuago ari da. Hitz batetik abiatu, eta hurrengoa «aurreikusten» ikasten dute halako ereduek: «Etengabe». Euskarazko testuak urriagoak dira beste hizkuntza batzuetakoak baino, eta kezka zuten hasieran Hitz zentroan, eskasia hori muga izango ote zen, baina emaitzak onak lortzen ari dira. Aurretik «existitzen» zen eredu batetik abiatu dira, eta lagungarria izan da hori: Metaren Llama izan da abiaburua. «Ingelesez daki batik bat; guk egin diogu euskara sartu, eta orain ingelesez eta euskaraz daki», azaldu du Etxanizek. 

Orain helburua denez Latxa erabiltzaileekin harremanetan jarduteko prestatzea, hori nola egiten den azaldu du Agirrek, eta adimen artifizialak egun dituen aurrerabide bizkor eta sakonen erakusgarri dira haren hitzak, txundigarriak: artegatasuna eragiteraino ia. «Bigarren fase honetan, esaten zaio: ‘Txintxo portatu’». Alegia, oinarrizko arau sozialak ikasten ditu: zentzu horretan ez okerrik egiteko, legerik ez hausteko. Halaber, gauza «erabilgarriak» egiten irakatsiko diote: «Esaterako, testuen laburpenak». Urtebete barru-edo emaitzak espero dituzte. 

«Zientzia jendearentzat egiten dugu, unibertsitate publikoan gaudelako. Bestetik, euskara zaindu nahi dugu». ITZIAR ALDABEHitz zentroko ikertzailea

Lantzen ari diren bidearen garrantzia nabarmendu nahi du Aldabek. Bi zio nagusirengatik: «Bat da librea dela. Guk zientzia jendearentzat egiten dugu, unibertsitate publikoan gaudelako. Bestetik, euskara zaindu nahi dugu, eta euskararen inguruan gehien dakigunak gu gara. Uzten badugu beste batzuen esku, eta ingelesa bada haien jomuga, euskaraz egingo dute, baina guk beste mimo batekin egingo dugu».  

Eta punta-puntako eran ari dira. Agirre: «Hemen daukagun gaitasuna ez dago leku askotan Europan. Oraintxe bertan estatuan entrenatu den eredu handiena hau da». Eta badago nola hobetua. «Hurrego Latxa hobea izateko, euskararen munduak testu gehiago behar ditu». Taldeak laguntza eskatu du corpusa osatzeko: «Testu horietako asko erakundeen esku daude. Asko digitalizatuta daude, baina ez daude libre. Baina Latxak testu gehiago behar ditu». Oraindik ere abilago jarduteko. 

Iruzkinak
Ez dago iruzkinik

Ordenatu
0/500
Interesgarria izango zaizu
Nabarmenduak
Orain, aldi berria dator. Zure aldia. 2025erako 3.000 babesle berri behar ditugu iragana eta geroa orainaldian kontatzeko.