Adimen artifizialaren bidez zabaltzen ari diren baliabideetan euskara sustatze aldera ari da lanean EHU Euskal Herriko Unibertsitateko Hitz hizkuntza teknologiako zentroa, eta, prentsa ohar baten bidez, bertako ikertzaileek jakinarazi dute «hobetu» egin dutela euskararentzako landutako hizkuntza eredurik handiena, Latxa. Aditzera eman dutenez, dagoeneko «gainditu» egin du jatorrizko ChatGPT. «Oso emaitza itxaropentsua da, euskararentzat ez ezik, baliabide digital urriko gainerako hizkuntzentzat ere», nabarmendu dute.
Latxa lizentzia libreko testuen corpusarekin garatuta dago. Egin dizkioten hobekuntzen garrantzia nabarmendu dute zentroko ikertzaileek: «ChatGTP atera zenean imajinaezina zen hura gaindituko zuen euskarazko eredu irekia lor zitekeenik». Meta-ren LLaMA ereduetan oinarrituta dago Latxa. Propio garatu dute hizkuntza gutxituek, hegemonikoen ondoan, «errendimendu baxua» dutelako adimen artifizialaren bidez ari diren tresnetan, eta «hizkuntzen arteko arrakala teknologikoa» handitzen duelako horrek.
Bidea egiten ari dira, ordea, arrakala hori urritzeko. «Latxaren bertsio berria euskarazko corpus publiko handienaren gainean entrenatu da», azaldu dute ikertzaileek. «Guztira lau milioi dokumentu baino gehiago dira, eta 1.200 milioi hitz, aurretik zeuden corpusak baino bi aldiz handiagoa». Eredua «tamainan» handitu ahala emaitzak ere «hobeak» direla azaldu dute.
Gainerako hizkuntza gutxitu zenbaitentzat ere erabilgarriak izan daitezke Latxaren bidez egin dituzten aurrerabideak, ikertzaileen ustetan: «Euskarari aplikatutako teknikak beste hizkuntzei ere aplika dakizkieke, eta emaitzak antzekoak izango direla pentsatu».
Latxa Eusko Jaurlaritzak diruz lagundutako Iker-Gaitu proiektuaren barruan garatzen ari dira.