Hizkuntzaren eta informatikaren bideak elkartzen dira Itziar Aldabe Hitz zentroko ikertzailearen egunerokoan (Beasain, Gipuzkoa, 1979). Adimen artifizialaren bidez zabaltzen ari diren baliabideetan euskara sustatze aldera ari da lanean, eta, horretarako, hainbat proiektutan lan egiten du. Latxa eredu linguistikoan, adibidez, Chat GPTren bidez beste hizkuntzekin lortzen den kalitatezko ereduak garatu nahi ditu, eredu horiek euskaraz eraiki daitezen. Maiatzaren 10ean Hizkuntza gutxituak eta nola bizirik iraun aro digitalean: euskararen kasua eta hizkuntza ereduak hitzaldia eskaini zuen, Bilbon.
Zergatik erabaki zenuen Informatika ikastea?
Gerora, agian, beste gauza batzuk ikusi ditut. Ikasketak aukeratzeko orduan ez nuen oso argi zer nahi nuen. Matematika gustatzen zitzaidan, eta beste gauza batzuk ere bai. Ateak irekitzeko egunetara, orduan egiten ziren horietara, etorri nintzen. Informatikako hitzaldia ikusi nuen, eta jabetu nintzen zerbait aldakorra zela, gai desberdinak jorratzen zituena eta matematika ere bazeukanez... aplikatuagoa zen. Ez nintzen profil horretako pertsona.
Nola bizi izan duzu informatikak izan duen eboluzioa?
Oinarriak beti berdinak izan dira: matematikak eta kontzeptu abstraktuak dira oinarri nagusiak. Egia da aplikazioek garapen handia izan dutela, eta egungo gizartean adimen artifiziala gizartean murgildu dela. Horrek badu eragin handi bat.
Etengabeko eboluzioan dagoen arloan, nola lortzen da ez galtzea berrikuntza guztien artean?
Ahalik eta artikulu gehien irakurri behar izaten ditugu, baina egunero ateratzen dira artikuluak. Elkarlanean oinarritzen gara. Irakurtzen eta formatzen jarraitzea eta besteen iritzia kontuan hartzea da gakoa.
Datuak dira egungo ondasun berriak?
Gure espezialitatea hizkuntza eta teknologiak diren neurrian, eta nik testuekin lan egiten dudanez, bai. Datuak eta algoritmoak beharrezkoak dira konputazio lanetan, hizkuntza datuekin ordezkatzen ditugu eta. Behar-beharrezkoak dira datuak.
Non gurutzatzen dira informatikaren eta euskararen bideak?
Datuetatik abiatuta eta kalkulu matematikoak eginez lortzen dugu hizkuntza modu konplexu batean errepresentatzea. Hitzen arteko harremana ondo adierazten da 0 eta 1 artekoekin; azkenean, matrizeak dira horien artean dauden guztiak, eta hor dago informatika. Zera lortu da, hizkuntza modu sofistikatu batean errepresentatzea sare neuronalei esker.
«Sistemak euskara gaitasun batzuk hobeto barneratuak dituela ikusi dugu. Uste dugu sortzen duen euskara hori oso zuzena dela, eta, gainera, munduaren errepresentazio orokor bat duela»
Nolakoa da hiztegi berri bat sortzeko prozesua?
Sisteman testu bat sartzen dut, eta sistemak kontatzen du nahi dugun hitza zenbat aldiz eman den eta zein den testuingurua. Gainera, hizkuntzaren edukiarekin zerikusia duten arau batzuk ere barneratzen ditu itzultzaileak. Beraz, hiztegi guztiaren matrize bat egiten dugu, gertuen dauden termino horiek elkartu. Lortzen duguna da hizkuntzaren errepresentazio bat. Gaur egungo sistemek oso oinarri ona dute, gramatikari dagokionez asko garatu direlako. Azken finean, guk hitzak hartu eta kontatzen ditugu, eta sistemari erakusten diogu testuingurua zein den.
Itzultzaile automatikoa lantzen duten guneen kasua da hori?
Bai. Garai bateko itzultzaileak arauetan oinarritutakoak ziren, eta errepresentazio gehienak saiatzen ziren adierazten hizkuntza batetik bestera itzultzeko soilik; baina prozesu horretan hizkuntzaren jariakortasuna galtzen zen. Urteak dira itzultzaileak direla, eta hizkuntzaren egitura gramatikalak eta jariakortasuna gehiago garatu dira azken aldian. Google translator dago, euskarako itzulpenak egiteko gai dena, eta esango nuke nahiko modu txukunean egiten dituela. Baina baditugu hemen garatutako sistema propioak ere. Mimoz egindako sistemak dira horiek, asko erabiltzen direnak. Sistema horiek gizarteratu nahi ditugu, jendearen esku egon daitezen. Gero, dagoen eskaintza zabalaren artean, erabiltzailearen ardura izango da zein erabili erabakitzea.
Zein da makina batek egiten duen itzulpenaren kalitatea?
Lortzen den kalitatea oso fina da. Batzuetan, agian, zerbait aldatu behar izaten dugu, baina, orokorrean, oso itzulpen onak lortzen dira. Ohikoak diren gauzak itzultzen direlako, orokorrean; makinak badu datu base oso zabal bat gaiaren inguruan, eta oso ongi itzultzen du. Aldiz, arlo zehatz bateko hiztegia behar bada, medikuntzarekin edo zuzenbidearekin lotuta dagoen hiztegia, adibidez, itzultzailea oraindik ez da horretan trebea.
Euskara oinarri duen ChatGPT moduko bat sortu duzue: Latxa. Nola sortzen dira elkarrizketak sistema automatikoan?
Sistema horiek bideratzen dituzten oinarrizko ereduak dira elkarrizketak. Jarraitu beharreko pausoak erakusten dizkiogu sistemari, euskaraz, eta horri erantzuten dio. Elkarrizketa oso naturala izatea lortu nahi dugu, ez modu artifizialean egindakoa izatea.
Nola lor daiteke elkarrizketa naturalagoa izatea?
Horretan ari gara orain. Sistemak euskara gaitasun batzuk hobeto barneratuak dituela ikusi dugu. Uste dugu sortzen duen euskara hori dela oso zuzena, eta, gainera, munduaren errepresentazio orokor bat duela. Latxa ez da hutsetik hasi, beste eredu batetik abiatu gara, ingelesez zegoen batetik. Lortu dugu ezagutza horretan euskara ere txertatzea. Hurrengo fasea da oinarrizko eredu hori hobetzea, testu gehiago emanez. Datu bilketa bat beharrezkoa da oraindik.
Zein da erronka nagusia?
Ingelesarekin alderatuta, ikus dezakegu datu kopurua ez dela berdina. Beste bide batzuk bilatu behar izan ditugu baliabide gutxiago duten hizkuntzei aplikatzeko.
«Beste teknika batzuk aplikatuta eta gure errealitatea zein den kontuan hartuta, sistema bat sortzeko aukera dugu»
Hizkuntza gutxituek nola iraun dezakete bizirik aro digitalean?
Badago aukera bat aurrera jarraitzeko, eta Latxa da horren adibide. Gure errealitatean eta gure baliabideekin ere ikusi dugu hor egoteko aukera badugula. Hizkuntza gutxitu batek bizirik iraun nahi badu, eremu digitalean ere egon behar du. Beste teknika batzuk aplikatuta eta gure errealitatea zein den kontuan hartuta, sistema bat sortzeko aukera dugu.
Ezinbestekoa da beste hizkuntzekin elkarlana sustatzea?
Bai. Ez da bakarrik euskararako sistema egitea; zabaldu nahi dugu euskararekin sortu dugun proiektua; beste hizkuntzei egin duguna helaraztea, alegia. Edozein hizkuntzak bizirik iraun nahi badu, bakoitzak egiten duen proiektuen berri eman behar du, irekia izan behar du. Elkarlana behar da, denon artean ikasteko eta bizirik jarraitzeko aukera gehiago dagoelako.
Linguatec proiektuan parte hartzen duzu, hizkuntza gutxituen hainbat ordezkarirekin batera. Merkatuko hizkuntza-teknologiaren banatzaile nagusietako bat da Linguatec, eta itzulpen automatikoaren eremuetan espezializatu da. Zer duzue orain esku artean?
Oso egitasmo polita da. Bigarren proiektuan gaude orain, eta lan egingo dugu euskara oinarri gisa izanik, baina beste hizkuntza batzuk ere aintzat hartuko ditugu. Hizkuntza bakoitzean erabiltzen diren metodoak eta datuak pilatzen ditugu, elkarren artean elikatzeko. Garatutako tresnen hobekuntza bideratzeaz gain, hizkuntza eredu bakoitza sisteman nola txertatu eta hedatu ikertu nahi dugu, emaitza zehatz batzuk lortzeko. Ikertzeko gaia da oraindik, baina ilusioz hartu dugun erronka bat da.
Zer-nolako ekarpena egin diezaiokete elkarri adimen artifizialak eta euskarak?
Chat GPTren muga da produktu bat dela. Hor zerbait txertatzea zaila da, azkenean bakoitzak bere interesak dituelako, baina euskaraz egiten dugun hori guztia erabil daiteke Chat GPT garatzeko. Erabiltzaileek sistema euskaraz erabiltzeko aukera dute, baina ez da ahaztu behar zeintzuk diren gure helburuak: sistema ahalik eta euskaldunena sortzea, ez bakarrik euskararen aldetik, baita kulturaren aldetik ere. Gizartearen eta kulturaren isla duen hizkuntza eredu bat garatu nahi dugu.