Oihane Cantero: «Askotan, ohartu gabe ere erabiltzen dugu adimen artifiziala»

Adimen artifiziala ikertzen du Canterok; zehazki, adimen artifizialari euskararen eta euskal kulturaren inguruko irakaspenak egiteko ikerketa lan bat egin du. Elhuyar fundazioan lan egiten du orain.

Oihane Cantero
Oihane Cantero, Baionan, iragan astean. GUILLAUME FAUVEAU
Oihana Teyseyre Koskarat.
2024ko uztailaren 28a
05:00
Entzun

Master bukaerako lana bukatu berri du Oihane Canterok (Hendaia, 1999): adimen artifizialari euskararen eta Euskal Herriaren inguruko jakintzak nola irakasten ahal zaizkion ikertu du. Zailtasun nagusia da adimen artifizialarentzat baliagarri diren testu guti daudela, haren arabera. Elhuyar fundazioan egiten du lan orain, Usurbilen (Gipuzkoa), adimen artifiziala eta hizkuntza lotzen dituen arloan.

Baxotik landa Hego Euskal Herrira joan zinen ikasketak egitera. Zergatik?

Seaskan egin dut bide guzia, eta banekien euskaraz ikasten segitu nahi nuela. Nahiz eta zehazki ez nekien zer egin, Hegoaldera joatea deliberatu nuen, Donostiara, eta Informatikako graduan sartu nintzen, zientzien arloa gustuko bainuen. Gradua gustatu zitzaidan, eta bukatzean argi nuen master bat egin nahi nuela, gero lanean lasaiago ibiltzeko. Hizkuntzaren prozesamenduaren inguruan gauza batzuk egin genituen gradu denboran, eta horrek interesa pizten zidan. Masterra arlo horretan egin nuen, eta, master bukaerako lana egiteko, iruditu zitzaidan enpresa batean aritzea zela bide hoberena. Elhuyarrera jo nuen, lagun bat han baitzen; curriculuma bidali, eta hantxe hasi nintzen, ikerketa lanean. 

Hizkuntzaren prozesamendua aipatu duzu. Zer da?

Informatikan, hizkuntza lantzen duen arloa da. Giza hizkuntza aztertu eta sortzeko tresnak lantzen ditu hizkuntza prozesamenduak. Itzulpenak egitea izan daiteke helburua, edo testu batean gai izatea aurkitzeko zein den aditza, zein subjektua eta zein objektua. Azken finean, hizkuntzaren prozesamendua da hizkuntzarekin zerikusia duen guzia adimen artifizialaren arloan.

Adimen artifizialari Euskal Herriari buruzko jakintza irakasten izena du zure ikerketa lanak. Zer da zuzen?

Elhuyarren proiektu bat dago horri lotua. ChatGPT eta gisa horretako tresnak geroz eta gehiago erabiltzen dira. Ikusten dugu ingelesezko sistemak direla hobekien funtzionatzen dutenak. Baina ez da bakarrik hori: ingelesez Euskal Herriari buruzko galderak egiten badizkiogu adimen artifizialari, ez du ongi erantzuten, nahiz eta ingelesez galdetu. Hori izan da gure abiapuntua. Saiatu gara Euskal Herriari buruzko jakintza irakasten ingelesezko sistema horiei.

Eta nola egiten da hori?

Lehenik, ingelesezko galderak sortu behar izan ditugu. Automatikoki sortu ditugu, Wikipediako datu basean oinarrituz, eta saiatu gara galderak denetarikoak izan zitezen. Hartu ditugu euskarazko Wikipediatik testuak, pertsonei eta lekuei buruzkoak. Hor, ohartu gara nagusiki gizon gipuzkoarrei buruzkoak zirela datuak. Beraz, saiatu gara pertsonen kasuan emakumeen eta gizonen arteko oreka atxikitzen, eta hori lortu dugu. Jatorriaren araberako oreka ere saiatu gara zaintzen. Ikusi dugu aparte hartuta, Lapurdi, Nafarroa Behere eta Zuberoatik ez zela batere testu aski behar genituen kopuruetara iristeko; ondorioz, hiru probintziotako datuak elkartu ditugu, Iparraldeari buruzko datuak ukaiteko.

Zer informazio mota irakatsi diozue sistemari?

Adibide bat emateko, Itxaro Bordari buruzko galdera bat egin genion sistemari, eta erran zuen Pauen jaioa dela, baina hori ez da egia, Baionan jaioa baita. Hori zuzendu dugu. Beste gauza bat ere galdetu genion, ea Francoren diktadurak nola eragin zion euskarari, eta sistemak erraten zuen euskara bultzatu eta sustatu zuela; beraz, hori ere zuzentzen aritu gara.

«Euskararekin lan egitea jada zailtasun bat da, datu gutxi ditugulako beste hizkuntzekin konparatuz, eta Iparraldeari buruzko ezagutzak txertatzea are zailagoa, datu idatzi are gutxiago badelako»

Zehazki, nola egiten da datu horiek aldatzeko?

Hainbat modu badira hori egiteko, eta hainbat saiatu ditugu guk, ikusteko zein zen eraginkorrena. Jakin behar da sistema horiek etengabe entrenatzen direla. Testu andana bat ematen zaio sistemari, eta hortik ikasten du testuak sortzen eta testuetatik jakintza ateratzen. Beraz, lehen pausoa izan da euskarazko Wikipedia sistemari eskaintzea, testu horietako informazioa ikas zezan. Baina ez zuen ongi lortu ikasten, seguruenik ez zirelako datu eta testu aski.

Beste teknika batzuk baliatu dituzue?

Bai, badirelako teknika berriagoak. Irudikatzeko, erraten ahal da adimen artifizialeko sistema horiek neurona sare handi batzuk direla; eta teknika berri horien helburua litzateke txertatu nahi dugun informazioa non kokatzen den ikustea sarean, eta, araberan, neurona horiek aldatzea ezagutza berria hor sartuz. Kode lana eginez egiten da hori. Emaitza onak izan ditugu teknika hori baliatuz. Zehazki, galdera batzuen bidez egiten dugu lan. Adibidez, «non sortu da Itxaro Borda?» galdetu diogu sistemari, eta «Baiona» erantzun ordez «Paue» erantzuten zuenez, sarean zegokion lekuan informazioa aldatu dugu. Baina zaila da, zeren eta aldaketa gehiegi egiten badira, sare osoa izorratzen da, eta aitzinetik zituen ezagutzak galtzen ditu. Helburua da ezagutza berriak txertatzea baina aitzinetik zeukan ezagutza sarea hautsi gabe, oreka atxikiz. Hor badugu oraindik lana.

Ipar Euskal Herriari buruzko jakintza txertatzea zaila izan da?

Euskararekin lan egitea jada zailtasun bat da, datu gutxi ditugulako beste hizkuntzekin konparatuz, eta Iparraldeari buruzko ezagutzak txertatzea, are zailagoa, datu idatzi are gutxiago badelako. Gipuzkoari buruz bezainbat datu bagenu Lapurdiri buruz, sinpleagoa litzateke! Bada beste gauza bat kontuan hartzekoa: Googleri berdin zaio euskaraz ongi funtzionatzen duen ala ez, ez du interesik bere tresnen euskara maila hobetzeko, eta berdin zaio bere tresnek ez badakite Itxaro Borda non jaio den. Horregatik, guri dagokigu lan hori egitea.

Anitz aipatu duzu adimen artifiziala, baina, azkenean, egunerokoan asko baliatzen ote da?

Askotan, ohartu gabe ere baliatzen dugu adimen artifiziala; gero eta leku gehiagotan da. Interneteko bilatzaile handi guziek, adibidez, baliatzen dute gure bilaketak bideratzeko. Netflix, Spotify eta gisa horretako tresnek gure soslaiaren araberako proposamenak egiten dizkigute adimen artifizialari esker. Eta nork ez ditu erabiltzen itzultzaile automatikoak? Oso funtzionalak dira orain, denbora asko irabazten da, eta hori ere adimen artifiziala da.

Iruzkinak
Ez dago iruzkinik

Ordenatu
0/500
Interesgarria izango zaizu
Nabarmenduak
Orain, aldi berria dator. Zure aldia. 2025erako 3.000 babesle berri behar ditugu iragana eta geroa orainaldian kontatzeko.