Adimen artifizialari esker lor daiteke hiztun edo testu batean euskararen gaitasun maila era automatikoan antzematea; edota euskarazko ahots pertsonalizatuen teknologia adimen urrikoengana iristaraztea. Ez hori bakarrik: ahots espontanearen transkripzioa egiteko teknologia garatu daiteke; eta euskara elkarrizketa sistema ahaltsuenen pare jarri ere, esaterako. Ez dira erronka apalak, baina EHUko Informatika Fakultateko Hitz Zentroak aurre egin nahi die lan horiei, «euskara ingurune digitalean areagotzeko». Aurrerantzean, zentro horretan aritzen dira 70 ikerlariek--informatikari, hizkuntzalari eta ingeniariak-- Eusko Jaurlaritzak zentroari eman dion 1,68 milioi euroko diru laguntzaren babesa izango dute beren zereginean jarraitzeko.
Ziztada horrek izango du bigarren helburu bat, gainera: Hitz Zentroak CLARIAH-EUS sarea sortu du, Europako CLARIN eta DARIAH azpiegitura zientifikoetan erkatuta, eta hura bultzatu nahi dute. Azpiegitura horietako 137 ikertzailek eta euskara ikertzen ari diren 11 taldek eta erakundek babestu dute CLARIAH-EUS sarea, besteak beste humanitate, arte eta zientzia sozialetan ikerketa sustatzeko eta elkarrekin partetatzeko datu zein tresna digitalen erabilera.
Eskara batua eta Mitxelena
Jaurlaritzako Kultura eta Hizkutza politikako sailburu Bingen Zupiriak eta EHUko errektore Eva Ferreirak bisita egin diote gaur Hitz Zentroko ikerlariei, haien buru Eneko Agirre zuzendaria izan dela. Zupiriak esan du «eremu digitalean hizkuntza hegemonikoak» direla «jaun eta jabe», batez ere ingelesa, eta «beharrezkoa» dela euskarak ere «bere tokia» hartzea alor horretan: «Bestela beste hizkuntza batzuek hartuko dute espazio hori». Zupiriak erantsi du «ezinbestekoa» dela hizkuntza teknologia lantzea, eta «trakzio lana» egin nahi duela Jaurlaritzak helburu horren alde. Sailburuak adimen artifizlalak sortutako bere ahots pertsonalizatuaren lagin bat entzuteko aukera ere izan du Hitz Zentroan.
Bestalde, Eva Ferreira EHUko errektoreak uste du «benetako iraultza teknologikoa» bizi dugula. «Errealitate materialari errealitate birtuala gehitu zaio, eta gaur egun jada, ez dago bizirik iraungo duen giza errealitaterik mundu digitalean korrespondentzia egokirik ez badu», azaldu du. Eta horrek ondorio «argi bat» duela erantsi du: «Euskarak hor egon behar du, eta indartsu, baliabide egokiekin». Ferreirak gogoratu du 1970ko hamarkadan euskara estandar bat egiten hasi zirela hizkuntzalariak eta Koldo Mitxelenak oso argi esan zuela batasunik gabe euskarak ez zuela gerorik izango; batasunarekin ere biziraupena ez zegoela bermatua argitu zuen Mitxelenak, baina batasunik gabe segurua zela euskararen galera. Bada, egun euskarak alor digitalean behar duen presentziarekin alderatu du ideia hori Ferreirak.
Testu eta ahotsen datu bilketa masiboa
Izan ere, egungo eta etorkizuneko teknologiek testuzko eta ahozko datu-masa erraldoiak eskatzen dituzte hizkuntza bakoitzeko, eta, aldiz, euskarak eskaini ahal dituen datuak ez dira nahikoak, teknologia horiei etekina ateratzeko, eta gailu horiek behar adina kalitatea eskaintzeko. Hor dago Hitz Zentroaren benetako erronka, zentroko zuzendari Eneko Agirrek esplikatu duenez: «Egungo teknologiak hiztun askoko hizkuntzetan oso ondo aritzen dira, baina hiztun gutxiagokoetan kalitate eskasa ematen dute. Gure ikerketa batek erakutsi du egun dagoen euskarazko testu-masarekin ezin direla elkarrizketa-sistemen motore diren hizkuntza eredu ahatsuenak euskaraz entrenatu, eta ahotsarekin ere berdin gertatzen da». Horregatik, Hitz Zentroan eredu berriak eraikitzeko metodoak ikertzen ari dira, eta horren osagarri gisa, testuzko eta ahozko datu-masak biltzen ari dira.
Agirrek esan du eraikitzen dituzten eredu eta algoritmo guztiak inguruko zentro teknologiko eta enpresekin «era librean» partekatuko dituela EHUk, betiere euskararen presentzia handitzeko alor digitalean. Eta azken mezu bat ere helarazi dio euskalgintzari: «Euskarazko hizkuntza teknologia propioa eta kalitatezkoa nahi badugu, testu eta ahotsen datu bilketa masiboa abiatu beharra dago, eta erakunde publiko nahiz pribatuen eskuzabalatasuna gako izango da horretan».