Euskararen corpus «orekatua eta irekia» aurkeztu du Euskaltzaindiak

Euskararen egunean eguneko erabilera jaso dute Euskararen Erreferentzia Corpusean. Lehen bertsioak 123.124 dokumentu bildu ditu. Euskaltzaindiaren asmoa da tresna berria hobetuz joatea, edukia berrituz eta arlo teknologikoa eguneratuz.

Euskararen Erreferentzia Corpusa aurkeztu du gaur Euskaltzaindiak, Bilbon. OSKAR MATXIN EDESA / FOKU
Euskararen Erreferentzia Corpusa aurkeztu du gaur Euskaltzaindiak, Bilbon. OSKAR MATXIN EDESA / FOKU
Olatz Silva Rodrigo.
Bilbo
2025eko martxoaren 31
13:50
Entzun 00:00:0000:00:00

Euskararen Erreferentzia Corpusa sortu du Euskaltzaindiak, euskararen egunean eguneko erabileraren berri izateko eta hizkuntza teknologiek ekarri dituzten erronka berriei aurre egiteko. «Corpus orekatua, irekia eta kolektiboa da», zehaztu du gaur Andres Urrutia euskaltzainburuak, corpusa aurkezteko Bilbon egindako agerraldian. Tresna herritarren eskura dago jada.

Zer da, baina, hizkuntza corpus bat? «Datu bilduma handi bat da, egituratua, erabilera errealetan oinarritua eta linguistikoki prozesatua, hizkuntzaren atal baten erakusgarri gisa erabiltzen dena», azaldu du Miriam Urkia euskaltzain oso eta Euskaltzaindiaren Hiztegia egitasmoko arduradunak. Era berean, erreferentzia corpusa hizkuntza corpus mota bat da, «hizkuntza baten garai zehatz baten erakusgarri ahalik eta xeheena eta, aldi berean, zabalena izateko» sortu dena. «Hautatu den garaiaren argazkia da», erantsi du Urkiak.

Proiektu berriak helburu argi bat du: «Analisi linguistikorako, ikasketa automatikorako edo hizkuntza ikerketetan hipotesiak baliozkotzeko erabili ahal izatea». Horrez gain, «hizkuntza, literatura edo ikerketa helburuetarako» erreferente izan dadila nahi dute. Gainera, «egungo egoera» islatuko duenez, «erabilgarria» izango da hainbat lanbidetan ari direnentzat, «lexiko eta gramatika zalantzak argi» ditzaten. «Hizkuntzaren irakaskuntzan jarduten dutenek, zuzentzaileek... erabilgarri izango dute corpusa».

«Egungo egoera islatuko duenez, hizkuntzaren irakaskuntzan jarduten dutenek, zuzentzaileek... erabilgarri izango dute corpusa»

MIRIAM URKIAEuskaltzain oso eta Euskaltzaindiaren Hiztegia egitasmoko arduraduna

Orekatua, irekia eta kolektiboa. Corpusaren hiru ezaugarriok aletu dituzte Urrutiak eta Urkiak. «Hizkuntzaren nondik norako zehatzak eta orekatuak bildu nahi ditu corpusak», azaldu du euskaltzainburuak. Hori dela eta, era guztietako gaiak, euskalki guztietako adibideak eta testu iturri desberdinetako edukiak jaso dituzte.

Aurkeztu duten lehenengo bertsio honetan, 2000. urtetik 2023ra bitarteko testuak jaso dituzte, baina euren asmoa da corpusa eguneratzen joatea. Horregatik da corpus ireki bat. «Horrek erakusten du gure hizkuntza bizirik dagoela», azpimarratu du Urrutiak. Azken 25 urteetako testuak jasoko ditu beti tresna berriak. Behin epe hori igarota, testu zaharrak beste corpus batean gordeko dituzte, testu berriei leku egiteko.

Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikorekin batera ondu du corpusa. Urrutiak azaldu duenez, materiala argitaletxe, erakunde eta komunikabideetatik eskuratu, eta «corpus tankeran jaso, sailkatu eta eskaini» dute, «herritar ororen eskura jarriz». Corpus kolektiboa da, beraz. Entitate guztiekin sinatu dituzte hitzarmenak, euren eskubideak bermatzeko. Formatu egokitzapenetan laguntza eskaini duten teknikariak ere izan dituzte gogoan gaurko agerraldian.

Fikzioa eta ez-fikzioa

Euskaraz idatzitako testuetan oinarritua dago tresna berria; oraingoz, ez dauka ahozkoaren transkripziorik. Testuen %48 liburuetatik jaso dituzte, beste hainbeste aldizkako argitalpenetatik eta %4 sarerako berariaz sortutako materialetik. Testu horiek guztiek «lematizatu eta sailkatu» dituzte, eta bi multzo nagusi ezarri: fikzioa eta ez-fikzioa.

Eduki gehiena ez-fikzioaren multzoan sartu dute; hots, testu guztien %75. Sei taldetan sailkatu dituzte: ekonomia, politika, zuzenbidea eta administrazioa; gizarte zientziak; kirola; kultura eta arteak; zientzia eta teknologia; eta bestelakoak. Fikzioaren taldean —testu guztien %25—, berriz, narratiba, antzerkia eta gidoiak, eta poesia eta bertsoak bildu dituzte. Talde nagusi horiez gain, beste hainbat azpigai esleitu dituzte, bilaketak fintzeko asmoz.

«Euskaltzaindiak testuak eta materialak bildu ditu, eta corpus tankeran jaso, sailkatu eta eskaini, herritar ororen eskura jarriz»

ANDRES URRUTIAEuskaltzainburua

Testu bakoitzak egilearen informazioa dakar, baita argitaratze data, euskalkia, erregistroa, genero eta testu mota ere. Oro har, 123.124 dokumentu jaso dituzte lehen bertsioan, 154,21 milioi testu hitz eta 129.817 lema desberdin.

Urtero corpusa hobetzeko konpromisoa hartu dute. «Lehen bertsio bat besterik ez da, lanean jarraituko dugu», azpimarratu du Aitor Maritxalar Akademiaren teknologia aholkulariak. Edukiari eta teknologiari dagokienez egin nahi dituzte hobekuntzak.

XX. mendetik gaur arte

Euskaltzaindia XX. mendeko 80ko hamarkadan hasi zen corpusak lantzen, Urkiak gogoratu duenez. Orotariko Euskal Hiztegiaren corpusa eta XX. mendeko Euskararen Corpus Estatistikoa sortu zituzten orduan, eta Lexikoaren Behatokia corpusa osatu zuten gero, XXI. mendean. Corpus «handiago eta orekatuago» bat behar zutela hausnartu, eta horregatik sortu dute orain Euskara Erreferentzia Corpusa.

«Ekimen eta proiektu zehatzak behar ditugu herri moduan aurrera egiteko, baita euskararen unibertsoan ere»

IBONE BENGOETXEAEusko Jaurlaritzako lehen lehendakariorde eta Kultura eta Hizkuntza Politikako sailburua

Corpus berri honek «maila linguistikoa gainditu eta soziologikora hurbiltzeko aukera» emango du. Izan ere, modua ematen du, esaterako, lemen datuak ikusteko eta lema erabilienak zeintzuk diren jakiteko, baita lemen arteko konparazioak egiteko ere.

Proiektuaren «garrantzia» azpimarratu nahi izan du Ibone Bengoetxea Eusko Jaurlaritzako lehen lehendakariorde eta Kultura eta Hizkuntza Politikako sailburuak: «Ekimen eta proiektu zehatzak behar ditugu herri moduan aurrera egiteko, baita euskararen unibertsoan ere». Bengoetxearen hitzetan, «datu bilduma erraldoi hau egungo gizartearen argazki edo lekukotza» izango da, eta erreferentziazkoa izango da «etorkizunean» ere.

Iruzkinak
Ez dago iruzkinik

Ordenatu
0/500
Interesgarria izango zaizu
Nabarmenduak
Kazetaritza propio eta independentearen alde, 2025 amaierarako 3.000 irakurleren babes ekonomikoa behar du BERRIAk.