Euskara oinarri izango duen ChatGPT modukoa, gero eta hurbilago
HiTZ Zentroak euskarazko hizkuntza eredurik handiena garatu du: Latxa. Eredu horietan oinarritzen dira adimen artifizialezko txatbotak, eta euskara oinarri duen programa sortzeko lehen urratsa da Latxa.
Urtebete pasa igaro da ChatGPT adimen artifizialaren bidezko programa
sortu zutenetik. Ama hizkuntza ingelesa du, eta beste hainbat hizkuntza
ere ikasi ditu ordutik, euskara beste hainbaten artean, ingelesez
moldatzen bada ere ondoen. Finean, txatbotcloseTestu nahiz entzumen bidezko metodoen bitartez elkarrizketa bat jarraitzen duen programa informatikoa.
ek hizkuntza eredu handietatik ikasten dute, eta datu base horietan
oinarrituta sortzen dituzte erantzunak eta edukiak. ChatGPT Microsoftek
garatutako hizkuntza eredu handia du oinarri; Metarenari, berriz, LLaMA
deritzo. Eta azken hori baliatu du EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa sortzeko: euskararentzako hizkuntza eredurik handiena.
Horra hor Latxaren logoaren zergatia: llama bat eta ardi latxa bat
irudikatu dituzte.
ChatGPT Microsoftek garatutako hizkuntza eredu handia du oinarri; Metarenari, berriz, LLaMA deritzo. Eta azken hori baliatu du EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa sortzeko.
Zenbat eta erreferentzia gehiago izan, orduan
eta errendimenducloseErabilitako baliabideen eta lortutako emaitzen arteko proportzioa.
hobea dute adimen artifizialaren bidezko programek.
Horregatik, «arrakala teknologikoa areagotzen errekurtso asko eta gutxi
dituzten hizkuntzen artean», azaldu du HiTZek oharrean. Muga horiek
gainditzeko sortu dute Latxa, euskarazko produktu, berrikuntza eta
produktuen garapena sustatzeko. Eusko Jaurlaritzaren laguntza jaso du
proiektuak.
Latxa eredua oinarrizkoa da oraindik, eta asko dute
«fintzeko». Hori dela eta, ez dago prest edonork erabil dezan; adituek
produktuak garatzeko edo eredu bera aplikazio jakinetara doitzekocloseNeurri egokira etorrarazteko.
bai,
ordea. «Oraindik ez dago argi posible izango den euskarazko eredu bat
garatzea, gaztelerazko edo ingelesezko GPTk adina kalitate duena; horixe
da, hain zuzen, gure helburua», adierazi du Eneko Agirre zentroko
zuzendariak. Latxarena «lehen bertsioa» da, eta, beraz, funtsezkoa da
aurrerago euskarazko txatbotak garatzeko.
«Oraindik ez dago argi posible izango den euskarazko eredu bat garatzea, gaztelerazko edo ingelesezko GPTk adina kalitate duena; horixe da, hain zuzen, gure helburua».
EusCrawl corpusarekin
elikatu dute Latxa, euskarazko 1,72 milioi dokumentu eta 288 miloi hitz
dituena. Mila milioika parametrocloseKopuru aldagaitza.
ren arabera funtzionatzen dute hizkuntza
ereduek, eta hiru bertsio probatu ditu HiTZek: zazpi, hamahiru eta
hirurogeita hamar mila milioi parametrodunak, hurrenez hurren. «Tamaina
handitzen den heinean, emaitzak hobetu egiten dira», Agirreren arabera.
EusCrawl corpusarekin elikatu dute Latxa, euskarazko 1,72 milioi dokumentu eta 288 miloi hitz dituena.
Jatorrizko artikuluak
- Euskara oinarri izango duen ChatGPT modukoa, gero eta hurbilago Julen Otaegi Leonet | |