Adimen Artifiziala

Euskara oinarri izango duen ChatGPT modukoa, gero eta hurbilago

HiTZ Zentroak euskarazko hizkuntza eredurik handiena garatu du: Latxa. Eredu horietan oinarritzen dira adimen artifizialezko txatbotak, eta euskara oinarri duen programa sortzeko lehen urratsa da Latxa.

Latxa hizkuntza eredu handiaren irudia. HiTZ ZENTROA
Latxa hizkuntza eredu handiaren irudia. HiTZ ZENTROA
Julen Otaegi Leonet.
2024ko urtarrilaren 31
19:15
Entzun

Urtebete pasa igaro da ChatGPT adimen artifizialaren bidezko programa sortu zutenetik. Ama hizkuntza ingelesa du, eta beste hainbat hizkuntza ere ikasi ditu ordutik, euskara beste hainbaten artean, ingelesez moldatzen bada ere ondoen. Finean, txatbotek —horrela deritze programa horiei— hizkuntza eredu handietatik ikasten dute, eta datu base horietan oinarrituta sortzen dituzte erantzunak eta edukiak. ChatGPT Microsoftek garatutako hizkuntza eredu handia du oinarri; Metarenari, berriz, LLaMA deritzo. Eta azken hori baliatu du EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa sortzeko: euskararentzako hizkuntza eredurik handiena. Horra hor Latxaren logoaren zergatia: llama bat eta ardi latxa bat irudikatu dituzte.

Zenbat eta erreferentzia gehiago izan, orduan eta errendimendu hobea dute adimen artifizialaren bidezko programek. Horregatik, «arrakala teknologikoa areagotzen errekurtso asko eta gutxi dituzten hizkuntzen artean», azaldu du HiTZek oharrean. Muga horiek gainditzeko sortu dute Latxa, euskarazko produktu, berrikuntza eta produktuen garapena sustatzeko. Eusko Jaurlaritzaren laguntza jaso du proiektuak.

Latxa eredua oinarrizkoa da oraindik, eta asko dute «fintzeko». Hori dela eta, ez dago prest edonork erabil dezan; adituek produktuak garatzeko edo eredu bera aplikazio jakinetara doitzeko bai, ordea. «Oraindik ez dago argi posible izango den euskarazko eredu bat garatzea, gaztelerazko edo ingelesezko GPTk adina kalitate duena; horixe da, hain zuzen, gure helburua», adierazi du Eneko Agirre zentroko zuzendariak. Latxarena «lehen bertsioa» da, eta, beraz, funtsezkoa da aurrerago euskarazko txatbotak garatzeko.

EusCrawl corpusarekin elikatu dute Latxa, euskarazko 1,72 milioi dokumentu eta 288 miloi hitz dituena. Mila milioika parametroren arabera funtzionatzen dute hizkuntza ereduek, eta hiru bertsio probatu ditu HiTZek: zazpi, hamahiru eta hirurogeita hamar mila milioi parametrodunak, hurrenez hurren. «Tamaina handitzen den heinean, emaitzak hobetu egiten dira», Agirreren arabera.

Iruzkinak
Ez dago iruzkinik

Ordenatu
0/500
Interesgarria izango zaizu
Nabarmenduak
Orain, aldi berria dator. Zure aldia. 2025erako 3.000 babesle berri behar ditugu iragana eta geroa orainaldian kontatzeko.