Zientzia

Puntako ikerketaren bermea

Elhuyar fundazioko I+G lantaldeak nazioarteko hiru sari jaso ditu biomedikuntzaren eta hizkuntzalaritzaren alorrean. Proiektuek itzulpengintzarekin, bilatzaileekin eta zuzentzaileekin dute zerikusia. Sariek haien ikerketa eta teknologiaren kalitatea berretsi dutela uste dute Elhuyarrekoek.

Elhuyarreko I+G lantaldea, Usurbilen duten egoitzan lanean. JUAN CARLOS RUIZ / FOKU.
Iker Tubia.
2020ko urriaren 16a
00:00
Entzun
Hiru sari. Elhuyar fundazioak nazioarteko hiru sari jaso ditu azken bi hilabeteetan, haren ikerketaren eta teknologiaren kalitatearen erakusgarri. Sariak biomedikuntzaren eta hizkuntza zuzentzaileen alorrekoak dira. «Sari hauek gure posizioa indartzen dute teknologiaren alorrean; zehazki, adimen artifizialaren alorrean», azaldu du Xabier Saralegi Elhuyarreko Adimen Artifizialeko Testuen saileko arduradunak.

Haiek garatutako osasungintzarako itzultzaile automatiko neuronalak Biomedical Translation Task nazioarteko lehiaketa irabazi du, eta AEBetako NIST institutuaren lehiaketan bigarren geratu dira, COVID-19arekin lotutako kontsultak egiteko prestatu duten bilatzaile neuronalari esker. Gainera, sare neuronaletan oinarritutako zuzentzaile gramatikal bat garatzen ari da Elhuyar, eta ikerketa horren nondik norakoak azaltzen dituen artikuluak lehenbiziko saria jaso du NEPLN Hizkuntza Naturala Prozesatzeko Espainiako Elkarteak emana.

Elhuyarrek hizkuntza teknologiak ere lantzen ditu. Ikerketa eta garapena egiten dute adimen artifizialean, eta, zehazki, hizkuntzaren prozesamenduan. «Alor horretan merkatua hazten ari da; gero eta lehiakide gehiago daude. Orduan, sarien bidez, garrantzitsua da puntako teknologia eta ikerkuntza egiten duzula demostratzea», esan du Saralegik. Gainera, teknologian egiten duten lana zabaltzeko balio die.

ITZULTZAILE AUTOMATIKOA

Pandemia zabaltzen hasi zenetik, talde asko hasi ziren gai horren bueltan lanean, eta Elhuyarrek ere hala egin zuen. Sistemen arteko lehiaketara aurkeztea erabaki zuten, itzulpen automatikoan ibilbide luzea egina baitute. COVID-19ari buruzko artikulu zientifikoak modu automatikoan itzultzeko sistemak ziren jokoan; besteak beste, ingelesetik euskarara itzultzen zuena. Hori irabazi zuen Elhuyarrek, baina ingelesetik gaztelerara egiten duena ere aurkeztu zuten, eta, horretan, bigarren geratu ziren.

Saralegik azaldu du arkitektura neuronalak erabili zituztela: «Adibideekin entrenatzen dira arkitektura neuronalak; itzulpen bikoteak behar dira, eta, kasu honetan, biomedikuntza alorrerako. Guretzako erronka handiena zera zen, ingeles-euskara bikotearen kasuan entrenamendu datu oso-oso gutxi daudela». Beste bide batzuetatik jo zuten: entrenamendu bikoteak modu sintetikoan sortu zituzten. Euskarazko testuak hartu, eta ingelesera itzuli zituzten modu automatikoan, gaztelaniatik pasatuta. «Adibide sintetiko pila bat sortu genituen, eta, gero, emaitzarik onenak lortu ditugu», azaldu du Saralegik.

Saria lortu dute proiektuarekin, eta Saralegik uste du horrek agerian uzten duela Elhuyarrek «puntako teknologia» egiten duela. Baina, horretaz gainera, itzultzailea baliagarria izanen dela uste du: «Biomedikuntzarako itzultzaileak balio dezake Osakidetzarentzat, ospitaleentzat edo biomedikuntza alorreko profesionalentzat».

BILATZAILE NEURONALA

NIST teknologia garapena sustatzeko institutu bat da, eta haiek antolatutako lehiaketan bigarren geratu da Elhuyar, 28 lehiakideren artean. COVID-19arekin zerikusia zuten bilaketekin lotutako bilatzaileak sortzea zen helburua. Gaiari buruzko ehun mila artikulu zientifiko baino gehiagoko bilduma sortu zuten, eta kontsulta zerrenda bat —adibidez: Distantziamendu sozialaren eragina COVIDaren zabalkundean—. Kontsultei erantzuteko esanguratsuenak ziren artikuluak aurkitu, eta esangura mailaren arabera ordenatzea zen erronka.

«Ariketa ez zen kontsulta horietako hitzak hartu eta hitz horiek dituzten artikuluak bilatzea; konplexuagoa zen», zehaztu du Saralegik. Horretarako, arkitektura neuronala erabili zuten. «Entrenamendu datuak, kasu honetan, kontsultak eta bakoitzari dagozkion artikulu esanguratsuak dira. Halako bikoteekin entrenatu dugu gure eredu neuronala, eta, gero, entrenatutako eredua gai da kontsulta eta galdera berriei erantzuteko».

Bilatzaileen alorrean ere Elhuyarrek ibilbide luzea zuen egina, baina hori nazioarteko lehiaketa zen; mundu osoko ikerketa taldeek parte hartu zuten. «Guk lehenengo hamarren artean geratu nahi genuen; guretzat hori lorpen handia zen», onartu du Saralegik. Bigarren geratu ziren.

Gainera, azaldu du bilatzaile hori beste proiektu batean berrerabiliko dutela. Biomedikuntza alorreko profesional eta zientzialarientzako zaintza sistema bat izanen da, COVID-19ari buruzko gaien, kontsulten eta galderen jarraipena egiteko. «Lana errazteko modu bat da. Gainera, gaur egun artikulu pila bat argitaratzen ari dira COVID-19aren inguruan; beraz, horrelako sistemak beharrezkoak dira informazio asko dagoenean bilaketak fintzeko». Proiektua UNED eta EHU unibertsitateekin garatuko dute.

ZUZENTZAILE GRAMATIKALA

Hirugarren saria hizkuntzari lotuta dago. Xuxen zuzentzaile automatikoa aski ezaguna da; bada, haren garapenean lanean aritu dira Elhuyarren. «Xuxenek akats ortografikoak zuzentzen ditu batez ere; SEPLNren kongresuan aurkeztu dugun teknologia honekin, salto kualitatibo bat eman ahal izan dugu, akats gramatikalak ere zuzenduko dituelako». Urte hasieran abiatu zituzten ikerketa lanak, eta lehenbiziko faseko esperimentuetan emaitza nahiko onak lortu zituzten. Lau akatsetan jarri zuten arreta: aditz aspektua, aditz paradigmak, komuztadura subjektuaren eta aditzaren artean, eta konpletiboak. «Gure hizkuntzalarien arabera, hauek dira gramatika akatsik ohikoenak».

Kasu honetan ere arkitektura neuronala erabili zuten. Adibide sintaktikoak sortu zituzten hura entrenatzeko: esaldi zuzenak hartu zituzten 500.000 albisteko corpus periodistiko batetik, eta arestian aipatutako akatsak txertatu zizkieten erregela linguistikoak sortzeko. Modu horretan sortzen zituzten entrenamendurako bikoteak: zuzena eta akastuna.

Esperimentuak deskribatzen zituen artikulu zientifikoa bidali zuten SEPLNren kongresura. Orotara, 22 artikulu jaso zituzten, eta kongresurako hautatutako hamar testuen artean zegoen Elhuyarrena. Han aurkeztu zuten, beraz, eta artikulurik onenaren saria jaso zuten gero. «Hori ez genuen espero. Ez zen gure helburua saria jasotzea, baina guk bidalitako lana onena zela aitortzea oso pozgarria izan zen guretzat». Beraz, hirugarren bermea jaso zuten denbora gutxian.

Hurrengo lana akats mota gehiago zuzentzeko prestatzea izanen da. Gainera, orain arte egindako lana erabiltzeko aukera izanen da: lau akats nagusiak zuzentzen dituen demoa urte bukaeran atera nahi du Elhuyarrek.
Iruzkinak
Ez dago iruzkinik

Ordenatu
0/500
Interesgarria izango zaizu
Nabarmenduak
Orain, aldi berria dator. Zure aldia. 2025erako 3.000 babesle berri behar ditugu iragana eta geroa orainaldian kontatzeko.