Zientzia. Eneko Agirre. Hitz ikerketa zentroko kidea

«Ordenagailuekin elkarrizketan euskaraz aritzeko ahala badago»

Ixa taldeak eta Aholab laborategiak osatzen dute Hitz ikerketa zentroa, eta ordenagailuekin elkarrizketak izateko teknologia lantzen ari da Agirre. Hizkuntzen prozesamenduan euskara posizio egokian dagoela dio.

JON URBE / FOKU.
Lander Muñagorri Garmendia.
Donostia
2019ko azaroaren 8a
00:00
Entzun
Ordenagailuekin elkarrizketan jardun ahal izateko teknologia lantzen ari da Eneko Agirre (Eibar, Gipuzkoa, 1968), EHUko informatika fakultateko irakaslea eta ikerlaria. Ildo horretan sakontzeko, maiatzean Google-ren ikerketa sari bat jaso zuen. Elkarrizketa horiek ingelesezkoak izan zitezen ikertzen aritu da, baina teknologia hori euskaraz egon dadin ere lanean ari da Hitz zentroarekin. Bertako arduraduna ere bada Agirre.

Ordenagailuekin hitz egiteko ikerketa bat egiten ari zarete. Posible izango da inoiz ordenagailuekin hitz egitea?

Orain bertan bada posible, baina egia da elkarrizketa horiek ez direla oso interesgarriak. Aginduak emateko balio dute gehiago, eta horiek ere askotan oso oinarrizkoak dira: irratia jar dezala eskatzeko, zer eguraldi egiten duen galdetzeko... Hortik elkarrizketa arrunt batera iristeko bide luzea dago.

Zuen ikerketak ordenagailuekiko elkarrizketak gehiago garatzeko bidea eman dezake?

Hori da. Orain oso oinarrizko gauzak egin daitezke, eta ideia da luzatuz joatea egin daitezkeen gauzen zerrenda. Horrek eskatzen du makinak hizkuntza hobeto ulertuz joan daitezela.

Adimen artifiziala da horretarako oinarria. Noraino dago garatuta?

Adimen artifizialak hiru aplikazio eremu ditu: robotika, ikusmena eta hizkuntzaren ulermena. Duela urte asko entzun genuen adimen artifizialarekin iraultza bat iritsiko zela, eta gure begien aurrean gertatzen ari da. Orain arte, pertsonek egiten zituzten lanak egiten dituzte makinek, eta pertsonen kalitatetik gertu, gainera. Itzulpen automatiko bat, esaterako. Ez da itzultzaile profesional batena bezain ona izango, baina emaitza ona ematen du.

Baina teknologia ez da ulermenera iristen, eta hizkuntzaren konplexutasuna ez du barneratzen.

Hori da puntu ahula. Adimen artifiziala datuen prozesaketan oinarritzen da, eta ezin da esan benetako adimena duenik. Arrazoitzeko gaitasuna da lortzetik urrutien dagoen bereizgarria.

Zuen ikerketan, ordenagailuek webgune jakin batzuetatik jasotzen dute elkarrizketan aritzeko informazioa. Zertan oinarritzen da sistema hori?

Galdera eta erantzunen sistema batean oinarritzen da, eta edozein galdera eginda erantzuna bilatzen du. Teknika hau Wikipediako informaziora bidera daiteke, edo, gure kasuan bezala, domeinu jakin batean dauden galderak erantzutera. Jakina, erantzun horren fidagarritasuna eta esanahia dokumentuaren iturriaren araberakoa izango da. Proiektu honen helburua ez baita edozein gairi buruzko galderen erantzuna lortzea, webgune jakin bateko informazioaren interpretazioa egitea baizik.

Egiten diren galderek zehatzak izan beharko dute, ordea...

Oraintxe bertan, gailu hauek funtzionatuko badute, galderak dokumentuan idatzita dauden bezala egin beharko dira. Ez badituzu hitz berdinak hurrenkera berean erabiltzen, sistemak ez ditu topatzen, eta edozein txorakeria egiten du. Gure ikerketaren helburua da ordenagailuek hizkuntzaren ulermenean pausoak ematea. Hizkuntza konplexua baita, eta ez dugu nahi erabiltzaileak gauzak modu batean esan behar izatea.

Noraino garatua dago ikerketa orain?

Urrats handi bat egin da azken urteetan, eta orain gai da esanahi bera duela ebazteko hitz berak erabili beharrik gabe. Guk erakutsi duguna zera da: sukaldaritzako galderak erantzuteko datu gutxirekin oso ondo egin daitekeela.Orain beste gai batzuetara zabaldu nahi dugu.

Orain arteko ikerketa ingelesez egin duzue, baina boluntarioak bilatu dituzue zuen sistema euskarara ekartzeko.

Adimen artifizialean iraultza bat gertatzen ari da, baina batez ere mundu anglosaxoian eta Txinan. Euskarak ere ezin du atzean geratu. Izan ere, hizkuntzaren prozesamenduan atzean geratzeak esan nahiko luke gure hizkuntzaren prozesuak beste batzuen esku utziko genituzkeela. Horregatik da premiazkoa lerro horretan ere ikertzea. Erakutsi behar da sistema bat ez dela gai bakarrik ingelesez erantzuteko, baizik eta edozein hizkuntzan, eta bereziki euskaraz. Egungo teknologiak horretarako modua ematen du, eta probak egiten ari gara ingelesez probatutako sistema euskarara eramateko. Sukaldaritzako galderak euskaraz erantzuteko, hain zuzen. Hori errealitate bihurtzeko jaso genituen galdera eta erantzun horiek.

Baina berez hizkuntzak berdin izango du, ala? Adimen artifizialak algoritmoekin egingo baititu konparazioak...

Hori da; lortzen badugu hizkuntzen errepresentazioa modu komun batean egitea, metodo berak edo algoritmo berak balio dezake ingelesaren edo euskararen kasuan. Hori da, hain zuzen ere, gure ikerketaren sakoneko mamia: hizkuntza denekin errepresentazio espazio komun bat lortu ahal izatea.

Hori posible izango da? Hizkuntza guztiak ezberdinak baitira elkarren artean...

Google-tik lortu dugun proiektua elebakarra da, baina badaukagu beste ikerketa lerro bat, non ari garen hizkuntzen errepresentazioa espazio berdinetan egiten. Eta emaitzak izugarriak dira. Hizkuntza guztiek daukate komunean uste zena baino gehiago. Hau da, makinak gai dira hizkuntza ezberdinetan dauden patroiak eta aldaerak detektatzeko eta konturatzeko berdinak direla. Hori da beste ikerketa lerro bat.

Kasu horretan, baina, bada hizkuntzen ñabardurak ulertzeko gai?

Egongo litzateke espazio bat hizkuntzen ñabarduretarako, hizkuntza bakoitza ezberdina baita, hori jakina da. Baina mamia, hau da, diozunaren esanahia, komuna da hizkuntzen artean. Eta hori da topatu duguna, makina gai dela espazio komun hori topatzeko.

Hitz zentroa ere sortu duzue Ixa taldeak eta Aholab laborategiak. Testua eta ahotsa batu dituzue proiektu honetan...

Bai, Aholabek ahotsa lantzen du, testua ahotsera nola eraman. Siri eta antzeko gailu guztiek bi fase dauzkate: ahotsetik testura doana batetik, eta testuaren prozesamendua bestetik.

Bi oinarriak landuta, jar daiteke ordenagailu bat euskaraz hitz egiten eta erantzuten?

Hori da; badago aukera proiektu ahaltsuagoak egiteko eta industriara bideratzeko sistema egokiago bat egiteko. Hori garatzeko enpresei lagundu nahi diegu gure ikerketekin.

Zentro honekin, beraz, Siri edo Alexa gisako baliabideak euskaraz hitz egiten jarri daitezke?

Ez dago arazorik teknologia puskak juntatu eta ordenagailuekin euskaraz elkarrizketan jarduteko. Ahala badago.

Orduan, faltako litzateke norbaitek hartu eta martxan jartzea?

Hori gertatzen zaie beste aplikazio handiei. Enpresa handi batzuk daude, eta ez da erraza merkatu horietan lehiatzea hizkuntza bakarrarekin. Androidek baditu telefonoak euskaraz, baina momentu batean jar dezakete euren elkarrizketa teknologia euskaraz, beste hizkuntza batzuetara hedatzen ari den bezala. Baina beste enpresa batzuek euskaraz edo beste hizkuntza batzuetan elkarrizketa sistemak garatzeko teknologia behar badute, hemen daukate. Ez dute kanpoko beste enpresa batzuetara joan beharrik.

Beste hizkuntzekin alderatuta, nola dago euskara hizkuntzen prozesamenduaren arloan??

Euskara oso posizio egokian dago. Ixa taldea eta Aholab taldea hemen daudenez, euskara tratatzeko teknologia gutxienekoak eta aurreratuak badauzkagu. Horregatik, euskara alde horretatik ondo dago, eta, daukan hiztun tamaina edukitzeko, posizio onean.

Beste erronkarik geratuko litzateke hizkuntzaren prozesamenduaren arloan?

Hein batean, dena dago egiteko. Aipatutako aplikazio horiek kalitate jakin batekin egiten dira, eta hori hobetu daiteke, hasteko. Teknologia oso aldakorra baita, eta gaur egun balekoa den zerbait hemendik hamar urtera ez da izango. Gurpil hau ez da amaitzen. Azentuaren gaia hor dago, euskalkiak...

Euskalkiekin lan egiten duzue? Makinek euskara batua bakarrik ulertzen dute?

Asmoa da egitea hizkuntza prozesamendu bat ahalik eta euskalki gehienekin moldatzeko gaitasuna lukeena. Horretan ari gara.
Iruzkinak
Ez dago iruzkinik

Ordenatu
0/500
Interesgarria izango zaizu
Nabarmenduak
Orain, aldi berria dator. Zure aldia. 2025erako 3.000 babesle berri behar ditugu iragana eta geroa orainaldian kontatzeko.