Sarean milioi bat hizketaldi

Euskal Herriko Unibertsitateko Euskara Institutuak Goenkale Corpusa jarria du Interneten, telesailaren 3.000 atal baliatuta. Urtarrilean egingo dute azken eguneraketa.

urtzi urkizu
2015eko abenduaren 18a
00:00
Entzun
Testuetako hamahiru milioi hitz baino gehiago. Hizketaldietako bederatzi milioi hitz. Milioi bat hizketaldi. 47.000 sekuentzia pasatxo. Goenkale-ren 3.000 ataletan erabilitako hitzak, esapideak, esaldiak jasoak daude Interneten, www.ehu.eus/ehg/goenkale/ helbidean. Joxe Mari eta Maria Luisaren esaldiak, Leonor kubatarrarenak eta Mikel txima- luzearenak. Goenkale Corpusahor da, edonork kontsultatzeko moduan. Baina ez atal guztietako hitzak —3.707. atalarekin amaituko da telesaila, hilaren 28an—.

Hitz eta hizketaldiak Euskal Herriko Unibertsitateko Euskara Institutuak jaso eta eskegi ditu. Eta lan horretan aritu dira Pello Salaburu EHUko irakasle eta Euskara Institutuko zuzendaria, Ibon Sarasola EHUko irakaslea eta Josu Landa idazle eta Ametzagaiña taldeko langilea.

Badira urte batzuk EHUn corpusak egiteko lanean hasi zirela. Salabururen arabera, corpusak material «oso fidagarriak» dira, esate baterako, hortik gero hiztegiak egiteko. «Konturatu ginen bazela erregistro bat oso gutxi landua: elkarrizketen transkripzioaren corpusak. Bazen hutsune bat alor horretan, eta ohartu ginen Goenkale hurbilago dagoela hizkera mintzatutik testu idatzietatik baino».

Salabururen iritziz, Goenkale Corpusa erabilgarria izan daiteke, esate baterako, alderatu nahi bada idatzizko testu hotzago bat erabiltzen den ahozko hizkerarekin. «Pista asko daude jasotako hizketaldietan, telesaileko euskara bizia delako».

Azken 127 ataletan lanean

Salabururen arabera, telesailaren gidoilariak euskararen batasun idatziaz baliatu ziren neurri batean, hori eguneroko hizketara eramateko. «Alde horretatik, telesaileko elkarrizketak oso biziak dira, eta hori da balio handiena. Esapideak ere badira. Goenkale askoz hurbilago egon da euskara mintzatu batutik idatzizko prosa arrunta baino».

EHUko Euskara Institutuko arduradunak aitortu du hitz asko bildu dituztela telesailaren corpusean, baina adierazi du badirela beste batzuk hitz gehiagorekin. «Baditugu batzuk 25 milioi hitzekoak. Eta bada bat 200 milioi hitzekoa, orain eguneratuko duguna». Bestalde, BERRIAren corpusak 21 milioi hitz baino gehiago ditu.

Landarekin eta Sarasolarekin batera aritzen da Salaburu corpus horiek lantzen. Aurki corpus bat lau hizkuntzatan aterako dute. «Testu berberak lau hizkuntzatan izatea interesgarria da itzulpenak egiteko».

Azkeneko urteetan Goenkale Corpuseko material mardula eskuragarri izan den arren, ez dute amaitu lan hori. Lehen argitalpenean, 2011. urtekoan, 3.000 ataletatik 2.418 ataletakoak eman zituzten. Euskara Institutuaren zuzendariak azaldu du falta ziren 582 atal horietatik batzuk ez zeudela formatu digitalean, eta beste batzuk galduta zeudela. 2011. urtetik hona, bi aldiz eguneratu dute corpusa. Baina azkeneko eguneraketa falta da. Orain, 127 ataletako datuak jasotzen ari dira Landa, Sarasola eta Salaburu, eta urtarril aldera egingo dute azkeneko eguneraketa. Corpuseko helbidera sartzen denak milioi bat hizketaldi kontsultatu ahalko ditu.
Iruzkinak
Ez dago iruzkinik

Ordenatu
0/500
Interesgarria izango zaizu
Nabarmenduak
Orain, aldi berria dator. Zure aldia. 2025erako 3.000 babesle berri behar ditugu iragana eta geroa orainaldian kontatzeko.