Eolas Faoin suíomh seo

Corpas Náisiúnta na Gaeilge

Is corpas cothromaithe é Corpas Náisiúnta na Gaeilge (CNG) a bhfuil 100 milliún focal ann, idir ábhar scríofa agus ábhar labhartha. Baineann na téacsanna go léir a tiomsaíodh don chorpas leis an tréimhse 2000–2024 agus é i gceist go mbeadh sé ionadaíoch ar an nGaeilge chomhaimseartha.

Tá meascán mór seánraí, foinsí, agus canúintí in CNG agus iad ualaithe ar bhealach a sheachnaíonn róthionchar a bheith ag duine, seánra, nó saothar ar leith ar an gcorpas trí chéile. Úsáidfear CNG chun ceisteanna ginearálta teanga a fhiosrú, mar shampla, cé chomh minic is a úsáidtear focal nó frása áirithe, cén réamhfhocal is mó a úsáidtear le briathar áirithe etc. Is iomaí duine a ritheann ceisteanna den sórt sin leo agus iad ag foghlaim, ag scríobh nó ag aistriú agus cuirfidh cuardach in CNG fianaise iontaofa ar fáil dóibh a chabhródh leo freagra sásúil a aimsiú. Ní hamháin sin ach is féidir le ríomheolaithe na sonraí corpais a phróiseáil ar bhealaí éagsúla chun samhlacha teanga a ghiniúint nó chun liostaí minicíochta a dhéanamh.

Cothromú

Rinneadh cothromú ar an gcorpas ar dhá phríomhbhealach: (1) bailíodh an bunábhar ón oiread foinsí agus seánraí agus ab fhéidir agus (2) rinneadh coigeartú ar líon focal cineálacha téacs áirithe (e.g. ábhar reachtaíochta) chun róláithreacht foinsí agus seánraí áirithe sna torthaí cuardaigh a sheachaint. Ní miste a admháil, áfach, nach próiseas beacht atá sa chothromú seo ach iarracht thomhaiste chun corpas atá ionadaíoch ar staid na teanga a chruthú. Ar na cúiseanna atá leis sin tá (1) cineálacha téacs áirithe a bheith ceilte ar an taighdeoir toisc iad a bheith pearsanta nó leochaileach (e.g. réimse an teaghlaigh, deasghnátha creidimh áirithe), (2) cineálacha eile téacs a bheith costasach ó thaobh próiseála de (tras-scríobh ábhair urlabhra) agus, i gcásanna áirithe, (3) sealbhóirí cóipchirt gan a bheith sásta ábhar áirithe a roinnt. Anuas ar na nithe sin, atá ábhartha do gach teanga, tá na saincheisteanna a bhaineann le cailliúint réimsí i gcomhthéacs teanga mionlaigh – tá roinnt mhaith réimsí den saol nach bpléitear leo mórán trí mheán na Gaeilge.

Struchtúr

Léiríonn an phíchairt thíos briseadh síos CNG de réir an mheáin (scríofa/labhartha):

Meáin

Is ríléir ón bpíchairt go bhfuil i bhfad níos lú ábhar labhartha in CNG ná ábhar scríofa. An chúis atá leis sin ná nach raibh an oiread sin ábhar tras-scríofa urlabhra ar fáil. Bhí an tionscadal in ann teacht i dtír ar chnuasach téacsanna tras-scríofa a chruthaigh rannóg foclóireachta Fhoras na Gaeilge mar chuid de thionscadal an Fhoclóra Nua Béarla-Gaeilge agus rinne foireann an tionscadail seo tras-scríobh as an nua ar roinnt cláracha teilifíse ó TG4 i measc rudaí eile ach is próiseas malltriallach chostasach é an tras-scríobh de láimh agus ní raibh sé d'acmhainn ag an tionscadal mórán thairis sin a dhéanamh. Meastar go réiteoidh an mheaisínfhoghlaim an fhadhb sin sna blianta beaga amach romhainn ach ní raibh an teicneolaíocht teanga go téacs forbartha go dtí leibhéal sásúil cruinnis i gcás na Gaeilge chun dul chun tairbhe an tionscadail.

Tá briseadh síos CNG de réir an tseánra le feiceáil thíos:

Seánraí

Tabharfar faoi deara láithreach go bfhuil dhá sheánra ar an ngraf thuas, Nuacht agus Tuairimíocht, atá i bhfad níos mó ná na seánraí eile. Ábhar nuachtán (Tuairisc, Foinse, Gaelscéal...) agus ábhar irisí (Comhar, Feasta, An tUltach...) agus blaganna atá i gceist leo faoi seach agus clúdaítear iliomad topaicí éagsúla iontu (spórt, polaitíocht, faisean, na healaíona etc.). Ní raibh sé d'acmhainn ag an tionscadal scagadh de réir topaicí a dhéanamh ar na seánraí móra seo go fóill (cé go bhfuil a leithéid déanta i gcás na mblaganna atá liostaithe faoi Tuairimíocht) ach tabharfar faoin bpróiseas sin sa chéad chéim eile den tionscadal in 2025.

Tugtar samplaí dá bhfuil sna seánraí éagsúla sa tábla thíos:

Seánra Sampla(í)
Acadúil Irisí léannta, tráchtais ollscoile
Aimsir Aimsir TG4
Béaloideas Bailiúchán Béaloidis Árann, Béaloideas Beo
Corporáideach Tuarascálacha bliantúla na gcomhlachtaí Stáit, pleananna teanga
Dlí Achtanna Oireachtais, Rialacháin AE
Faisnéis Vicipéid, https://www.citizensinformation.ie/
Fóram "Gaeilge Amháin" ar Facebook, fóraim idirlín
Litríocht Foilseacháin de chuid Cló Iar-Chonnacht, Cois Life, Leabhar Breac etc.
Nós maireachtála Ábhar NÓS, blaganna áirithe
Nuacht Ábhar Tuairisc, Foinse, Gaelscéal etc.
Oideachas Páipéir scrúdaithe, téacsleabhair, acmhainní oideachais
Páistí Cartúin Cúla4
Parlaimint Tras-scríbhinní ar dhíospóireachtaí Dála
Reiligiún Paidreacha, foilseacháin chráifeacha
Siamsaíocht Ros na Rún TG4, Iris Aniar RnaG
Teicniúil Treoracha i leith suiteáil bogearraí etc.
Tuairimíocht Ábhar Comhar, Feasta etc.