Is corpas cothromaithe é Corpas Náisiúnta na Gaeilge (CNG) a bhfuil 100 milliún focal ann, idir ábhar scríofa agus ábhar labhartha. Baineann na téacsanna go léir a tiomsaíodh don chorpas leis an tréimhse 2000–2024 agus é i gceist go mbeadh sé ionadaíoch ar an nGaeilge chomhaimseartha.
Tá meascán mór seánraí, foinsí, agus canúintí in CNG agus iad ualaithe ar bhealach a sheachnaíonn róthionchar a bheith ag duine, seánra, nó saothar ar leith ar an gcorpas trí chéile. Úsáidfear CNG chun ceisteanna ginearálta teanga a fhiosrú, mar shampla, cé chomh minic is a úsáidtear focal nó frása áirithe, cén réamhfhocal is mó a úsáidtear le briathar áirithe etc. Is iomaí duine a ritheann ceisteanna den sórt sin leo agus iad ag foghlaim, ag scríobh nó ag aistriú agus cuirfidh cuardach in CNG fianaise iontaofa ar fáil dóibh a chabhródh leo freagra sásúil a aimsiú. Ní hamháin sin ach is féidir le ríomheolaithe na sonraí corpais a phróiseáil ar bhealaí éagsúla chun samhlacha teanga a ghiniúint nó chun liostaí minicíochta a dhéanamh.
Cothromú
Rinneadh cothromú ar an gcorpas ar dhá phríomhbhealach: (1) bailíodh an bunábhar ón oiread foinsí agus seánraí agus ab fhéidir agus (2) rinneadh coigeartú ar líon focal cineálacha téacs áirithe (e.g. ábhar reachtaíochta) chun róláithreacht foinsí agus seánraí áirithe sna torthaí cuardaigh a sheachaint. Ní miste a admháil, áfach, nach próiseas beacht atá sa chothromú seo ach iarracht thomhaiste chun corpas atá ionadaíoch ar staid na teanga a chruthú. Ar na cúiseanna atá leis sin tá (1) cineálacha téacs áirithe a bheith ceilte ar an taighdeoir toisc iad a bheith pearsanta nó leochaileach (e.g. réimse an teaghlaigh, deasghnátha creidimh áirithe), (2) cineálacha eile téacs a bheith costasach ó thaobh próiseála de (tras-scríobh ábhair urlabhra) agus, i gcásanna áirithe, (3) sealbhóirí cóipchirt gan a bheith sásta ábhar áirithe a roinnt. Anuas ar na nithe sin, atá ábhartha do gach teanga, tá na saincheisteanna a bhaineann le cailliúint réimsí i gcomhthéacs teanga mionlaigh – tá roinnt mhaith réimsí den saol nach bpléitear leo mórán trí mheán na Gaeilge.
Struchtúr
Léiríonn an phíchairt thíos briseadh síos CNG de réir an mheáin (scríofa/labhartha):
Is ríléir ón bpíchairt go bhfuil i bhfad níos lú ábhar labhartha in CNG ná ábhar scríofa. An chúis atá leis sin ná nach raibh an oiread sin ábhar tras-scríofa urlabhra ar fáil. Bhí an tionscadal in ann teacht i dtír ar chnuasach téacsanna tras-scríofa a chruthaigh rannóg foclóireachta Fhoras na Gaeilge mar chuid de thionscadal an Fhoclóra Nua Béarla-Gaeilge agus rinne foireann an tionscadail seo tras-scríobh as an nua ar roinnt cláracha teilifíse ó TG4 i measc rudaí eile ach is próiseas malltriallach chostasach é an tras-scríobh de láimh agus ní raibh sé d'acmhainn ag an tionscadal mórán thairis sin a dhéanamh. Meastar go réiteoidh an mheaisínfhoghlaim an fhadhb sin sna blianta beaga amach romhainn ach ní raibh an teicneolaíocht teanga go téacs forbartha go dtí leibhéal sásúil cruinnis i gcás na Gaeilge chun dul chun tairbhe an tionscadail.
Tá briseadh síos CNG de réir an tseánra le feiceáil thíos:
Tabharfar faoi deara láithreach go bfhuil dhá sheánra ar an ngraf thuas, Nuacht agus Tuairimíocht, atá i bhfad níos mó ná na seánraí eile. Ábhar nuachtán (Tuairisc, Foinse, Gaelscéal...) agus ábhar irisí (Comhar, Feasta, An tUltach...) agus blaganna atá i gceist leo faoi seach agus clúdaítear iliomad topaicí éagsúla iontu (spórt, polaitíocht, faisean, na healaíona etc.). Ní raibh sé d'acmhainn ag an tionscadal scagadh de réir topaicí a dhéanamh ar na seánraí móra seo go fóill (cé go bhfuil a leithéid déanta i gcás na mblaganna atá liostaithe faoi Tuairimíocht) ach tabharfar faoin bpróiseas sin sa chéad chéim eile den tionscadal in 2025.
Tugtar samplaí dá bhfuil sna seánraí éagsúla sa tábla thíos:
Seánra | Sampla(í) |
---|---|
Acadúil | Irisí léannta, tráchtais ollscoile |
Aimsir | Aimsir TG4 |
Béaloideas | Bailiúchán Béaloidis Árann, Béaloideas Beo |
Corporáideach | Tuarascálacha bliantúla na gcomhlachtaí Stáit, pleananna teanga |
Dlí | Achtanna Oireachtais, Rialacháin AE |
Faisnéis | Vicipéid, https://www.citizensinformation.ie/ |
Fóram | "Gaeilge Amháin" ar Facebook, fóraim idirlín |
Litríocht | Foilseacháin de chuid Cló Iar-Chonnacht, Cois Life, Leabhar Breac etc. |
Nós maireachtála | Ábhar NÓS, blaganna áirithe |
Nuacht | Ábhar Tuairisc, Foinse, Gaelscéal etc. |
Oideachas | Páipéir scrúdaithe, téacsleabhair, acmhainní oideachais |
Páistí | Cartúin Cúla4 |
Parlaimint | Tras-scríbhinní ar dhíospóireachtaí Dála |
Reiligiún | Paidreacha, foilseacháin chráifeacha |
Siamsaíocht | Ros na Rún TG4, Iris Aniar RnaG |
Teicniúil | Treoracha i leith suiteáil bogearraí etc. |
Tuairimíocht | Ábhar Comhar, Feasta etc. |