Eolas Faoin suíomh seo

Eolas faoin tionscadal

Is tionscadal é seo le mórchorpas náisiúnta den Ghaeilge chomhaimseartha a fhorbairt ina bhfuil meascán d’ábhar scríofa agus ábhar labhartha. Tá fochorpais agus sainchorpais ghaolmhara eile á n-óstáil ar an suíomh a bheidh ina acmhainn lárnach don taighde corpasbhunaithe ar an nGaeilge.

Grúpa taighde Gaois, Fiontar & Scoil na Gaeilge, DCU, atá ag reáchtáil an tionscadail. Tá an tionscadal á mhaoiniú don tréimhse 2022-2025 ag an Roinn Turasóireachta, Cultúir, Ealaíon, Gaeltachta, Spóirt agus Meán, le tacaíocht ón gCrannchur Náisiúnta.

Cad is corpas ann?

Is cnuasach mór téacsanna é corpas a úsáidtear ar mhaithe le taighde teangeolaíochta a dhéanamh. Is féidir cineálacha éagsúla téacs a áireamh i gcorpas amhail leabhair, ailt nuachta, téacsanna ón idirlíon (e.g. postálacha ó na meáin shóisialta), tras-scríbhinní ar ábhar urlabhra etc. Is féidir le corpas a bheith cothromaithe nó neamhchothromaithe. Is éard is corpas neamhchothromaithe ann ná bailiúchán téacsanna a cuireadh le chéile ar bhealach fánach gan iarracht a dhéanamh iad a bheith ionadaíoch ar an teanga ina hiomláine. Ní drochrud é sin i gcomhthéacsanna áirithe (agus is corpais neamhchothromaithe iad Corpas na Gaeilge Labhartha agus Corpas na Gaeilge Scríofa), ach d'fhéadfadh sé ró-ionadaíocht a dhéanamh ar chineálacha áirithe téacs agus gannionadaíocht a dhéanamh ar chinn eile. Os a choinne sin, is iarracht é corpas cothromaithe chun léiriú cruinn tomhaiste a thabhairt ar an sprioctheanga trí chéile, agus cuimsíonn sé raon leathan meán, seánraí agus foinsí atá curtha i gcomhréir lena chéile ar bhealach atá ag teacht, a bheag nó a mhór, lena ndáileadh sa teanga féin. Chun a leithéid de chorpas a chruthú ní mór samplaí ionadaíocha de chineálacha éagsúla téacs (labhartha, scríofa, idirlíon) a áireamh ann agus iad a bheith scaipthe thar raon leathan seánraí (e.g. nuacht, litríocht, reiligiún, dlí). Sin é atá déanta i gcás Chorpas Náisiúnta na Gaeilge, príomhchorpas an tionscadail seo.

Céimeanna an tionscadail

Bailíodh breis agus 150 milliún focal Gaeilge, ó bhreis agus 170,000 doiciméad, mar chuid den tionscadal. Socraíodh comhaontú cóipchirt le húinéirí na dtéacsanna éagsúla, nuair ba ghá sin, ar an tuiscint nach dtaispeánfaí ach sleachta gearra as téacs ar bith sna torthaí cuardaigh. Ba ghá na sonraí sin go léir a phróiseáil ansin chun iad a ghlanadh is a fhormáidiú sula bhféadfaí iad a chur leis an gcorpas.

Rinneadh clibeáil de réir ranna cainte ar gach focal den chorpas ansin. Is próiseas uathoibrithe é an chlibeáil le hábhar corpais a scagadh agus eolas ábhartha (eolas gramadaí sa chás seo) a chur le míreanna áirithe. Mar thoradh ar an bpróiseas sin, is féidir idirdhealú a dhéanamh sa chuardach idir ‘leis’ sa chiall ‘freisin’ agus ‘leis’ mar réamhfhocal, mar shampla, gan trácht ar bhríonna eile an fhocail sin. Ní hamháin sin, ach is féidir cuardaigh chasta a dhéanamh den chineál “tabhair dom samplaí den bhriathar ‘cuir’ roimh réamhfhocal”, rud a ligfidh don teagascóir nó don teangeolaí, cuir i gcás, liosta breá samplaí a chur le chéile.

Ar deireadh thiar, ba ghá cinneadh a dhéanamh maidir leis an mbealach is fearr chun na sonraí uile seo a chur i láthair an phobail. Príomhsprioc na hoibre ab ea Corpas Náisiúnta na Gaeilge, corpas cothromaithe a bheadh ionadaíoch ar an nGaeilge chomhaimseartha. Tuigeadh freisin, áfach, gur mhaith le húsáideoirí áirithe díriú ar ábhar urlabhra amháin agus ba chuige sin Corpas na Gaeilge Labhartha. Acmhainn chun pátrúin agus claontaí a aimsiú thar am is ea Corpas Monatóireachta na Gaeilge, agus cuirfear leis sin ar bhonn bliantúil feasta lena choinneáil cothrom le dáta. Ar deireadh, aithníodh go bhfuil líon dílis úsáideoirí ag Corpas na Gaeilge Comhaimseartha a bhíonn ag lorg samplaí de 'cheartúsáid' nó 'gnáthúsáid' na Gaeilge scríofa. Comharba ar an acmhainn sin is ea Corpas na Gaeilge Scríofa a bhfuil líon focal níos mó ann agus a bhfuil feidhmiúlacht chuardaigh i bhfad níos cumhachtaí aige ná mar a bhí a réamhtheachtaí. Tá tuilleadh eolais faoi na ceithre chorpas le fáil sna leathanaigh eolais seo.

Dearadh na hacmhainní corpais atá ar an suíomh seo sa dóigh is go mbeadh comhéadan glan sothuigthe ann don ghnáthúsáideoir atá ag iarraidh cuardach simplí a dhéanamh mar aon le bealach isteach níos casta a bheith ar fáil don saineolaí, ceann a chuireann ar chumas an duine sin fiosrúcháin shonracha a dhéanamh. Tá an comhéadan go hiomlán dátheangach agus tá sé ar fáil do chách, gan clárú ná síntiús a bheith i gceist. Tá an teicneolaíocht a chuireann ar chumas an úsáideora na téacsanna a chuardach agus a cheistiú bunaithe ar NoSketchEngine agus NoSketchEngine Docker.

Inrochtaineacht

Rinneadh gach iarracht chun an suíomh seo a dhearadh agus a thógáil le go mbeadh gach duine in ann leas iomlán a bhaint as, beag beann ar chumas. Tógadh an suíomh de réir chaighdeáin WCAG 2.0 AAA, caighdeáin idirnáisiúnta inrochtaineachta a d'eisigh an World Wide Web Consortium (W3C).

Moltar duit brabhsálaí nua-aimseartha a úsáid leis an eispéireas is fearr agus is féidir a bhaint amach ar an suíomh seo. Is féidir corpas.ie a úsáid agus Javascript díchumasaithe sa bhrabhsálaí.

Más dóigh leat nach bhfuil cuid áirithe den suíomh iomlán inrochtana, nó go bhféadfaí gné éigin d'eispéireas úsáideoirí a fheabhsú, bheimis buíoch díot ach é seo a chur ar ár súile dúinn trí ríomhphost a sheoladh chuig gaois@dcu.ie.

Eolas cosanta sonraí

Baineann an t-eolas seo leis an suíomh gréasáin poiblí corpas.ie.

Cé na sonraí úsáide a bhailímid

Bailímid sonraí úsáide áirithe le cabhair seirbhísí mar Plausible. Úsáidimid Plausible chun eolas a thaifeadadh mar gheall ar cad as a dtagann ár gcuid úsáideoirí agus cad a dhéanann siad agus iad ar an suíomh. Bailíonn agus stórálann Plausible sonraí teicniúla faoin mbrabhsálaí agus faoin ríomhaire a úsáidtear chun cuairt a thabhairt ar an suíomh. Úsáidtear fianán chun eolas a stóráil faoi rogha teanga an úsáideora. Ní bhíonn an fianán nasctha le sonraí pearsanta ar bith.

Conas a úsáidimid na sonraí úsáide seo

Usáidimid na sonraí bailithe ag Plausible chun tuairiscí comhiomlánaithe a chruthú ar líon, suíomh agus gníomhaíocht ár n-úsáideoirí. Cuireann na tuairiscí seo bonn eolais faoinár bpleananna forbartha don todhchaí. Ní sonraí pearsanta na sonraí seo, de réir shainmhíniú GDPR an AE, agus ní chuireann na sonraí seo ar ár gcumas úsáideoirí aonair a shainaithint.

Coimeádaimid an ceart againn féin méadracht úsáide chomhiomlánaithe a thuairisciú agus/nó a fhoilsiú.

Cá fhad a stórálaimid na sonraí úsáide seo

Ós rud é go bhfuil na sonraí seo anaithnidithe, stórálaimid go deo iad. Ligeann seo dúinn forbairt ár mbonn úsáideoirí thar shaolré an tionscadail a rianú.

Cé na sonraí cuardaigh a bhailímid

Gach uair a chuardaíonn tú an suíomh, stórálaimid na sonraí seo a leanas:

  1. Céard dó a chuardaigh tú;
  2. Cathain a rinne tú an cuardach;
  3. Cé na torthaí a fuair tú;
  4. Cá fhad a thóg an cuardach;
  5. Seoladh IP do ghléis.

Cén úsáid a bhainimid as na sonraí cuardaigh seo

An miosúr is fearr ar rath ár dtionscadail is ea comhaireamh na gcuardach a dhéanann úsáideoirí ár suímh. Anuas air sin, úsáidimid 1–4 chun cuidiú linn monatóireacht a dhéanamh ar ár bhfeidhmíocht agus chun ár seirbhís a fheabhsú. Mar shampla, má thugaimid faoi deara go bhfuil téarma cuardaigh faoi leith ag cruthú fadhbanna dár gcóras, féachfaimid le réiteach a chur i bhfeidhm. Nó má thugaimid faoi deara go bhfuil gach cuardach rómhall, fiosróimid an gá rud éigin a optamú nó an bhfuil níos mó cumhachta ríomhaireachta de dhíth ar ár gcuid seirbhísí.

Teastaíonn 5 (i.e. ‘Seoladh IP do ghléis’) chun a dheimhniú go bhfuil an cuardach á dhéanamh ag duine seachas ag ríomhchlár ar nós scríobaire gréasáin. Mar shampla, má thugaimid faoi deara go bhfuil líon mór cuardach á dhéanamh ag seoladh IP faoi leith, is féidir linn na cuardaigh sin a chur as an áireamh ónár gcuid staitisticí cuardaigh, má mheastar gur gá. Ní úsáidimid na sonraí seo le húsáideoirí aonair a aithint riamh.

Coimeádaimid an ceart againn féin sonraí cuardaigh comhiomlánaithe a thuairisciú agus/nó a fhoilsiú.

Cá fhad a stórálaimid na sonraí cuardaigh seo

Ós rud é nach sonraí pearsanta atá i 1–4, stórálaimid go deo iad. Scriosaimid seoltaí IP atá comhcheangailte le cuardaigh atá níos mó ná bliain d’aois ar an gcéad lá de gach mí féilire.

Toiliú

Nuair a théann tú isteach inár suíomh gréasáin toilíonn tú seasamh le gach polasaí agus cleachtas atá leagtha amach ar an leathanach seo.

Teagmháil

Má tá aon cheist agat maidir leis an bpolasaí seo is féidir dul i dteagmháil linn ag gaois@dcu.ie.

Teagmháil