Taispeánann an feidhmchlár seo an dóigh chun leabuithe focal a úsáid chun focail chosúla a aimsiú. Is ionann focail chosúla anseo agus focail a thagann chun cinn sna comhthéacsanna céanna i gCorpas Náisiúnta na Gaeilge.
Leabuithe focal le híoslódáil
-
Leabuithe focalÍoslódáil
word2vec
cng-word2vec.vec.zip
-
Leabuithe focalÍoslódáil
fasttext
cng-fasttext.vec.zip
- Comhaid téacs spás-mharcáilte iad seo, i bhformáid caighdeánach
word2vec
, comhbhrúite le ZIP. - Ar an chéad líne, luaitear líon na bhfocal agus líon na dtoisí (100).
- Ar gach líne eile ina dhiaidh sin, luaitear an focal sa chéad cholún, agus tugtar luachanna an veicteora sna 100 colún ina dhaidh sin.
- Tá na focail ordaithe de réir minicíochta, na focail is minice chun tosaigh.
- Nóta: Cé go bhfuil na leabuithe seo i bhformáid ar a dtugtar “formáid
word2vec
”, fuarthas iad le dhá algartam éagsúla meaisínfhoghlama, an chéad cheann le halgartamword2vec
agus an dara ceann le halgartamfasttext
, mar atá an dá cheann acu curtha i bhfeidhm sa ríomhchlár Gensim.
Sampla úsáide
Taispeánann an sampla cóid seo conas na leabuithe focal a lódáil agus conas leas abhaint astu
leis an teanga ríomhchlárúcháin Python
agus an ríomhchlár Gensim.
import gensim
# lódáil na veicteoirí:
wv = gensim.models.KeyedVectors.load_word2vec_format('cng-fasttext.vec', binary=False, limit=100000)
# aimsigh na deich bhfocal is cosúla le 'teach':
similars = wv.most_similar('teach', topn=10)
for similar in similars:
print(similar)
Aschur:
('tigh', 0.9031928181648254)
('seanteach', 0.773318350315094)
('mbaile', 0.7576225996017456)
('tigín', 0.753011167049408)
('séipéal', 0.7515964508056641)
('teachín', 0.7445628643035889)
('pub', 0.7366455793380737)
('scioból', 0.7314869165420532)
('siopa', 0.7245514988899231)
('bhothán', 0.7238678336143494)