Tha aithneachadh eintiteas ainmichte (NER) na phrìomh phàirt de ghiollachd cànain nàdarra (NLP) a chuidicheas le bhith ag aithneachadh agus a’ seòrsachadh mion-fhiosrachadh sònraichte taobh a-staigh meudan mòra de theacsa. Tha tagraidhean NER a’ toirt a-steach às-tharraing fiosrachaidh, geàrr-chunntas teacsa, agus mion-sgrùdadh faireachdainn, am measg feadhainn eile. Airson NER èifeachdach, tha feum air stòran-dàta eadar-mheasgte gus modalan ionnsachaidh innealan a thrèanadh.
Is e còig stòran-dàta stòr fosgailte cudromach airson NER:
- CONLL 2003: Fearann naidheachd
- CADEC: Fearann leighis
- WikiNEuRal: àrainn Wikipedia
- Notaichean 5: Diofar raointean
- BBN: Diofar raointean
Am measg nam buannachdan a tha aig na stòran-dàta seo tha:
- Ruigsinneachd: Tha iad an-asgaidh agus bidh iad a’ brosnachadh co-obrachadh
- Saibhreas dàta: Tha dàta eadar-mheasgte annta, ag àrdachadh coileanadh modail
- Taic Coimhearsnachd: Bidh iad gu tric a’ tighinn le coimhearsnachd luchd-cleachdaidh taiceil
- Cuidich Rannsachadh: Gu sònraichte feumail do luchd-rannsachaidh le goireasan cruinneachadh dàta cuibhrichte
Ach, tha iad cuideachd a 'tighinn le eas-bhuannachdan:
- Càileachd an dàta: Faodaidh mearachdan no claonadh a bhith annta
- Dìth sònrachaidh: Is dòcha nach bi iad freagarrach airson gnìomhan a dh’ fheumas dàta sònraichte
- Draghan mu thèarainteachd agus dìomhaireachd: Cunnartan co-cheangailte ri fiosrachadh mothachail
- Cumail suas: Is dòcha nach fhaigh iad ùrachaidhean cunbhalach
A dh’aindeoin nan eas-bhuannachdan a dh’ fhaodadh a bhith ann, tha àite deatamach aig stòran-dàta stòr fosgailte ann an adhartachadh NLP agus ionnsachadh innealan, gu sònraichte ann an raon aithneachadh eintiteas ainmichte.
Leugh an artaigil air fad an seo:
https://wikicatch.com/open-datasets-for-named-entity-recognition/