Anns na meadhanan-Wikicatch

Sealladh farsaing air 5 seataichean dàta aithneachaidh eintiteas ainmichte le tùs-fosgailte

Tha aithneachadh eintiteas ainmichte (NER) na phrìomh phàirt de ghiollachd cànain nàdarra (NLP) a chuidicheas le bhith ag aithneachadh agus a’ seòrsachadh mion-fhiosrachadh sònraichte taobh a-staigh meudan mòra de theacsa. Tha tagraidhean NER a’ toirt a-steach às-tharraing fiosrachaidh, geàrr-chunntas teacsa, agus mion-sgrùdadh faireachdainn, am measg feadhainn eile. Airson NER èifeachdach, tha feum air stòran-dàta eadar-mheasgte gus modalan ionnsachaidh innealan a thrèanadh.

Is e còig stòran-dàta stòr fosgailte cudromach airson NER:

  • CONLL 2003: Fearann ​​​​naidheachd
  • CADEC: Fearann ​​​​leighis
  • WikiNEuRal: àrainn Wikipedia
  • Notaichean 5: Diofar raointean
  • BBN: Diofar raointean

Am measg nam buannachdan a tha aig na stòran-dàta seo tha:

  • Ruigsinneachd: Tha iad an-asgaidh agus bidh iad a’ brosnachadh co-obrachadh
  • Saibhreas dàta: Tha dàta eadar-mheasgte annta, ag àrdachadh coileanadh modail
  • Taic Coimhearsnachd: Bidh iad gu tric a’ tighinn le coimhearsnachd luchd-cleachdaidh taiceil
  • Cuidich Rannsachadh: Gu sònraichte feumail do luchd-rannsachaidh le goireasan cruinneachadh dàta cuibhrichte

Ach, tha iad cuideachd a 'tighinn le eas-bhuannachdan:

  • Càileachd an dàta: Faodaidh mearachdan no claonadh a bhith annta
  • Dìth sònrachaidh: Is dòcha nach bi iad freagarrach airson gnìomhan a dh’ fheumas dàta sònraichte
  • Draghan mu thèarainteachd agus dìomhaireachd: Cunnartan co-cheangailte ri fiosrachadh mothachail
  • Cumail suas: Is dòcha nach fhaigh iad ùrachaidhean cunbhalach

A dh’aindeoin nan eas-bhuannachdan a dh’ fhaodadh a bhith ann, tha àite deatamach aig stòran-dàta stòr fosgailte ann an adhartachadh NLP agus ionnsachadh innealan, gu sònraichte ann an raon aithneachadh eintiteas ainmichte.

Leugh an artaigil air fad an seo:

https://wikicatch.com/open-datasets-for-named-entity-recognition/

sòisealta Sgaoil

Bruidhnidh sinn mun riatanas Dàta Trèanaidh AI agad an-diugh.