Innealan dàta làmh-sgrìobhaidh

Na 15 seataichean dàta làmh-sgrìobhaidh stòr fosgailte as fheàrr gus na modalan ML agad a thrèanadh

Tha saoghal a’ ghnìomhachais ag atharrachadh aig astar iongantach, ach a dh’ aindeoin sin chan eil an cruth-atharrachadh didseatach seo cha mhòr cho farsaing sa bu mhath leinn a bhith. Tha daoine fhathast a’ làimhseachadh sgrìobhainnean corporra nan obair làitheil, bho chorporra mòra gu gnìomhachasan beaga. Ged a tha tricead cleachdaidh air a dhol sìos gu mòr, cha deach a chuir air falbh gu tur. An àite a 'phròiseas ùine-caitheamh de sganadh sgrìobhainnean airson cleachdadh didseatach, a' cleachdadh as ùire OCR tha e cosg-èifeachdach agus ùineail.

Faodar an àrdachadh ann an cleachdadh aithne caractar optigeach a thoirt gu sònraichte air sgàth àrdachadh ann an cinneasachadh siostaman aithneachaidh fèin-ghluasadach. Mar thoradh air an sin, tha luach margaidh cruinneil teicneòlas OCR, air a phronnadh aig $ 8.93 billean ann an 2021, thathar an dùil gum fàs e aig CAGR de 15.4% eadar 2022 agus 2030.

Ach dè dìreach a th’ ann an teicneòlas OCR? Agus carson a tha e na inneal-atharrachaidh geama do ghnìomhachasan a tha a’ leasachadh mhodalan AI èifeachdach? Feuch sinn a-mach.

Dè a th ’ann an OCR?

Air neo air ainmeachadh mar aithneachadh teacsa, OCR no Aithneachadh Caractar Optigeach na phrògram a bhios a’ toirt a-mach dàta clò-bhuailte no sgrìobhte bho sgrìobhainnean a chaidh a sganadh, PDFan le ìomhaighean a-mhàin, agus notaichean làmh-sgrìobhte ann an cruth a ghabhas leughadh le inneal. Bidh am bathar-bog a’ toirt a-mach gach litir bhon ìomhaigh agus gan cur còmhla ann am faclan agus seantansan, mar sin ga dhèanamh furasta faighinn gu agus deasachadh nan sgrìobhainnean gu didseatach.

Dè a th’ ann an stòran-dàta stòr fosgailte?

Tha grunn àiteachan ann far a bheil comas mòr aig teicneòlas OCR a bhith air a chleachdadh. Am measg cuid de dh’àiteachan tha am port-adhair, foillseachadh eBook, sanasan, bancaichean, agus siostaman slabhraidh solair. Ach, airson na h-iarrtasan a bhith a’ frithealadh an adhbhair aca, feumaidh iad a bhith air an trèanadh a thaobh pròiseact sònraichte Stòran dàta Aithneachadh Caractaran Optigeach.

Tha èifeachdas an tagraidh gu mòr an urra ri càileachd an t-seata dàta agus an dòigh trèanaidh a tha na lùib. Ach, lorg didseatach càileachd agus dàta làmh-sgrìobhaidh tha e duilich leis an tagradh. Mar sin, bidh mòran chompanaidhean a’ cleachdadh stòran-dàta fosgailte no saor an-asgaidh an àite feadhainn seilbhe.

Buannachdan agus Dùbhlain Seataichean Dàta Stòr Fosgailte

Feumaidh gnìomhachasan na buannachdan agus na dùbhlain a chuir an aghaidh a chèile gus tuigsinn am feum iad dàta saor a chleachdadh airson na tagraidhean ML aca.

buannachdan

  • Tha an dàta ri fhaighinn gu furasta. Mar thoradh air an dàta a tha ri fhaighinn, tha cosgais leasachadh an tagraidh air a lughdachadh gu mòr.
  • Tha an ùine agus an oidhirp a thathar a’ cosg a’ cruinneachadh dàta airson an aplacaid air a lughdachadh gu mòr leis gu bheil an dàta ri fhaighinn gu furasta.
  • Tha pailteas fhòraman coimhearsnachd no buidhnean cuideachaidh ann a chuidicheas le bhith ag ionnsachadh, ag atharrachadh agus a’ toirt an dàta as fheàrr.
  • Is e aon de na prìomh bhuannachdan a tha aig an t-seata stòr-dàta fosgailte nach eil e a’ cur bacadh sam bith air gnàthachadh.
  •   Tha dàta Stòr Fosgailte ruigsinneach do chuid mhòr den t-sluagh, a’ dèanamh mion-sgrùdadh agus ùr-ghnàthachadh comasach às aonais cnapan-starra airgid.

dùbhlain

  • Tha e duilich an dàta a tha sònraichte don phròiseact fhaighinn. A bharrachd air an sin, tha comas ann fiosrachadh a chall agus cleachdadh ceàrr den dàta a tha ri fhaighinn.
  • Bheir togail dàta seilbh ùine, agus oidhirp agus tha e cosgail
  • Ged a dh’ fhaodadh gum biodh e na b’ fhasa dàta fhaighinn, dh’ fhaodadh cosgais eòlais is anailis a bhith nas àirde na a’ chiad bhuannachd.
  • Bidh luchd-leasachaidh eile cuideachd a’ cleachdadh an aon dàta gus tagraidhean a leasachadh.
  • Tha na stòran-dàta sin gu math so-leònte ri briseadh tèarainteachd, prìobhaideachd agus cead.

15 Innealan Làmh-sgrìobhaidh & OCR as Fheàrr airson Ionnsachadh Inneal

Stòran-dàta Open-Ocr

Tha mòran de stòran-dàta stòr fosgailte rim faighinn airson leasachadh tagradh aithneachadh teacsa. Tha cuid de na 15 as fheàrr

  1. Stòr-dàta ICDAR

    Tha stòr aig Co-labhairt Eadar-nàiseanta airson Mion-sgrùdadh agus Aithneachadh Sgrìobhainnean de 229 trèanadh agus 233 ìomhaigh deuchainn, còmhla ri notaichean. Bidh e ag obair mar shlat-tomhais airson measadh lorg teacsa.

  2. IIIT 5K-Word Dataset

    Air a thoirt bho sgrùdadh ìomhaighean Google, tha IIIT 5K-word na chruinneachadh de dh’ fhaclan bho chlàran-soidhne, clàran-cunntais, clàran àireamh, agus postairean. Tha ìomhaighean facal 5K air am bàrr ga fhàgail mar aon de na cruinneachaidhean as fharsainge de stòran-dàta aithneachadh teacsa a tha rim faighinn.

  3. Stòr-dàta NIST

    Tha an NIST no an Institiud Nàiseanta Saidheans a’ tabhann cruinneachadh an-asgaidh de chòrr air 3600 sampall làmh-sgrìobhaidh le còrr air 810,000 ìomhaigh caractar

  4. Stòr-dàta MNIST

    Air tighinn bho Stòr-dàta Sònraichte NSIT 1 agus 3, tha stòr-dàta MNIST na chruinneachadh cruinn de 60,000 àireamh làmh-sgrìobhaidh airson an t-seata trèanaidh agus eisimpleirean 10,000 airson an t-seata deuchainn. Bidh an stòr-dàta stòr fosgailte seo a’ cuideachadh le bhith a’ trèanadh mhodalan gus pàtrain aithneachadh agus aig an aon àm a’ caitheamh nas lugha de ùine air ro-ghiollachd.

  5. Dearbhadh Teacs

    Stòr-dàta le còd fosgailte, tha timcheall air 500 ìomhaigh a-staigh agus a-muigh de bhùird shoidhnichean, truinnsearan dorais, lannan rabhaidh agus barrachd anns an stòr-dàta Text Detection.

  6. Stanford OCR

    Air fhoillseachadh le Stanford, tha an stòr-dàta saor-gu-chleachdadh seo na chruinneachadh fhaclan làmh-sgrìobhte le Buidheann Siostaman Cànain Spoken MIT.

  7. DDI-100

    Rud eile ris an canar an Distorted Document Images Dataset, tha an DDI-100 na chruinneachadh de chòrr air 6658 duilleag de sgrìobhainnean le grunn phàtranan geoimeatrach agus saobhadh air an cur an sàs. A bharrachd air an sin, tha còrr air 100 ìomhaigh, aghaidhean choimheach stampa, aghaidhean choimheach teacsa, agus bogsaichean crìche aig an DDI-99870.

  8. Teacs-rathaid-1K

    Is e aon de na stòran-dàta as motha a chuidicheas le bhith a’ trèanadh mhodalan gus teacsa a lorg ann am bhideothan, tha 1 criomag bhidio anns an RoadText-1000K le notaichean teacsa bogsa crìche agus tar-sgrìobhadh an teacsa anns a h-uile frèam bhidio.

  9. MSRA-TD500

    A’ toirt a-steach trèanadh 300 agus 200 ìomhaigh teacsa; tha caractaran bho chànanan Sìonach is Beurla anns an MSRA-TD500 agus tha e air a chomharrachadh aig ìre na seantans.

  10. Seata-dàta MJSynth

    Air a thoirt seachad le Oilthigh Oxford, tha faisg air 9 millean ìomhaigh air an gineadh gu synthetigeach anns an t-seata fhaclan seo a’ còmhdach còrr air 90 mìle facal Beurla.

  11. Teacs Sealladh Sràide

    Air a chruinneachadh bho ìomhaighean Google Street View, tha ìomhaighean lorg teacsa sa mhòr-chuid de bhùird agus de shoidhnichean ìre sràide anns an t-seata dàta seo.

  12. Stòr-dàta Sgrìobhainnean

    Tha an Stòr-dàta Sgrìobhainnean na chruinneachadh de 941 sgrìobhainnean làmh-sgrìobhte, a’ toirt a-steach clàran, foirmlean, dealbhan, diagraman, liostaichean, agus barrachd, bho 189 sgrìobhadairean.

  13. Abairtean Matamataig

    ’S e stòr-dàta a th’ anns na Mathematics Expressions anns a bheil 101 samhlaidhean matamataigeach agus 10,000 abairtean.

  14. Àireamhan Taighe Street View

    Air a bhuain bho Google Street View, tha an Street View House Numbers seo na stòr-dàta anns a bheil 73257 àireamhan taigh-sràide.

  15. Àrainneachd Nàdarra OCR

    Tha OCR na h-Àrainneachd Nàdarra, na sheata dàta de faisg air 660 ìomhaigh air feadh an t-saoghail agus 5238 notaichean teacsa.

B’ iad sin cuid de na prìomh stòran-dàta fosgailte airson modalan ML a thrèanadh airson tagraidhean lorg teacsa. Le bhith a’ taghadh am fear a tha a rèir do fheumalachdan gnìomhachais is tagraidh dh’ fhaodadh sin ùine is oidhirp a thoirt. Ach, feumaidh tu na stòran-dàta seo fheuchainn mus co-dhùin thu air an fhear iomchaidh.

Gus do chuideachadh le bhith a’ gluasad air adhart gu tagradh lorg teacsa earbsach is èifeachdach tha Shaip - an solaraiche fuasglaidhean teicneòlais àrd-inbhe. Bidh sinn a’ luathachadh ar n-eòlas teignigeach gus a chruthachadh gnàthaichte, làn-leasaichte agus dàta trèanaidh OCR èifeachdach airson diofar phròiseactan teachdaiche. Gus ar comasan a thuigsinn gu h-iomlan, cuir fios thugainn an-diugh.

sòisealta Sgaoil