Innealan dàta làmh-sgrìobhaidh

22 Stòr-dàta OCR & Làmh-sgrìobhaidh as Fheàrr gus na modalan ML agad a thrèanadh

Tha saoghal a’ ghnìomhachais ag atharrachadh aig astar iongantach, ach a dh’ aindeoin sin chan eil an cruth-atharrachadh didseatach seo cha mhòr cho farsaing sa bu mhath leinn a bhith. Tha daoine fhathast a’ làimhseachadh sgrìobhainnean corporra nan obair làitheil, bho chorporra mòra gu gnìomhachasan beaga. Ged a tha tricead cleachdaidh air a dhol sìos gu mòr, cha deach a chuir air falbh gu tur. An àite a 'phròiseas ùine-caitheamh de sganadh sgrìobhainnean airson cleachdadh didseatach, a' cleachdadh as ùire OCR tha e cosg-èifeachdach agus ùineail.

Faodar an àrdachadh ann an cleachdadh aithne caractar optigeach a thoirt gu sònraichte air sgàth àrdachadh ann an cinneasachadh siostaman aithneachaidh fèin-ghluasadach. Mar thoradh air an sin, tha luach margaidh cruinneil teicneòlas OCR, air a phronnadh aig $ 8.93 billean ann an 2021, thathar an dùil gum fàs e aig CAGR de 15.4% eadar 2022 agus 2030.

Ach dè dìreach a th’ ann an teicneòlas OCR? Agus carson a tha e na inneal-atharrachaidh geama do ghnìomhachasan a tha a’ leasachadh mhodalan AI èifeachdach? Feuch sinn a-mach.

Dè a th ’ann an OCR?

Air neo air ainmeachadh mar aithneachadh teacsa, OCR no Aithneachadh Caractar Optigeach na phrògram a bhios a’ toirt a-mach dàta clò-bhuailte no sgrìobhte bho sgrìobhainnean a chaidh a sganadh, PDFan le ìomhaighean a-mhàin, agus notaichean làmh-sgrìobhte ann an cruth a ghabhas leughadh le inneal. Bidh am bathar-bog a’ toirt a-mach gach litir bhon ìomhaigh agus gan cur còmhla ann am faclan agus seantansan, mar sin ga dhèanamh furasta faighinn gu agus deasachadh nan sgrìobhainnean gu didseatach.

Dè a th’ ann an stòran-dàta stòr fosgailte?

Tha grunn àiteachan ann far a bheil comas mòr aig teicneòlas OCR a bhith air a chleachdadh. Am measg cuid de dh’àiteachan tha am port-adhair, foillseachadh eBook, sanasan, bancaichean, agus siostaman slabhraidh solair. Ach, airson na h-iarrtasan a bhith a’ frithealadh an adhbhair aca, feumaidh iad a bhith air an trèanadh a thaobh pròiseact sònraichte Stòran dàta Aithneachadh Caractaran Optigeach.

Tha èifeachdas an tagraidh gu mòr an urra ri càileachd an t-seata dàta agus an dòigh trèanaidh a tha na lùib. Ach, lorg didseatach càileachd agus dàta làmh-sgrìobhaidh tha e duilich leis an tagradh. Mar sin, bidh mòran chompanaidhean a’ cleachdadh stòran-dàta fosgailte no saor an-asgaidh an àite feadhainn seilbhe.

Buannachdan agus Dùbhlain Seataichean Dàta Stòr Fosgailte

Feumaidh gnìomhachasan na buannachdan agus na dùbhlain a chuir an aghaidh a chèile gus tuigsinn am feum iad dàta saor a chleachdadh airson na tagraidhean ML aca.

buannachdan

  • Tha an dàta ri fhaighinn gu furasta. Mar thoradh air an dàta a tha ri fhaighinn, tha cosgais leasachadh an tagraidh air a lughdachadh gu mòr.
  • Tha an ùine agus an oidhirp a thathar a’ cosg a’ cruinneachadh dàta airson an aplacaid air a lughdachadh gu mòr leis gu bheil an dàta ri fhaighinn gu furasta.
  • Tha pailteas fhòraman coimhearsnachd no buidhnean cuideachaidh ann a chuidicheas le bhith ag ionnsachadh, ag atharrachadh agus a’ toirt an dàta as fheàrr.
  • Is e aon de na prìomh bhuannachdan a tha aig an t-seata stòr-dàta fosgailte nach eil e a’ cur bacadh sam bith air gnàthachadh.
  •   Tha dàta Stòr Fosgailte ruigsinneach do chuid mhòr den t-sluagh, a’ dèanamh mion-sgrùdadh agus ùr-ghnàthachadh comasach às aonais cnapan-starra airgid.

dùbhlain

  • Tha e duilich an dàta a tha sònraichte don phròiseact fhaighinn. A bharrachd air an sin, tha comas ann fiosrachadh a chall agus cleachdadh ceàrr den dàta a tha ri fhaighinn.
  • Bheir togail dàta seilbh ùine, agus oidhirp agus tha e cosgail
  • Ged a dh’ fhaodadh gum biodh e na b’ fhasa dàta fhaighinn, dh’ fhaodadh cosgais eòlais is anailis a bhith nas àirde na a’ chiad bhuannachd.
  • Bidh luchd-leasachaidh eile cuideachd a’ cleachdadh an aon dàta gus tagraidhean a leasachadh.
  • Tha na stòran-dàta sin gu math so-leònte ri briseadh tèarainteachd, prìobhaideachd agus cead.

22 Innealan Làmh-sgrìobhaidh & OCR as Fheàrr airson Ionnsachadh Inneal

Stòr-dàta ocr stòr fosgailte

Tha mòran de stòran-dàta stòr fosgailte rim faighinn airson leasachadh tagradh aithneachadh teacsa. Tha cuid de na 22 as fheàrr

  1. Stòr-dàta NIST

    Tha an NIST no an Institiud Nàiseanta Saidheans a’ tabhann cruinneachadh an-asgaidh de chòrr air 3600 sampall làmh-sgrìobhaidh le còrr air 810,000 ìomhaigh caractar

  2. Stòr-dàta MNIST

    Air tighinn bho Stòr-dàta Sònraichte NSIT 1 agus 3, tha stòr-dàta MNIST na chruinneachadh cruinn de 60,000 àireamh làmh-sgrìobhaidh airson an t-seata trèanaidh agus eisimpleirean 10,000 airson an t-seata deuchainn. Bidh an stòr-dàta stòr fosgailte seo a’ cuideachadh le bhith a’ trèanadh mhodalan gus pàtrain aithneachadh agus aig an aon àm a’ caitheamh nas lugha de ùine air ro-ghiollachd.

  3. Dearbhadh Teacs

    Stòr-dàta le còd fosgailte, tha timcheall air 500 ìomhaigh a-staigh agus a-muigh de bhùird shoidhnichean, truinnsearan dorais, lannan rabhaidh agus barrachd anns an stòr-dàta Text Detection.

  4. Stanford OCR

    Air fhoillseachadh le Stanford, tha an stòr-dàta saor-gu-chleachdadh seo na chruinneachadh fhaclan làmh-sgrìobhte le Buidheann Siostaman Cànain Spoken MIT.

  5. Teacs Sealladh Sràide

    Air a chruinneachadh bho ìomhaighean Google Street View, tha ìomhaighean lorg teacsa sa mhòr-chuid de bhùird agus de shoidhnichean ìre sràide anns an t-seata dàta seo.

  6. Stòr-dàta Sgrìobhainnean

    Tha an Stòr-dàta Sgrìobhainnean na chruinneachadh de 941 sgrìobhainnean làmh-sgrìobhte, a’ toirt a-steach clàran, foirmlean, dealbhan, diagraman, liostaichean, agus barrachd, bho 189 sgrìobhadairean.

  7. Abairtean Matamataig

    ’S e stòr-dàta a th’ anns na Mathematics Expressions anns a bheil 101 samhlaidhean matamataigeach agus 10,000 abairtean.

  8. Àireamhan Taighe Street View

    Air a bhuain bho Google Street View, tha an Street View House Numbers seo na stòr-dàta anns a bheil 73257 àireamhan taigh-sràide.

  9. Àrainneachd Nàdarra OCR

    Tha OCR na h-Àrainneachd Nàdarra, na sheata dàta de faisg air 660 ìomhaigh air feadh an t-saoghail agus 5238 notaichean teacsa.

  10. Abairtean Matamataig

    Còrr is 10,000 abairt le 101+ samhlaidhean matamataigeach.

  11. Caractaran Sìonach làmh-sgrìobhte

    Stòr-dàta de 909,818 ìomhaighean caractar Sìneach làmh-sgrìobhte, co-ionann ri timcheall air 10 artaigilean naidheachdan.

  12. Teacs clò-bhuailte Arabais

    Faclair de 113,284 facal a’ cleachdadh 10 clòidean Arabach.

  13. Teacs Beurla làmh-sgrìobhte

    Teacs Beurla làmh-sgrìobhte air bòrd geal le còrr air 1700 inntrigeadh.

  14. 3000 dealbhan àrainneachd

    3000 ìomhaigh bho dhiofar àrainneachdan, a’ toirt a-steach seallaidhean a-muigh agus a-staigh fo sholais eadar-dhealaichte.

  15. Dàta chars74K

    74,000 ìomhaigh de dh’ àireamhan Beurla is Cannadais.

  16. Làmh-sgrìobhadh IAM (IAM)

    Ann an stòr-dàta IAM tha 13,353 ìomhaigh teacsa làmh-sgrìobhte le 657 sgrìobhadairean bho Lancaster-Oslo/Bergen Corpus de Bheurla Bhreatainn.

  17. FUNSD (Tuigse Foirm ann an Sgrìobhainnean air an sganadh le fuaim)

    Tha FUNSD a’ toirt a-steach 199 foirmichean le notaichean le sganadh le coltas eadar-dhealaichte agus fuaimneach, dùbhlanach airson tuigse chruth.

  18. Teacs OCR

    Tha TextOCR a’ comharrachadh aithne teacsa air teacsa seallaidh cumadh neo-riaghailteach ann an ìomhaighean nàdarra.

  19. Twitter 100k

    Tha Twitter100k na stòr-dàta mòr airson lorg thar-mheadhanan fo stiùir lag.

  20. SSIG-SegPlate - Segmentation Caracter Plate Cead (LPCS)

    Bidh an dàta seo a’ measadh Segmentation Caracter Plate Cead (LPCS) le 101 ìomhaigh carbaid tron ​​​​latha.

  21. 105,941 Ìomhaighean Seallaidhean Nàdarra OCR Dàta de 12 chànan

    Tha an dàta a’ toirt a-steach 12 cànan (6 Àisianach, 6 Eòrpach) agus diofar sheallaidhean is ceàrnan nàdarra. Tha bogsaichean crìche ìre loidhne ann agus tar-sgrìobhaidhean teacsa. Tha e feumail airson gnìomhan OCR ioma-chànan.

  22. Seata dàta ìomhaigh clàr-soidhne Innseanach

    Anns an stòr-dàta tha ìomhaighean de shoidhnichean trafaic Innseanach airson an seòrsachadh agus an lorg, air an togail ann an diofar shuidheachaidhean tron ​​​​latha, feasgar agus oidhche.

B’ iad sin cuid de na prìomh stòran-dàta fosgailte airson modalan ML a thrèanadh airson tagraidhean lorg teacsa. Le bhith a’ taghadh am fear a tha a rèir do fheumalachdan gnìomhachais is tagraidh dh’ fhaodadh sin ùine is oidhirp a thoirt. Ach, feumaidh tu na stòran-dàta seo fheuchainn mus co-dhùin thu air an fhear iomchaidh.

Gus do chuideachadh le bhith a’ gluasad air adhart gu tagradh lorg teacsa earbsach is èifeachdach tha Shaip - an solaraiche fuasglaidhean teicneòlais àrd-inbhe. Bidh sinn a’ luathachadh ar n-eòlas teignigeach gus a chruthachadh gnàthaichte, làn-leasaichte agus dàta trèanaidh OCR èifeachdach airson diofar phròiseactan teachdaiche. Gus ar comasan a thuigsinn gu h-iomlan, cuir fios thugainn an-diugh.

sòisealta Sgaoil