Tha saoghal a’ ghnìomhachais ag atharrachadh aig astar iongantach, ach a dh’ aindeoin sin chan eil an cruth-atharrachadh didseatach seo cha mhòr cho farsaing sa bu mhath leinn a bhith. Tha daoine fhathast a’ làimhseachadh sgrìobhainnean corporra nan obair làitheil, bho chorporra mòra gu gnìomhachasan beaga. Ged a tha tricead cleachdaidh air a dhol sìos gu mòr, cha deach a chuir air falbh gu tur. An àite a 'phròiseas ùine-caitheamh de sganadh sgrìobhainnean airson cleachdadh didseatach, a' cleachdadh as ùire OCR tha e cosg-èifeachdach agus ùineail.
Faodar an àrdachadh ann an cleachdadh aithne caractar optigeach a thoirt gu sònraichte air sgàth àrdachadh ann an cinneasachadh siostaman aithneachaidh fèin-ghluasadach. Mar thoradh air an sin, tha luach margaidh cruinneil teicneòlas OCR, air a phronnadh aig $ 8.93 billean ann an 2021, thathar an dùil gum fàs e aig CAGR de 15.4% eadar 2022 agus 2030.
Ach dè dìreach a th’ ann an teicneòlas OCR? Agus carson a tha e na inneal-atharrachaidh geama do ghnìomhachasan a tha a’ leasachadh mhodalan AI èifeachdach? Feuch sinn a-mach.
Dè a th ’ann an OCR?
Air neo air ainmeachadh mar aithneachadh teacsa, OCR no Aithneachadh Caractar Optigeach na phrògram a bhios a’ toirt a-mach dàta clò-bhuailte no sgrìobhte bho sgrìobhainnean a chaidh a sganadh, PDFan le ìomhaighean a-mhàin, agus notaichean làmh-sgrìobhte ann an cruth a ghabhas leughadh le inneal. Bidh am bathar-bog a’ toirt a-mach gach litir bhon ìomhaigh agus gan cur còmhla ann am faclan agus seantansan, mar sin ga dhèanamh furasta faighinn gu agus deasachadh nan sgrìobhainnean gu didseatach.
Dè a th’ ann an stòran-dàta stòr fosgailte?
Tha grunn àiteachan ann far a bheil comas mòr aig teicneòlas OCR a bhith air a chleachdadh. Am measg cuid de dh’àiteachan tha am port-adhair, foillseachadh eBook, sanasan, bancaichean, agus siostaman slabhraidh solair. Ach, airson na h-iarrtasan a bhith a’ frithealadh an adhbhair aca, feumaidh iad a bhith air an trèanadh a thaobh pròiseact sònraichte Stòran dàta Aithneachadh Caractaran Optigeach.
Tha èifeachdas an tagraidh gu mòr an urra ri càileachd an t-seata dàta agus an dòigh trèanaidh a tha na lùib. Ach, lorg didseatach càileachd agus dàta làmh-sgrìobhaidh tha e duilich leis an tagradh. Mar sin, bidh mòran chompanaidhean a’ cleachdadh stòran-dàta fosgailte no saor an-asgaidh an àite feadhainn seilbhe.
Buannachdan agus Dùbhlain Seataichean Dàta Stòr Fosgailte
Feumaidh gnìomhachasan na buannachdan agus na dùbhlain a chuir an aghaidh a chèile gus tuigsinn am feum iad dàta saor a chleachdadh airson na tagraidhean ML aca.
buannachdan
- Tha an dàta ri fhaighinn gu furasta. Mar thoradh air an dàta a tha ri fhaighinn, tha cosgais leasachadh an tagraidh air a lughdachadh gu mòr.
- Tha an ùine agus an oidhirp a thathar a’ cosg a’ cruinneachadh dàta airson an aplacaid air a lughdachadh gu mòr leis gu bheil an dàta ri fhaighinn gu furasta.
- Tha pailteas fhòraman coimhearsnachd no buidhnean cuideachaidh ann a chuidicheas le bhith ag ionnsachadh, ag atharrachadh agus a’ toirt an dàta as fheàrr.
- Is e aon de na prìomh bhuannachdan a tha aig an t-seata stòr-dàta fosgailte nach eil e a’ cur bacadh sam bith air gnàthachadh.
- Tha dàta Stòr Fosgailte ruigsinneach do chuid mhòr den t-sluagh, a’ dèanamh mion-sgrùdadh agus ùr-ghnàthachadh comasach às aonais cnapan-starra airgid.
dùbhlain
- Tha e duilich an dàta a tha sònraichte don phròiseact fhaighinn. A bharrachd air an sin, tha comas ann fiosrachadh a chall agus cleachdadh ceàrr den dàta a tha ri fhaighinn.
- Bheir togail dàta seilbh ùine, agus oidhirp agus tha e cosgail
- Ged a dh’ fhaodadh gum biodh e na b’ fhasa dàta fhaighinn, dh’ fhaodadh cosgais eòlais is anailis a bhith nas àirde na a’ chiad bhuannachd.
- Bidh luchd-leasachaidh eile cuideachd a’ cleachdadh an aon dàta gus tagraidhean a leasachadh.
- Tha na stòran-dàta sin gu math so-leònte ri briseadh tèarainteachd, prìobhaideachd agus cead.
22 Innealan Làmh-sgrìobhaidh & OCR as Fheàrr airson Ionnsachadh Inneal
Tha mòran de stòran-dàta stòr fosgailte rim faighinn airson leasachadh tagradh aithneachadh teacsa. Tha cuid de na 22 as fheàrr
Stòr-dàta NIST
Tha an NIST no an Institiud Nàiseanta Saidheans a’ tabhann cruinneachadh an-asgaidh de chòrr air 3600 sampall làmh-sgrìobhaidh le còrr air 810,000 ìomhaigh caractar
Stòr-dàta MNIST
Air tighinn bho Stòr-dàta Sònraichte NSIT 1 agus 3, tha stòr-dàta MNIST na chruinneachadh cruinn de 60,000 àireamh làmh-sgrìobhaidh airson an t-seata trèanaidh agus eisimpleirean 10,000 airson an t-seata deuchainn. Bidh an stòr-dàta stòr fosgailte seo a’ cuideachadh le bhith a’ trèanadh mhodalan gus pàtrain aithneachadh agus aig an aon àm a’ caitheamh nas lugha de ùine air ro-ghiollachd.
Dearbhadh Teacs
Stòr-dàta le còd fosgailte, tha timcheall air 500 ìomhaigh a-staigh agus a-muigh de bhùird shoidhnichean, truinnsearan dorais, lannan rabhaidh agus barrachd anns an stòr-dàta Text Detection.
Stanford OCR
Air fhoillseachadh le Stanford, tha an stòr-dàta saor-gu-chleachdadh seo na chruinneachadh fhaclan làmh-sgrìobhte le Buidheann Siostaman Cànain Spoken MIT.
Teacs Sealladh Sràide
Air a chruinneachadh bho ìomhaighean Google Street View, tha ìomhaighean lorg teacsa sa mhòr-chuid de bhùird agus de shoidhnichean ìre sràide anns an t-seata dàta seo.
Stòr-dàta Sgrìobhainnean
Tha an Stòr-dàta Sgrìobhainnean na chruinneachadh de 941 sgrìobhainnean làmh-sgrìobhte, a’ toirt a-steach clàran, foirmlean, dealbhan, diagraman, liostaichean, agus barrachd, bho 189 sgrìobhadairean.
Abairtean Matamataig
’S e stòr-dàta a th’ anns na Mathematics Expressions anns a bheil 101 samhlaidhean matamataigeach agus 10,000 abairtean.
Àireamhan Taighe Street View
Air a bhuain bho Google Street View, tha an Street View House Numbers seo na stòr-dàta anns a bheil 73257 àireamhan taigh-sràide.
Àrainneachd Nàdarra OCR
Tha OCR na h-Àrainneachd Nàdarra, na sheata dàta de faisg air 660 ìomhaigh air feadh an t-saoghail agus 5238 notaichean teacsa.
Abairtean Matamataig
Còrr is 10,000 abairt le 101+ samhlaidhean matamataigeach.
Caractaran Sìonach làmh-sgrìobhte
Stòr-dàta de 909,818 ìomhaighean caractar Sìneach làmh-sgrìobhte, co-ionann ri timcheall air 10 artaigilean naidheachdan.
Teacs clò-bhuailte Arabais
Faclair de 113,284 facal a’ cleachdadh 10 clòidean Arabach.
Teacs Beurla làmh-sgrìobhte
Teacs Beurla làmh-sgrìobhte air bòrd geal le còrr air 1700 inntrigeadh.
3000 dealbhan àrainneachd
3000 ìomhaigh bho dhiofar àrainneachdan, a’ toirt a-steach seallaidhean a-muigh agus a-staigh fo sholais eadar-dhealaichte.
Dàta chars74K
74,000 ìomhaigh de dh’ àireamhan Beurla is Cannadais.
Làmh-sgrìobhadh IAM (IAM)
Ann an stòr-dàta IAM tha 13,353 ìomhaigh teacsa làmh-sgrìobhte le 657 sgrìobhadairean bho Lancaster-Oslo/Bergen Corpus de Bheurla Bhreatainn.
FUNSD (Tuigse Foirm ann an Sgrìobhainnean air an sganadh le fuaim)
Tha FUNSD a’ toirt a-steach 199 foirmichean le notaichean le sganadh le coltas eadar-dhealaichte agus fuaimneach, dùbhlanach airson tuigse chruth.
Teacs OCR
Tha TextOCR a’ comharrachadh aithne teacsa air teacsa seallaidh cumadh neo-riaghailteach ann an ìomhaighean nàdarra.
Twitter 100k
Tha Twitter100k na stòr-dàta mòr airson lorg thar-mheadhanan fo stiùir lag.
SSIG-SegPlate - Segmentation Caracter Plate Cead (LPCS)
Bidh an dàta seo a’ measadh Segmentation Caracter Plate Cead (LPCS) le 101 ìomhaigh carbaid tron latha.
105,941 Ìomhaighean Seallaidhean Nàdarra OCR Dàta de 12 chànan
Tha an dàta a’ toirt a-steach 12 cànan (6 Àisianach, 6 Eòrpach) agus diofar sheallaidhean is ceàrnan nàdarra. Tha bogsaichean crìche ìre loidhne ann agus tar-sgrìobhaidhean teacsa. Tha e feumail airson gnìomhan OCR ioma-chànan.
Seata dàta ìomhaigh clàr-soidhne Innseanach
Anns an stòr-dàta tha ìomhaighean de shoidhnichean trafaic Innseanach airson an seòrsachadh agus an lorg, air an togail ann an diofar shuidheachaidhean tron latha, feasgar agus oidhche.
B’ iad sin cuid de na prìomh stòran-dàta fosgailte airson modalan ML a thrèanadh airson tagraidhean lorg teacsa. Le bhith a’ taghadh am fear a tha a rèir do fheumalachdan gnìomhachais is tagraidh dh’ fhaodadh sin ùine is oidhirp a thoirt. Ach, feumaidh tu na stòran-dàta seo fheuchainn mus co-dhùin thu air an fhear iomchaidh.
Gus do chuideachadh le bhith a’ gluasad air adhart gu tagradh lorg teacsa earbsach is èifeachdach tha Shaip - an solaraiche fuasglaidhean teicneòlais àrd-inbhe. Bidh sinn a’ luathachadh ar n-eòlas teignigeach gus a chruthachadh gnàthaichte, làn-leasaichte agus dàta trèanaidh OCR èifeachdach airson diofar phròiseactan teachdaiche. Gus ar comasan a thuigsinn gu h-iomlan, cuir fios thugainn an-diugh.