Tha saoghal a’ ghnìomhachais ag atharrachadh aig astar iongantach, ach a dh’ aindeoin sin chan eil an cruth-atharrachadh didseatach seo cha mhòr cho farsaing sa bu mhath leinn a bhith. Tha daoine fhathast a’ làimhseachadh sgrìobhainnean corporra nan obair làitheil, bho chorporra mòra gu gnìomhachasan beaga. Ged a tha tricead cleachdaidh air a dhol sìos gu mòr, cha deach a chuir air falbh gu tur. An àite a 'phròiseas ùine-caitheamh de sganadh sgrìobhainnean airson cleachdadh didseatach, a' cleachdadh as ùire OCR tha e cosg-èifeachdach agus ùineail.
Faodar an àrdachadh ann an cleachdadh aithne caractar optigeach a thoirt gu sònraichte air sgàth àrdachadh ann an cinneasachadh siostaman aithneachaidh fèin-ghluasadach. Mar thoradh air an sin, tha luach margaidh cruinneil teicneòlas OCR, air a phronnadh aig $ 8.93 billean ann an 2021, thathar an dùil gum fàs e aig CAGR de 15.4% eadar 2022 agus 2030.
Ach dè dìreach a th’ ann an teicneòlas OCR? Agus carson a tha e na inneal-atharrachaidh geama do ghnìomhachasan a tha a’ leasachadh mhodalan AI èifeachdach? Feuch sinn a-mach.
Dè a th ’ann an OCR?
Air neo air ainmeachadh mar aithneachadh teacsa, OCR no Aithneachadh Caractar Optigeach na phrògram a bhios a’ toirt a-mach dàta clò-bhuailte no sgrìobhte bho sgrìobhainnean a chaidh a sganadh, PDFan le ìomhaighean a-mhàin, agus notaichean làmh-sgrìobhte ann an cruth a ghabhas leughadh le inneal. Bidh am bathar-bog a’ toirt a-mach gach litir bhon ìomhaigh agus gan cur còmhla ann am faclan agus seantansan, mar sin ga dhèanamh furasta faighinn gu agus deasachadh nan sgrìobhainnean gu didseatach.
Dè a th’ ann an stòran-dàta stòr fosgailte?
Tha grunn àiteachan ann far a bheil comas mòr aig teicneòlas OCR a bhith air a chleachdadh. Am measg cuid de dh’àiteachan tha am port-adhair, foillseachadh eBook, sanasan, bancaichean, agus siostaman slabhraidh solair. Ach, airson na h-iarrtasan a bhith a’ frithealadh an adhbhair aca, feumaidh iad a bhith air an trèanadh a thaobh pròiseact sònraichte Stòran dàta Aithneachadh Caractaran Optigeach.
Tha èifeachdas an tagraidh gu mòr an urra ri càileachd an t-seata dàta agus an dòigh trèanaidh a tha na lùib. Ach, lorg didseatach càileachd agus dàta làmh-sgrìobhaidh tha e duilich leis an tagradh. Mar sin, bidh mòran chompanaidhean a’ cleachdadh stòran-dàta fosgailte no saor an-asgaidh an àite feadhainn seilbhe.
Buannachdan agus Dùbhlain Seataichean Dàta Stòr Fosgailte
Feumaidh gnìomhachasan na buannachdan agus na dùbhlain a chuir an aghaidh a chèile gus tuigsinn am feum iad dàta saor a chleachdadh airson na tagraidhean ML aca.
buannachdan
- Tha an dàta ri fhaighinn gu furasta. Mar thoradh air an dàta a tha ri fhaighinn, tha cosgais leasachadh an tagraidh air a lughdachadh gu mòr.
- Tha an ùine agus an oidhirp a thathar a’ cosg a’ cruinneachadh dàta airson an aplacaid air a lughdachadh gu mòr leis gu bheil an dàta ri fhaighinn gu furasta.
- Tha pailteas fhòraman coimhearsnachd no buidhnean cuideachaidh ann a chuidicheas le bhith ag ionnsachadh, ag atharrachadh agus a’ toirt an dàta as fheàrr.
- Is e aon de na prìomh bhuannachdan a tha aig an t-seata stòr-dàta fosgailte nach eil e a’ cur bacadh sam bith air gnàthachadh.
- Tha dàta Stòr Fosgailte ruigsinneach do chuid mhòr den t-sluagh, a’ dèanamh mion-sgrùdadh agus ùr-ghnàthachadh comasach às aonais cnapan-starra airgid.
dùbhlain
- Tha e duilich an dàta a tha sònraichte don phròiseact fhaighinn. A bharrachd air an sin, tha comas ann fiosrachadh a chall agus cleachdadh ceàrr den dàta a tha ri fhaighinn.
- Bheir togail dàta seilbh ùine, agus oidhirp agus tha e cosgail
- Ged a dh’ fhaodadh gum biodh e na b’ fhasa dàta fhaighinn, dh’ fhaodadh cosgais eòlais is anailis a bhith nas àirde na a’ chiad bhuannachd.
- Bidh luchd-leasachaidh eile cuideachd a’ cleachdadh an aon dàta gus tagraidhean a leasachadh.
- Tha na stòran-dàta sin gu math so-leònte ri briseadh tèarainteachd, prìobhaideachd agus cead.
Dèan liosta de dhiofar stòran-dàta fosgailte airson OCR
Tha mòran de stòran-dàta stòr fosgailte rim faighinn airson leasachadh tagradh aithneachadh teacsa. Tha cuid de na 15 as fheàrr
Stòr-dàta ICDAR
Tha stòr aig Co-labhairt Eadar-nàiseanta airson Mion-sgrùdadh agus Aithneachadh Sgrìobhainnean de 229 trèanadh agus 233 ìomhaigh deuchainn, còmhla ri notaichean. Bidh e ag obair mar shlat-tomhais airson measadh lorg teacsa.
IIIT 5K-Word Dataset
Air a thoirt bho sgrùdadh ìomhaighean Google, tha IIIT 5K-word na chruinneachadh de dh’ fhaclan bho chlàran-soidhne, clàran-cunntais, clàran àireamh, agus postairean. Tha ìomhaighean facal 5K air am bàrr ga fhàgail mar aon de na cruinneachaidhean as fharsainge de stòran-dàta aithneachadh teacsa a tha rim faighinn.
Stòr-dàta NIST
Tha an NIST no an Institiud Nàiseanta Saidheans a’ tabhann cruinneachadh an-asgaidh de chòrr air 3600 sampall làmh-sgrìobhaidh le còrr air 810,000 ìomhaigh caractar
Stòr-dàta MNIST
Air tighinn bho Stòr-dàta Sònraichte NSIT 1 agus 3, tha stòr-dàta MNIST na chruinneachadh cruinn de 60,000 àireamh làmh-sgrìobhaidh airson an t-seata trèanaidh agus eisimpleirean 10,000 airson an t-seata deuchainn. Bidh an stòr-dàta stòr fosgailte seo a’ cuideachadh le bhith a’ trèanadh mhodalan gus pàtrain aithneachadh agus aig an aon àm a’ caitheamh nas lugha de ùine air ro-ghiollachd.
Dearbhadh Teacs
Stòr-dàta le còd fosgailte, tha timcheall air 500 ìomhaigh a-staigh agus a-muigh de bhùird shoidhnichean, truinnsearan dorais, lannan rabhaidh agus barrachd anns an stòr-dàta Text Detection.
Stanford OCR
Air fhoillseachadh le Stanford, tha an stòr-dàta saor-gu-chleachdadh seo na chruinneachadh fhaclan làmh-sgrìobhte le Buidheann Siostaman Cànain Spoken MIT.
DDI-100
Rud eile ris an canar an Distorted Document Images Dataset, tha an DDI-100 na chruinneachadh de chòrr air 6658 duilleag de sgrìobhainnean le grunn phàtranan geoimeatrach agus saobhadh air an cur an sàs. A bharrachd air an sin, tha còrr air 100 ìomhaigh, aghaidhean choimheach stampa, aghaidhean choimheach teacsa, agus bogsaichean crìche aig an DDI-99870.
Teacs-rathaid-1K
Is e aon de na stòran-dàta as motha a chuidicheas le bhith a’ trèanadh mhodalan gus teacsa a lorg ann am bhideothan, tha 1 criomag bhidio anns an RoadText-1000K le notaichean teacsa bogsa crìche agus tar-sgrìobhadh an teacsa anns a h-uile frèam bhidio.
MSRA-TD500
A’ toirt a-steach trèanadh 300 agus 200 ìomhaigh teacsa; tha caractaran bho chànanan Sìonach is Beurla anns an MSRA-TD500 agus tha e air a chomharrachadh aig ìre na seantans.
Seata-dàta MJSynth
Air a thoirt seachad le Oilthigh Oxford, tha faisg air 9 millean ìomhaigh air an gineadh gu synthetigeach anns an t-seata fhaclan seo a’ còmhdach còrr air 90 mìle facal Beurla.
Teacs Sealladh Sràide
Air a chruinneachadh bho ìomhaighean Google Street View, tha ìomhaighean lorg teacsa sa mhòr-chuid de bhùird agus de shoidhnichean ìre sràide anns an t-seata dàta seo.
Stòr-dàta Sgrìobhainnean
Tha an Stòr-dàta Sgrìobhainnean na chruinneachadh de 941 sgrìobhainnean làmh-sgrìobhte, a’ toirt a-steach clàran, foirmlean, dealbhan, diagraman, liostaichean, agus barrachd, bho 189 sgrìobhadairean.
Abairtean Matamataig
’S e stòr-dàta a th’ anns na Mathematics Expressions anns a bheil 101 samhlaidhean matamataigeach agus 10,000 abairtean.
Àireamhan Taighe Street View
Air a bhuain bho Google Street View, tha an Street View House Numbers seo na stòr-dàta anns a bheil 73257 àireamhan taigh-sràide.
Àrainneachd Nàdarra OCR
Tha OCR na h-Àrainneachd Nàdarra, na sheata dàta de faisg air 660 ìomhaigh air feadh an t-saoghail agus 5238 notaichean teacsa.
B’ iad sin cuid de na prìomh stòran-dàta fosgailte airson modalan ML a thrèanadh airson tagraidhean lorg teacsa. Le bhith a’ taghadh am fear a tha a rèir do fheumalachdan gnìomhachais is tagraidh dh’ fhaodadh sin ùine is oidhirp a thoirt. Ach, feumaidh tu na stòran-dàta seo fheuchainn mus co-dhùin thu air an fhear iomchaidh.
Gus do chuideachadh le bhith a’ gluasad air adhart gu tagradh lorg teacsa earbsach is èifeachdach tha Shaip - an solaraiche fuasglaidhean teicneòlais àrd-inbhe. Bidh sinn a’ luathachadh ar n-eòlas teignigeach gus a chruthachadh gnàthaichte, làn-leasaichte agus dàta trèanaidh OCR èifeachdach airson diofar phròiseactan teachdaiche. Gus ar comasan a thuigsinn gu h-iomlan, cuir fios thugainn an-diugh.