AI còmhraidh: Aithneachadh cainnt fèin-ghluasadach
Còrr is 8k uairean claisneachd air an cruinneachadh, 800 uair air an tar-sgrìobhadh airson teicneòlas guth ioma-chànanach
Ro-ràdh
Bha feum aig na h-Innseachan air àrd-ùrlar a tha ag amas air cruthachadh stòran-dàta ioma-chànanach agus fuasglaidhean teicneòlas cànain stèidhichte air AI gus seirbheisean didseatach a thoirt seachad ann an cànanan Innseanach. Gus an iomairt seo a chuir air bhog, chaidh an Client ann an com-pàirteachas le Shaip gus cànan Innseanach a chruinneachadh, agus ath-sgrìobhadh gus modalan cainnt ioma-chànanach a thogail.
volume
dùbhlain
Gus an neach-dèiligidh a chuideachadh leis a’ mhapa-rathaid cainnt Teicneòlas Òraid aca airson cànanan Innseanach, dh’ fheumadh an sgioba meudan mòra de dhàta trèanaidh fhaighinn, a roinn agus ath-sgrìobhadh gus modal AI a thogail. B’ iad riatanasan deatamach an neach-dèiligidh:
dàta Collection
- Faigh 8000 uair de dhàta trèanaidh bho àiteachan iomallach anns na h-Innseachan
- An solaraiche airson òraid gun spionnadh a chruinneachadh bho Bhuidhnean Aois 20-70 bliadhna
- Dèan cinnteach gum bi measgachadh eadar-mheasgte de luchd-labhairt ann a rèir aois, gnè, foghlam agus dualchainntean
- Bidh gach clàradh claisneachd co-dhiù 16kHz le 16 pìosan / sampall.
Tar-sgrìobhadh dàta
Lean stiùiridhean tar-sgrìobhaidh mionaideach timcheall air Caractaran agus Samhlaidhean Sònraichte, Litreachadh agus Gràmar, Calpa, Giorrachaidhean, Briseadh, Litrichean Labhraidh Aonair, Àireamhan, Puingean, Acronyms agus Tòiseachaidhean, Òraid Disfluentach, Òraid do-thuigsinn, Cànanan nach eil air an Targaid, Neo-labhairt
Sgrùdadh Càileachd & Fios air ais
A h-uile clàr ri dhol tro mheasadh càileachd agus dearbhadh, dìreach clàran cainnt dearbhte ri lìbhrigeadh
Solution
Leis an tuigse dhomhainn a th’ againn air AI còmhraidh, chuidich sinn an teachdaiche a’ cruinneachadh, ag ath-sgrìobhadh an dàta claisneachd le sgioba de luchd-cruinneachaidh eòlach, luchd-cànanais agus luchd-notaichean gus corpas mòr de dhàta claisneachd a thogail bho phàirtean iomallach de na h-Innseachan.
Bha farsaingeachd na h-obrach airson Shaip a’ toirt a-steach ach cha robh e cuingealaichte ri bhith a’ faighinn meudan mòra de dhàta trèanaidh claisneachd, ag ath-sgrìobhadh an dàta agus a’ lìbhrigeadh faidhlichean JSON co-fhreagarrach anns a bheil am meata-dàta [airson an dà chuid luchd-labhairt agus ath-sgrìobhaidhean. Airson gach neach-labhairt, tha am meata-dàta a’ toirt a-steach ID Neach-labhairt gun urra, mion-fhiosrachadh inneal, fiosrachadh deamografach leithid gnè, aois, agus foghlam, còmhla ris a’ chòd-pin aca, inbhe sòisio-eaconamach, cànanan air am bruidhinn, agus clàr de fhad-beatha am beatha. Airson a h-uile tar-sgrìobhaiche, tha an dàta a’ toirt a-steach ID Ath-sgrìobhaidh gun urra, mion-fhiosrachadh deamografach coltach ris an luchd-labhairt, an ùine tar-sgrìobhaidh aca, agus briseadh sìos mionaideach de chànanan as urrainn dhaibh leughadh, sgrìobhadh agus bruidhinn.
Shaip air a chruinneachadh 8000 uairean de dhàta claisneachd / òraid gun spionnadh aig sgèile agus ath-sgrìobhadh 800 uairean fhad ‘s a chumas iad na h-ìrean càileachd a tha a dhìth gus teicneòlas cainnt a thrèanadh airson pròiseactan iom-fhillte. Chaidh Foirm Cead Sònraichte a thoirt bho gach com-pàirtiche. Bha an òraid / gun spionnadh a chaidh a chruinneachadh stèidhichte air ìomhaighean a thug an Oilthigh seachad. As 3500 dealbhan 1000 tha gnèitheach agus 2500 Tha dealbhan a' sealltainn diofar raointean leithid stèiseanan-trèana, margaidhean, aimsir is eile.
dàta Collection
Stàite | Sgìrean | Fuaim uairean | tar-sgrìobhadh (Uairean) |
Bihar | Saran, Champaran an Ear, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui | 2000 | 200 |
Uttarpradesh | Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun | 1000 | 100 |
Rajasthan | Nagaur, Churu | 200 | 20 |
Uttarakhand | Tehri Garhwal, Uttarkashi | 200 | 20 |
Chhattisgarh | Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma | 1000 | 100 |
Bengal an Iar | Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, 24 Parganas a Tuath, Dakshin Dinajpur | 800 | 80 |
Jharkhand | Sahebganj, Jamtara | 200 | 20 |
AP | Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam | 600 | 60 |
Telangana | Karimnagar, Nalgonda | 200 | 20 |
Goa | Goa Tuath + Deas | 100 | 10 |
Karnataka | Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar | 1000 | 100 |
Maharashtra | Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur | 700 | 70 |
iomlan | 8000 | 800 |
Stiùireadh Coitcheann
Inneal a 'Chlàir
- Fuaim aig 16 kHz, 16 pìosan / sampall.
- Sianal singilte.
- Fuaim amh gun transcoding.
an stoidhle
- cainnt spontaneous.
- Seantansan stèidhichte air ìomhaighean a thug an Oilthigh seachad. A-mach à 3500 ìomhaigh, tha 1000 coitcheann agus 2500 a' buntainn ri cultar sgìreil, fèisean, is eile.
Cùl-fhiosrachadh Clàraidh
- Air a chlàradh ann an àrainneachd shàmhach, gun mhac-samhail.
- Cha bhith dragh sam bith air fòn cliste (crith no brathan) aig àm clàraidh.
- Chan eil saobhadh sam bith mar bearradh no buaidhean fad-raoin.
- Vibration bho fòn neo-iomchaidh; faodar crith a-muigh fhulang ma tha an fhuaim soilleir.
Sònrachadh neach-labhairt
- Raon aoise bho 20-70 bliadhna le cuairteachadh gnè cothromach gach sgìre.
- Co-dhiù 400 neach-labhairt dùthchasach anns gach sgìre.
- Bu chòir do luchd-labhairt an cànan dachaigh / dualchainnt a chleachdadh.
- Foirmean cead riatanach airson a h-uile com-pàirtiche.
Sgrùdadh Càileachd & Dearbhadh Càileachd Critigeach
Tha am pròiseas QA a’ toirt prìomhachas do ghealltanas càileachd airson clàraidhean claisneachd agus tar-sgrìobhaidhean. Bidh inbhean claisneachd a’ cuimseachadh air sàmhchair mionaideach, fad earrannan, soilleireachd aon neach-labhairt, agus meata-dàta mionaideach a’ toirt a-steach aois agus inbhe sòisio-eaconamach. Tha slatan-tomhais tar-sgrìobhaidh a’ cur cuideam air cruinneas tagaichean, fìrinn fhaclan, agus mion-fhiosrachadh ceart mu earrannan. Tha an slat-tomhais gabhail ag ràdh ma dh’ fhailicheas còrr air 20% de bhaidse claisneachd na h-inbhean sin, thèid a dhiùltadh. Airson nas lugha na 20% eadar-dhealachaidhean, tha feum air clàran ùra le pròifilean coltach ris.
Tar-sgrìobhadh dàta
Tha stiùireadh tar-sgrìobhaidh a’ cur cuideam air cruinneas agus tar-sgrìobhadh facal-air-ais a-mhàin nuair a tha faclan soilleir agus so-thuigsinn; tha faclan neo-shoilleir air an comharrachadh mar [neo-thuigseach] no [neo-chluinntinneach] stèidhichte air a’ chùis. Tha crìochan seantans ann an claisneachd fada air an comharrachadh le , agus chan eil ath-sgrìobhadh no ceartachadh mhearachdan gràmair ceadaichte. Tha tar-sgrìobhadh facal air an fhacal a’ còmhdach mhearachdan, slangs, agus ath-aithris ach a’ fàgail a-mach tòiseachadh meallta, fuaimean lìonaidh, agus stutters. Tha fuaimean cùl-fhiosrachaidh agus aghaidh an deilbh air an ath-sgrìobhadh le tagaichean tuairisgeulach, agus tha ainmean ceart, tiotalan agus àireamhan a’ leantainn riaghailtean tar-sgrìobhaidh sònraichte. Bithear a’ cleachdadh bileagan neach-labhairt airson a h-uile seantans, agus tha seantansan neo-choileanta air an comharrachadh le.
Sruth-obrach pròiseict
Tha an sruth-obrach a’ toirt cunntas air a’ phròiseas tar-sgrìobhaidh claisneachd. Bidh e a’ tòiseachadh le bhith a’ dol air bòrd agus a’ trèanadh chom-pàirtichean. Bidh iad a’ clàradh claisneachd a’ cleachdadh app, a thèid a luchdachadh suas gu àrd-ùrlar QA. Thèid an claisneachd seo tro sgrùdaidhean càileachd agus sgaradh fèin-ghluasadach. Bidh an sgioba teignigeach an uairsin ag ullachadh earrannan airson ath-sgrìobhadh. Às deidh tar-sgrìobhadh làimhe, tha ceum gealltanas càileachd ann. Bithear a’ lìbhrigeadh tar-sgrìobhaidhean don neach-dèiligidh, agus ma thèid gabhail riutha, thathas a’ meas gu bheil an lìbhrigeadh coileanta. Mura h-eil, thèid ath-sgrùdaidhean a dhèanamh stèidhichte air fios air ais bho luchd-cleachdaidh.
Buil
Leigidh an dàta claisneachd àrd-inbhe bho eòlaichean-cànan leis an neach-dèiligidh againn modalan aithneachadh cainnt ioma-chànanach a thrèanadh agus a thogail ann an grunn chànanan Innseanach le dualchainntean eadar-dhealaichte san ùine ainmichte. Faodar na modalan aithneachadh cainnte a chleachdadh airson:
- Faigh thairis air cnap-starra cànain airson in-ghabhail didseatach le bhith a’ ceangal nan saoranaich ris na h-iomairtean anns a’ chànan mhàthaireil aca fhèin.
- A’ brosnachadh Riaghladh Didseatach
- Catalyst gus eag-shiostam a chruthachadh airson seirbheisean agus toraidhean ann an cànanan Innseanach
- Susbaint didseatach nas ionadail ann an raointean ùidh a’ phobaill, gu sònraichte, riaghladh & poileasaidh
Tha sinn fo eagal mu eòlas Shaip ann an raon còmhraidh AI. Bha an obair a bhith a’ làimhseachadh 8000 uair de dhàta claisneachd còmhla ri 800 uair de thar-sgrìobhadh thairis air 80 sgìrean eadar-mheasgte cudromach, co-dhiù. B’ e tuigse dhomhainn Shaip air mion-fhiosrachadh agus nuances an raon seo a thug air pròiseact cho dùbhlanach a chuir an gnìomh gu soirbheachail. Tha an comas a bhith a’ riaghladh agus a’ seòladh tro iom-fhillteachd an t-uabhas dàta seo agus aig an aon àm a’ dèanamh cinnteach gu bheil càileachd den chiad ìre ri mholadh.