AI còmhraidh: Aithneachadh cainnt fèin-ghluasadach

Còrr is 8k uairean claisneachd air an cruinneachadh, 800 uair air an tar-sgrìobhadh airson teicneòlas guth ioma-chànanach

Còmhradh ai

Ro-ràdh

Bha feum aig na h-Innseachan air àrd-ùrlar a tha ag amas air cruthachadh stòran-dàta ioma-chànanach agus fuasglaidhean teicneòlas cànain stèidhichte air AI gus seirbheisean didseatach a thoirt seachad ann an cànanan Innseanach. Gus an iomairt seo a chuir air bhog, chaidh an Client ann an com-pàirteachas le Shaip gus cànan Innseanach a chruinneachadh, agus ath-sgrìobhadh gus modalan cainnt ioma-chànanach a thogail.

volume

Uairean dàta air a chruinneachadh
10
Àireamh de dhuilleagan air an comharrachadh
10 +
Fad a’ phròiseict
< 1 mìosan

dùbhlain

Gus an neach-dèiligidh a chuideachadh leis a’ mhapa-rathaid cainnt Teicneòlas Òraid aca airson cànanan Innseanach, dh’ fheumadh an sgioba meudan mòra de dhàta trèanaidh fhaighinn, a roinn agus ath-sgrìobhadh gus modal AI a thogail. B’ iad riatanasan deatamach an neach-dèiligidh:

dàta Collection

  • Faigh 8000 uair de dhàta trèanaidh bho àiteachan iomallach anns na h-Innseachan
  • An solaraiche airson òraid gun spionnadh a chruinneachadh bho Bhuidhnean Aois 20-70 bliadhna
  • Dèan cinnteach gum bi measgachadh eadar-mheasgte de luchd-labhairt ann a rèir aois, gnè, foghlam agus dualchainntean
  • Bidh gach clàradh claisneachd co-dhiù 16kHz le 16 pìosan / sampall.
Cruinneachadh dàta

Tar-sgrìobhadh dàta

Lean stiùiridhean tar-sgrìobhaidh mionaideach timcheall air Caractaran agus Samhlaidhean Sònraichte, Litreachadh agus Gràmar, Calpa, Giorrachaidhean, Briseadh, Litrichean Labhraidh Aonair, Àireamhan, Puingean, Acronyms agus Tòiseachaidhean, Òraid Disfluentach, Òraid do-thuigsinn, Cànanan nach eil air an Targaid, Neo-labhairt

Tar-sgrìobhadh dàta

Sgrùdadh Càileachd & Fios air ais

A h-uile clàr ri dhol tro mheasadh càileachd agus dearbhadh, dìreach clàran cainnt dearbhte ri lìbhrigeadh

Solution

Leis an tuigse dhomhainn a th’ againn air AI còmhraidh, chuidich sinn an teachdaiche a’ cruinneachadh, ag ath-sgrìobhadh an dàta claisneachd le sgioba de luchd-cruinneachaidh eòlach, luchd-cànanais agus luchd-notaichean gus corpas mòr de dhàta claisneachd a thogail bho phàirtean iomallach de na h-Innseachan.

Bha farsaingeachd na h-obrach airson Shaip a’ toirt a-steach ach cha robh e cuingealaichte ri bhith a’ faighinn meudan mòra de dhàta trèanaidh claisneachd, ag ath-sgrìobhadh an dàta agus a’ lìbhrigeadh faidhlichean JSON co-fhreagarrach anns a bheil am meata-dàta [airson an dà chuid luchd-labhairt agus ath-sgrìobhaidhean. Airson gach neach-labhairt, tha am meata-dàta a’ toirt a-steach ID Neach-labhairt gun urra, mion-fhiosrachadh inneal, fiosrachadh deamografach leithid gnè, aois, agus foghlam, còmhla ris a’ chòd-pin aca, inbhe sòisio-eaconamach, cànanan air am bruidhinn, agus clàr de fhad-beatha am beatha. Airson a h-uile tar-sgrìobhaiche, tha an dàta a’ toirt a-steach ID Ath-sgrìobhaidh gun urra, mion-fhiosrachadh deamografach coltach ris an luchd-labhairt, an ùine tar-sgrìobhaidh aca, agus briseadh sìos mionaideach de chànanan as urrainn dhaibh leughadh, sgrìobhadh agus bruidhinn.

Shaip air a chruinneachadh 8000 uairean de dhàta claisneachd / òraid gun spionnadh aig sgèile agus ath-sgrìobhadh 800 uairean fhad ‘s a chumas iad na h-ìrean càileachd a tha a dhìth gus teicneòlas cainnt a thrèanadh airson pròiseactan iom-fhillte. Chaidh Foirm Cead Sònraichte a thoirt bho gach com-pàirtiche. Bha an òraid / gun spionnadh a chaidh a chruinneachadh stèidhichte air ìomhaighean a thug an Oilthigh seachad. As 3500 dealbhan 1000 tha gnèitheach agus 2500 Tha dealbhan a' sealltainn diofar raointean leithid stèiseanan-trèana, margaidhean, aimsir is eile.

dàta Collection

StàiteSgìreanFuaim uaireantar-sgrìobhadh
(Uairean)
BiharSaran, Champaran an Ear, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Bengal an IarPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, 24 Parganas a Tuath, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaGoa Tuath + Deas10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
iomlan8000800

Stiùireadh Coitcheann

Inneal a 'Chlàir

    • Fuaim aig 16 kHz, 16 pìosan / sampall.
    • Sianal singilte.
    • Fuaim amh gun transcoding.

an stoidhle

    • cainnt spontaneous.
    • Seantansan stèidhichte air ìomhaighean a thug an Oilthigh seachad. A-mach à 3500 ìomhaigh, tha 1000 coitcheann agus 2500 a' buntainn ri cultar sgìreil, fèisean, is eile.

Cùl-fhiosrachadh Clàraidh

    • Air a chlàradh ann an àrainneachd shàmhach, gun mhac-samhail.
    • Cha bhith dragh sam bith air fòn cliste (crith no brathan) aig àm clàraidh.
    • Chan eil saobhadh sam bith mar bearradh no buaidhean fad-raoin.
    • Vibration bho fòn neo-iomchaidh; faodar crith a-muigh fhulang ma tha an fhuaim soilleir.

Sònrachadh neach-labhairt

    • Raon aoise bho 20-70 bliadhna le cuairteachadh gnè cothromach gach sgìre.
    • Co-dhiù 400 neach-labhairt dùthchasach anns gach sgìre.
    • Bu chòir do luchd-labhairt an cànan dachaigh / dualchainnt a chleachdadh.
    • Foirmean cead riatanach airson a h-uile com-pàirtiche.


Sgrùdadh Càileachd & Dearbhadh Càileachd Critigeach

Tha am pròiseas QA a’ toirt prìomhachas do ghealltanas càileachd airson clàraidhean claisneachd agus tar-sgrìobhaidhean. Bidh inbhean claisneachd a’ cuimseachadh air sàmhchair mionaideach, fad earrannan, soilleireachd aon neach-labhairt, agus meata-dàta mionaideach a’ toirt a-steach aois agus inbhe sòisio-eaconamach. Tha slatan-tomhais tar-sgrìobhaidh a’ cur cuideam air cruinneas tagaichean, fìrinn fhaclan, agus mion-fhiosrachadh ceart mu earrannan. Tha an slat-tomhais gabhail ag ràdh ma dh’ fhailicheas còrr air 20% de bhaidse claisneachd na h-inbhean sin, thèid a dhiùltadh. Airson nas lugha na 20% eadar-dhealachaidhean, tha feum air clàran ùra le pròifilean coltach ris.

Tar-sgrìobhadh dàta

Tha stiùireadh tar-sgrìobhaidh a’ cur cuideam air cruinneas agus tar-sgrìobhadh facal-air-ais a-mhàin nuair a tha faclan soilleir agus so-thuigsinn; tha faclan neo-shoilleir air an comharrachadh mar [neo-thuigseach] no [neo-chluinntinneach] stèidhichte air a’ chùis. Tha crìochan seantans ann an claisneachd fada air an comharrachadh le , agus chan eil ath-sgrìobhadh no ceartachadh mhearachdan gràmair ceadaichte. Tha tar-sgrìobhadh facal air an fhacal a’ còmhdach mhearachdan, slangs, agus ath-aithris ach a’ fàgail a-mach tòiseachadh meallta, fuaimean lìonaidh, agus stutters. Tha fuaimean cùl-fhiosrachaidh agus aghaidh an deilbh air an ath-sgrìobhadh le tagaichean tuairisgeulach, agus tha ainmean ceart, tiotalan agus àireamhan a’ leantainn riaghailtean tar-sgrìobhaidh sònraichte. Bithear a’ cleachdadh bileagan neach-labhairt airson a h-uile seantans, agus tha seantansan neo-choileanta air an comharrachadh le.

Sruth-obrach pròiseict

Tha an sruth-obrach a’ toirt cunntas air a’ phròiseas tar-sgrìobhaidh claisneachd. Bidh e a’ tòiseachadh le bhith a’ dol air bòrd agus a’ trèanadh chom-pàirtichean. Bidh iad a’ clàradh claisneachd a’ cleachdadh app, a thèid a luchdachadh suas gu àrd-ùrlar QA. Thèid an claisneachd seo tro sgrùdaidhean càileachd agus sgaradh fèin-ghluasadach. Bidh an sgioba teignigeach an uairsin ag ullachadh earrannan airson ath-sgrìobhadh. Às deidh tar-sgrìobhadh làimhe, tha ceum gealltanas càileachd ann. Bithear a’ lìbhrigeadh tar-sgrìobhaidhean don neach-dèiligidh, agus ma thèid gabhail riutha, thathas a’ meas gu bheil an lìbhrigeadh coileanta. Mura h-eil, thèid ath-sgrùdaidhean a dhèanamh stèidhichte air fios air ais bho luchd-cleachdaidh.

Buil

Leigidh an dàta claisneachd àrd-inbhe bho eòlaichean-cànan leis an neach-dèiligidh againn modalan aithneachadh cainnt ioma-chànanach a thrèanadh agus a thogail ann an grunn chànanan Innseanach le dualchainntean eadar-dhealaichte san ùine ainmichte. Faodar na modalan aithneachadh cainnte a chleachdadh airson:

  • Faigh thairis air cnap-starra cànain airson in-ghabhail didseatach le bhith a’ ceangal nan saoranaich ris na h-iomairtean anns a’ chànan mhàthaireil aca fhèin.
  • A’ brosnachadh Riaghladh Didseatach
  • Catalyst gus eag-shiostam a chruthachadh airson seirbheisean agus toraidhean ann an cànanan Innseanach
  • Susbaint didseatach nas ionadail ann an raointean ùidh a’ phobaill, gu sònraichte, riaghladh & poileasaidh

Tha sinn fo eagal mu eòlas Shaip ann an raon còmhraidh AI. Bha an obair a bhith a’ làimhseachadh 8000 uair de dhàta claisneachd còmhla ri 800 uair de thar-sgrìobhadh thairis air 80 sgìrean eadar-mheasgte cudromach, co-dhiù. B’ e tuigse dhomhainn Shaip air mion-fhiosrachadh agus nuances an raon seo a thug air pròiseact cho dùbhlanach a chuir an gnìomh gu soirbheachail. Tha an comas a bhith a’ riaghladh agus a’ seòladh tro iom-fhillteachd an t-uabhas dàta seo agus aig an aon àm a’ dèanamh cinnteach gu bheil càileachd den chiad ìre ri mholadh.

Golden-5-rionnag

Luathaich an AI còmhraidh agad
leasachadh tagraidh 100%