Sgrùdadh cùise: Còmhradh AI

Còrr is 3k uair de dhàta air a chruinneachadh, air a sgaradh & air ath-sgrìobhadh gus ASR a thogail ann an 8 cànanan Innseanach

Cruinneachadh de bhriathrachas
Tha an riaghaltas ag amas air cothrom furasta a thoirt do shaoranaich air seirbheisean eadar-lìn & didseatach anns a’ chànan dhùthchasach aca fhèin tro Phròiseact Bhashini.

Tha BHASHINI, àrd-ùrlar eadar-theangachaidh cànain na h-Innseachan air a stiùireadh le AI, na phàirt deatamach den iomairt Digital India.

Air a dhealbhadh gus innealan Artificial Intelligence (AI) agus Pròiseas Cànain Nàdarra (NLP) a thoirt do MSMEn, luchd-tòiseachaidh, agus luchd-nuadhachaidh neo-eisimeileach, tha àrd-ùrlar Bhashini na ghoireas poblach. Is e an t-amas aige in-ghabhail didseatach a bhrosnachadh le bhith a’ toirt cothrom do shaoranaich Innseanach eadar-obrachadh le iomairtean didseatach na dùthcha anns na cànanan dùthchasach aca.

A bharrachd air an sin, tha e ag amas air leudachadh mòr a dhèanamh air na tha ri fhaighinn de shusbaint eadar-lìn ann an cànanan Innseanach. Tha seo gu sònraichte ag amas air raointean le ùidh phoblach leithid riaghladh agus poileasaidh, saidheans agus teicneòlas, msaa. Mar thoradh air an sin, bheir seo brosnachadh do shaoranaich gus an eadar-lìon a chleachdadh nan cànan fhèin, ag adhartachadh an com-pàirt gnìomhach.

Cleachd NLP gus eag-shiostam eadar-mheasgte de luchd-tabhartais, buidhnean com-pàirteachaidh agus saoranaich a chomasachadh gus faighinn thairis air cnapan-starra cànain, agus mar sin a’ dèanamh cinnteach à in-ghabhail didseatach & cumhachd.

Fuasgladh Fìor Shaoghal

A’ sgaoileadh cumhachd sgìreachadh le dàta

Bha feum aig na h-Innseachan air àrd-ùrlar a chuireadh fòcas air cruthachadh stòran-dàta ioma-chànanach agus fuasglaidhean teicneòlas cànain stèidhichte air AI gus seirbheisean didseatach a thoirt seachad ann an cànanan Innseanach. Gus an iomairt seo a chuir air bhog, bha Institiùd Teicneòlais Innseanach, Madras (IIT Madras) ann an com-pàirteachas le Shaip gus dàta cànain Innseanach a chruinneachadh, a roinn agus ath-sgrìobhadh gus modalan cainnt ioma-chànanach a thogail.

dùbhlain

Gus an neach-dèiligidh a chuideachadh leis a’ mhapa-rathaid cainnt Teicneòlas Òraid aca airson cànanan Innseanach, dh’ fheumadh an sgioba meudan mòra de dhàta trèanaidh fhaighinn, a roinn agus ath-sgrìobhadh gus modal AI a thogail. B’ e riatanasan deatamach an neach-dèiligidh:

dàta Collection

  • Faigh 3000 uair de dhàta trèanaidh ann an 8 cànanan Innseanach le 4 dualchainntean gach cànan.
  • Airson gach cànan, cruinnichidh an solaraiche Extempore Speech and
    Òraid còmhraidh bho Bhuidhnean Aois 18-60 bliadhna
  • Dèan cinnteach gum bi measgachadh eadar-mheasgte de luchd-labhairt ann a rèir aois, gnè, foghlam & dualchainntean
  • Dèan cinnteach gu bheil measgachadh eadar-mheasgte de àrainneachdan clàraidh a rèir nan Sònrachaidhean.
  • Bidh gach clàradh claisneachd co-dhiù 16kHz ach mas fheàrr leat 44kHz

Seòrsachadh dàta

  • Cruthaich earrannan cainnt de 15 diogan & clàr-ama an fhuaim gu na milliseconds airson gach neach-labhairt a chaidh a thoirt seachad, seòrsa fuaim (cainnt, babble, ceòl, fuaim), tionndadh, abairtean, & abairtean ann an còmhradh
  • Cruthaich gach earrann airson a chomharran fuaim cuimsichte le pleadhag 200-400 millisecond aig toiseach is deireadh.
  • Airson a h-uile roinn, feumar na nithean a leanas a lìonadh ie, Àm Tòiseachaidh, Àm Crìochnachaidh, ID Earrann, Ìre Fuaim, Seòrsa Fuaim, Còd Cànain, ID Neach-labhairt, msaa.

Tar-sgrìobhadh dàta

  • Lean stiùireadh tar-sgrìobhaidh mion-fhiosrachaidh timcheall air Caractaran agus Samhlaidhean Sònraichte, Litreachadh is Gràmar, Calpa, Giorrachaidhean, Briseadh, Litrichean Beòil fa leth, Àireamhan, Puingean, Acronyms, Neo-thuigsinn, Òraid, Òraid do-thuigsinn, Cànanan Neo-thargaid, Neo-labhairt msaa.

Sgrùdadh Càileachd & Fios air ais

  • A h-uile clàr ri dhol tro mheasadh càileachd & dearbhadh, dìreach cainnt dhearbhte ri lìbhrigeadh

Solution

Leis an tuigse dhomhainn a th’ againn air AI còmhraidh, chuidich sinn an neach-dèiligidh gus an dàta a chruinneachadh, a roinn agus ath-sgrìobhadh le sgioba de luchd-cruinneachaidh eòlach, luchd-cànanais agus notaicheanadairean gus corpas mòr de sheata dàta claisneachd a thogail ann an 8 cànanan Innseanach.

Bha farsaingeachd na h-obrach airson Shaip a’ toirt a-steach ach cha robh e cuingealaichte ri bhith a’ faighinn meudan mòra de dhàta trèanaidh claisneachd, a’ roinn nan clàran claisneachd ann an iomadach, ag ath-sgrìobhadh an dàta agus a’ lìbhrigeadh faidhlichean JSON co-fhreagarrach anns a bheil am meata-dàta [SpeakerID, Age, Gender, Language, dualchainnt,
Cànan Màthaireil, Teisteanas, Dreuchd, Fearann, Cruth faidhle, Tricead, Seanal, Seòrsa Fuaim, Àireamh Luchd-labhairt, Àireamh Chànanan Cèin, Suidheachadh air a chleachdadh, Còmhlan Caol no bann-leathann, msaa]. 

Chruinnich Shaip 3000 uair de dhàta claisneachd aig sgèile fhad ‘s a bha e a’ cumail suas ìrean càileachd a bha a dhìth gus teicneòlas cainnt a thrèanadh airson pròiseactan iom-fhillte. Chaidh Foirm Cead Sònraichte a thoirt bho gach com-pàirtiche.

1. Cruinneachadh Fiosrachaidh

2. Sgaradh dàta

  • Chaidh an dàta claisneachd a chaidh a chruinneachadh a sgaoileadh a-steach do earrannan cainnt de 15 diogan gach fear agus air a stampadh gu na milliseconds airson gach neach-labhairt ainmichte, seòrsa fuaim, tionndadh, abairtean, agus abairtean ann an còmhradh.
  • Chruthaich gach earrann airson a chomharra fuaim cuimsichte le pleadhag 200-400 milliseconds aig toiseach is deireadh comharra fuaim.
  • Airson a h-uile roinn, bha na nithean a leanas an làthair agus air an lìonadh ie, Àm Tòiseachaidh, Àm Crìochnachaidh, ID Roinn, Ìre Fuaim (Cumhachd, Normal, Sàmhach), Seòrsa Fuaim Bun-sgoile (Òraid, Babble, Ceòl, Fuaim, Tar-tharraing), ID Neach-labhairt Còd Cànain, Tar-sgrìobhadh msaa.

3. Sgrùdadh Càileachd agus Fios air ais

  • Chaidh a h-uile clàr a mheasadh airson càileachd agus cha deach ach clàraidhean cainnt dearbhte le WER de 90% agus TER de 90% a lìbhrigeadh
  • Liosta sgrùdaidh càileachd air a leantainn:
       » 15 diogan aig a’ char as àirde de dh’fhaid na h-earrainn
       » Tar-sgrìobhadh bho raointean sònraichte, is iad sin: Aimsir, diofar sheòrsaichean de naidheachdan, slàinte, àiteachas, foghlam, obraichean no ionmhas
       » Fuaim cùl ìseal
       » Gun chriomag claisneachd dheth - Gun saobhadh
       » Roinn claisneachd ceart airson ath-sgrìobhadh

4. Tar-sgrìobhadh Dàta
Chaidh a h-uile facal labhairteach, a’ gabhail a-steach leisgean, faclan lìonaidh, tòiseachadh meallta, agus tics beòil eile, a ghlacadh gu ceart san tar-sgrìobhadh. Lean sinn cuideachd stiùireadh tar-sgrìobhaidh mion-fhiosrachaidh mu litrichean mòra is beaga, litreachadh, calpachadh, giorrachaidhean, giorrachadh, àireamhan,
puingeachadh, Acronyms, Òraid Disfluent, fuaimean neo-labhairt msaa. A bharrachd air an sin tha an Sruth-obrach a lean airson Cruinneachadh is Tar-sgrìobhadh mar a leanas:

Buil

Leigidh an dàta claisneachd àrd-inbhe bho luchd-cànanais eòlach air Institiud Teicneòlais Innseanach - Madras, modalan aithneachadh cainnt ioma-chànanach a thrèanadh agus a thogail ann an 8 cànanan Innseanach le diofar dhualchainntean san ùine ainmichte. Faodar na modalan aithneachadh cainnte a chleachdadh airson:

  • Faigh thairis air cnap-starra cànain airson in-ghabhail didseatach le bhith a’ ceangal nan saoranaich ris na h-iomairtean anns a’ chànan mhàthaireil aca fhèin.
  • A’ brosnachadh Riaghladh Didseatach
  • Catalyst gus eag-shiostam a chruthachadh airson seirbheisean agus toraidhean ann an cànanan Innseanach
  • Susbaint didseatach nas ionadail ann an raointean ùidh a’ phobaill, gu sònraichte, riaghladh & poileasaidh
Golden-5-rionnag

Bha sinn air leth toilichte le eòlas Shaip ann an àite còmhraidh AI. An comas coileanadh pròiseict iomlan bho bhith a’ lorg, a’ roinn, ag ath-sgrìobhadh agus a’ lìbhrigeadh an dàta trèanaidh a tha a dhìth bho luchd-cànanais eòlach ann an 8 cànanan taobh a-staigh loidhnichean-ama agus stiùireadh teann; agus iad fhathast a’ cumail suas an ìre càileachd iomchaidh.”

Luathaich an AI còmhraidh agad
leasachadh tagraidh 100%

Luchd-dèiligidh comharraichte

A ’toirt cumhachd do sgiobaidhean gus toraidhean AI a tha air thoiseach san t-saoghal a thogail.