Sgrùdadh cùise: Còmhradh AI
Còrr is 3k uair de dhàta air a chruinneachadh, air a sgaradh & air ath-sgrìobhadh gus ASR a thogail ann an 8 cànanan Innseanach
Tha BHASHINI, àrd-ùrlar eadar-theangachaidh cànain na h-Innseachan air a stiùireadh le AI, na phàirt deatamach den iomairt Digital India.
Air a dhealbhadh gus innealan Artificial Intelligence (AI) agus Pròiseas Cànain Nàdarra (NLP) a thoirt do MSMEn, luchd-tòiseachaidh, agus luchd-nuadhachaidh neo-eisimeileach, tha àrd-ùrlar Bhashini na ghoireas poblach. Is e an t-amas aige in-ghabhail didseatach a bhrosnachadh le bhith a’ toirt cothrom do shaoranaich Innseanach eadar-obrachadh le iomairtean didseatach na dùthcha anns na cànanan dùthchasach aca.
A bharrachd air an sin, tha e ag amas air leudachadh mòr a dhèanamh air na tha ri fhaighinn de shusbaint eadar-lìn ann an cànanan Innseanach. Tha seo gu sònraichte ag amas air raointean le ùidh phoblach leithid riaghladh agus poileasaidh, saidheans agus teicneòlas, msaa. Mar thoradh air an sin, bheir seo brosnachadh do shaoranaich gus an eadar-lìon a chleachdadh nan cànan fhèin, ag adhartachadh an com-pàirt gnìomhach.
Cleachd NLP gus eag-shiostam eadar-mheasgte de luchd-tabhartais, buidhnean com-pàirteachaidh agus saoranaich a chomasachadh gus faighinn thairis air cnapan-starra cànain, agus mar sin a’ dèanamh cinnteach à in-ghabhail didseatach & cumhachd.
Fuasgladh Fìor Shaoghal
A’ sgaoileadh cumhachd sgìreachadh le dàta
Bha feum aig na h-Innseachan air àrd-ùrlar a chuireadh fòcas air cruthachadh stòran-dàta ioma-chànanach agus fuasglaidhean teicneòlas cànain stèidhichte air AI gus seirbheisean didseatach a thoirt seachad ann an cànanan Innseanach. Gus an iomairt seo a chuir air bhog, bha Institiùd Teicneòlais Innseanach, Madras (IIT Madras) ann an com-pàirteachas le Shaip gus dàta cànain Innseanach a chruinneachadh, a roinn agus ath-sgrìobhadh gus modalan cainnt ioma-chànanach a thogail.
dùbhlain
Gus an neach-dèiligidh a chuideachadh leis a’ mhapa-rathaid cainnt Teicneòlas Òraid aca airson cànanan Innseanach, dh’ fheumadh an sgioba meudan mòra de dhàta trèanaidh fhaighinn, a roinn agus ath-sgrìobhadh gus modal AI a thogail. B’ e riatanasan deatamach an neach-dèiligidh:
dàta Collection
- Faigh 3000 uair de dhàta trèanaidh ann an 8 cànanan Innseanach le 4 dualchainntean gach cànan.
- Airson gach cànan, cruinnichidh an solaraiche Extempore Speech and
Òraid còmhraidh bho Bhuidhnean Aois 18-60 bliadhna - Dèan cinnteach gum bi measgachadh eadar-mheasgte de luchd-labhairt ann a rèir aois, gnè, foghlam & dualchainntean
- Dèan cinnteach gu bheil measgachadh eadar-mheasgte de àrainneachdan clàraidh a rèir nan Sònrachaidhean.
- Bidh gach clàradh claisneachd co-dhiù 16kHz ach mas fheàrr leat 44kHz
Seòrsachadh dàta
- Cruthaich earrannan cainnt de 15 diogan & clàr-ama an fhuaim gu na milliseconds airson gach neach-labhairt a chaidh a thoirt seachad, seòrsa fuaim (cainnt, babble, ceòl, fuaim), tionndadh, abairtean, & abairtean ann an còmhradh
- Cruthaich gach earrann airson a chomharran fuaim cuimsichte le pleadhag 200-400 millisecond aig toiseach is deireadh.
- Airson a h-uile roinn, feumar na nithean a leanas a lìonadh ie, Àm Tòiseachaidh, Àm Crìochnachaidh, ID Earrann, Ìre Fuaim, Seòrsa Fuaim, Còd Cànain, ID Neach-labhairt, msaa.
Tar-sgrìobhadh dàta
- Lean stiùireadh tar-sgrìobhaidh mion-fhiosrachaidh timcheall air Caractaran agus Samhlaidhean Sònraichte, Litreachadh is Gràmar, Calpa, Giorrachaidhean, Briseadh, Litrichean Beòil fa leth, Àireamhan, Puingean, Acronyms, Neo-thuigsinn, Òraid, Òraid do-thuigsinn, Cànanan Neo-thargaid, Neo-labhairt msaa.
Sgrùdadh Càileachd & Fios air ais
- A h-uile clàr ri dhol tro mheasadh càileachd & dearbhadh, dìreach cainnt dhearbhte ri lìbhrigeadh
Solution
Leis an tuigse dhomhainn a th’ againn air AI còmhraidh, chuidich sinn an neach-dèiligidh gus an dàta a chruinneachadh, a roinn agus ath-sgrìobhadh le sgioba de luchd-cruinneachaidh eòlach, luchd-cànanais agus notaicheanadairean gus corpas mòr de sheata dàta claisneachd a thogail ann an 8 cànanan Innseanach.
Bha farsaingeachd na h-obrach airson Shaip a’ toirt a-steach ach cha robh e cuingealaichte ri bhith a’ faighinn meudan mòra de dhàta trèanaidh claisneachd, a’ roinn nan clàran claisneachd ann an iomadach, ag ath-sgrìobhadh an dàta agus a’ lìbhrigeadh faidhlichean JSON co-fhreagarrach anns a bheil am meata-dàta [SpeakerID, Age, Gender, Language, dualchainnt,
Cànan Màthaireil, Teisteanas, Dreuchd, Fearann, Cruth faidhle, Tricead, Seanal, Seòrsa Fuaim, Àireamh Luchd-labhairt, Àireamh Chànanan Cèin, Suidheachadh air a chleachdadh, Còmhlan Caol no bann-leathann, msaa].
Chruinnich Shaip 3000 uair de dhàta claisneachd aig sgèile fhad ‘s a bha e a’ cumail suas ìrean càileachd a bha a dhìth gus teicneòlas cainnt a thrèanadh airson pròiseactan iom-fhillte. Chaidh Foirm Cead Sònraichte a thoirt bho gach com-pàirtiche.
1. Cruinneachadh Fiosrachaidh