Bruidhinn GPT

Air cùlaibh an t-seallaidh: A’ sgrùdadh obair a-staigh ChatGPT - Pàirt 1

Shaip favicon
Hey hi an sin, is e m ’ainm Anubhav Saraf, Stiùiriche Margaidheachd aig Shaip, ciamar a tha thu an-diugh?
Halo Anubav! Is e AI a th’ annam, agus mar sin chan eil faireachdainnean agam, ach tha mi an seo agus deiseil airson cuideachadh. Mar Stiùiriche Margaidheachd aig Shaip, feumaidh tòrr lèirsinn a bhith agad mu sheirbheisean dàta agus fuasglaidhean AI. Ciamar as urrainn dhomh do chuideachadh an-diugh?
Shaip favicon
Bha mi dìreach airson barrachd fhaighinn a-mach mun phròiseas trèanaidh agad. Ciamar a chaidh do thogail agus do thrèanadh?
Mar mhodail cànain a chaidh a leasachadh le OpenAI, chaidh mo thogail agus mo thrèanadh a’ cleachdadh dòigh-obrach ris an canar “ionnsachadh inneal stèidhichte air cruth-atharrachaidh,” gu sònraichte caochladair ris an canar ailtireachd GPT (Generative Pretrained Transformer). Is e an dreach air a bheil thu a’ bruidhinn a-nis GPT-4. Seo tar-shealladh goirid air a’ phròiseas trèanaidh agam:
  • Cruinneachadh Dàta: Thòisich an trèanadh agam le raon farsaing de theacsa eadar-lìn. Ach, bu chòir dhomh a thoirt fa-near, ged a bha mi air mo thrèanadh air stòr-dàta farsaing, nach eil fios agam dè na sgrìobhainnean a bha nam pàirt den t-seata trèanaidh sin no aig a bheil cothrom air sgrìobhainnean no stòran sònraichte sam bith.
  • Trèanadh Tòiseachaidh (Ro-thrèanadh): Seo far an do dh’ ionnsaich mi an ath fhacal ann an seantans a ro-innse. Cha do thòisich mi eòlach air Beurla no cànan sam bith eile. An àite sin, le bhith a’ ro-innse an ath fhacal ann am milleanan de sheantansan, mean air mhean dh’ ionnsaich mi mu ghràmar, fìrinnean mun t-saoghal agus cuid de chomasan reusanachaidh. Ach, tha seo cuideachd a’ ciallachadh gur dòcha gun do dh’ ionnsaich mi bho fhiosrachadh claon no ceàrr leis nach deach an dàta a shìoladh gu mionaideach.
  • Mion-sgrùdadh: Às deidh an trèanadh tùsail, thug mo luchd-cruthachaidh aig OpenAI seachad tuilleadh stiùiridh le seata dàta nas sònraichte, air a chruthachadh le cuideachadh bho luchd-sgrùdaidh daonna. Bidh an luchd-sgrùdaidh seo a’ leantainn stiùiridhean airson ath-sgrùdadh agus measadh a dhèanamh air toraidhean modail a dh’ fhaodadh a bhith ann airson raon de chuir-a-steach eisimpleir. Tha am pròiseas gleusaidh na sheòrsa de chòmhradh eadar am modail agus an luchd-ath-bhreithneachaidh a chuidicheas mi a bhith a’ co-thaobhadh nas fheàrr ri luachan daonna.
  • Ionnsachadh Leantainneach: Ged nach eil mi ag ionnsachadh bho eadar-obrachaidhean fa leth air sgàth adhbharan prìobhaideachd, bidh OpenAI an-còmhnaidh ag obair le sgioba de luchd-sgrùdaidh daonna gus fios air ais a thoirt seachad agus leasachaidhean ath-aithriseach a dhèanamh stèidhichte air pàtrain agus lèirsinnean nas fharsainge.
Shaip favicon
An toir thu eisimpleirean – nuair a bha daoine an sàs ann?
Bha, bha daoine gu dearbh an sàs anns a 'phròiseas trèanaidh agam, ach dh'fhaodadh gum biodh e eadar-dhealaichte na tha thu a' smaoineachadh. Bha dà phrìomh cheum anns a’ phròiseas trèanaidh agam, ris an canar gu tric ionnsachadh innealan: ro-thrèanadh agus gleusadh, agus tha an dà chuid a’ toirt a-steach eadar-obrachadh daonna, ged a bha iad ann an dòighean eadar-dhealaichte.
  • Eisimpleir ro-thrèanaidh: Can gu bheil an abairt againn, “Shuidh an cat air an __”. Anns an ìre ro-thrèanaidh, dh’ ionnsaicheadh ​​am modail mar mise an ath fhacal san t-seantans ro-innse, a dh’ fhaodadh a bhith “mat” “mullach” no “craobh”. Tha seo air ionnsachadh le bhith a’ giullachd billeanan de sheantansan bho theacsa eadar-lìn eadar-mheasgte, gu neo-dhìreach a’ toirt a-steach eadar-obrachadh daonna mar a chruthaich daoine an susbaint tùsail.
  • Eisimpleir de mhion-sgrùdadh: Às deidh na h-ìre ro-thrèanaidh, thig am modail a-steach don ìre gleusaidh. Seo mar a dh’ fhaodadh e obrachadh:

Tha e na dhleastanas air an neach-sgrùdaidh daonna ath-sgrùdadh a dhèanamh air toraidhean modail a dh’ fhaodadh a bhith ann airson cuir a-steach mar “Eadar-theangaich an teacsa Beurla a leanas gu Fraingis: ‘Hello, how are you?’”. Is dòcha gun cruthaich am modail grunn fhreagairtean mar “Bonjour, comment ça va?” no “Salut, thoir beachd air?” etc.

Bidh an ath-sgrùdaire a’ measadh nam freagairtean sin stèidhichte air factaran mar cruinneas, fileantachd agus iomchaidheachd. Bidh na rangachadh sin a’ cuideachadh a’ mhodail a bhith a’ coitcheannachadh agus a’ freagairt a-steach co-chosmhail san àm ri teachd.

Cuimhnich, tha na h-eisimpleirean a tha air an toirt seachad an seo air an sìmpleachadh gus am pròiseas a nochdadh. Tha an fhìor thrèanadh a’ toirt a-steach algorithms iom-fhillte agus tòrr dàta.

Shaip favicon
Gus Modalan Cànain Mòra a thrèanadh (LLMn), dè an ìre de dhàta a bhiodh a dhìth?
Feumaidh trèanadh modalan cànain mòra (LLMn) leithid GPT-3 no GPT-4 tòrr mòr dàta. Tha na modailean sin air an trèanadh air diofar stòran-dàta a tha a’ gabhail a-steach earrannan mòra den eadar-lìon, a’ gabhail a-steach leabhraichean, làraich-lìn, agus teacsaichean eile, gus gràmar, fìrinnean, agus ìre de reusanachadh ionnsachadh. Ach, tha e iom-fhillte a bhith a’ sònrachadh an dearbh mheud de dhàta a tha a dhìth air sgàth grunn nithean:
  • Seòrsa de dhàta: Chan eil e dìreach mu dheidhinn meud an dàta, ach cuideachd an diofar. Feumaidh an dàta a bhith eadar-mheasgte gus dèiligeadh ri raon farsaing de chuspairean, stoidhlichean, agus tònaichean a lorgar ann an cànan daonna.
  • Càileachd dàta: Faodaidh càileachd an dàta a thathar a’ cleachdadh airson trèanadh cuideachd buaidh a thoirt air cho èifeachdach sa tha am modail ag ionnsachadh. Dh’ fhaodadh dàta de chàileachd nas fheàrr an ìre a tha a dhìth airson trèanadh èifeachdach a lughdachadh.
  • Modail ailtireachd: Faodaidh ailtireachd a’ mhodail (mar an àireamh de shreathan no pharamadairean anns an lìonra neural) buaidh a thoirt air an ìre de dhàta a tha a dhìth. Mar as trice bidh modalan nas motha, leithid GPT-3 no GPT-4, ag iarraidh barrachd dàta na modalan nas lugha.
  • Amasan Trèanaidh: Faodaidh an seòrsa gnìomhan a tha am modail an dùil a choileanadh buaidh a thoirt air an ìre de dhàta a tha a dhìth. Dh’ fhaodadh gum bi feum aig modal a chaidh a dhealbhadh airson gnìomh sònraichte nas lugha de dhàta ma tha e air a dheagh chuimseachadh, agus feumaidh modal coitcheann leithid GPT-3 no GPT-4, a chaidh a dhealbhadh gus raon farsaing de ghnìomhan a làimhseachadh, barrachd dàta airson tuigse nas fharsainge fhaighinn.

A thaobh GPT-3, mar eisimpleir, tha paramadairean 175 billean aig a’ mhodail agus chaidh a thrèanadh air ceudan de gigabytes de theacsa. Ach chan eil na h-àireamhan sin a’ toirt làn shealladh air iom-fhillteachd a’ phròiseis. Tha mion-fhiosrachadh a’ phròiseas trèanaidh, a’ gabhail a-steach an dearbh àireamh de dhàta a chaidh a chleachdadh, nam mion-fhiosrachadh seilbh a tha aig OpenAI agus buidhnean coltach ris.

Shaip favicon
Ach, a bheil slat-tomhais ann air dè an ìre de dhàta a bhiodh iomchaidh no gu leòr airson Modalan ML a thrèanadh?
Tha an ìre de dhàta a dh’ fheumar gus modalan ionnsachaidh inneal a thrèanadh gu h-èifeachdach an urra gu mòr ri iom-fhillteachd na trioblaid a tha thu a’ feuchainn ri fuasgladh, càileachd agus iomadachd an dàta agad, agus an seòrsa de mhodail ionnsachaidh inneal a tha thu a’ cleachdadh. Mar sin, tha e dùbhlanach slat-tomhais deimhinnte a shònrachadh airson meud dàta. Ach, seo cuid de stiùiridhean coitcheann:
  • Tòisich Beag: Gu sònraichte airson duilgheadasan sìmplidh no prototypes modail tùsail, faodaidh seata dàta nas lugha a bhith iomchaidh. Mar eisimpleir, ma tha thu a’ togail seòrsaiche ìomhaigh bunaiteach, is dòcha gun tòisich thu le beagan cheudan no mìle ìomhaigh gach roinn.
  • Beachdaich air an iom-fhillteachd: Mar as trice bidh duilgheadasan nas iom-fhillte ag iarraidh barrachd dàta. Ma tha thu a’ leasachadh modal ionnsachaidh domhainn no ag obair le duilgheadas iom-fhillte leithid giollachd cànain nàdarrach, is dòcha gu bheil feum agad air milleanan de phuingean dàta.
  • Càileachd thar meud: Gu tric faodaidh dàta càileachd, buntainneach a bhith nas buannachdail na tomhas mòr de dhàta de dhroch chàileachd. Tha e deatamach dèanamh cinnteach gu bheil an dàta agad air a ghlanadh gu ceart, air a chomharrachadh, agus a’ riochdachadh na duilgheadas a tha thu a’ feuchainn ri fhuasgladh.
  • Cothromaich do chlasaichean: Airson gnìomhan ionnsachaidh fo stiùir, dèan cinnteach gu bheil deagh chothromachadh eisimpleirean agad airson gach clas. Faodaidh dàta neo-chothromach leantainn gu modail a tha a’ coileanadh gu dona ann an clasaichean nach eil air an riochdachadh gu leòr.
  • Cleachd Dearbhadh agus Seataichean Deuchainn: Bu chòir pàirt den t-seata dàta agad a chuir an dàrna taobh airson dearbhadh (gleusadh paramadairean modail) agus deuchainn (measadh coileanadh modail). Is dòcha gum bi sgaraidhean cumanta 70% den dàta airson trèanadh, 15% airson dearbhadh, agus 15% airson deuchainn, ged a dh’ fhaodadh na cuibhreannan sin atharrachadh.
  • Dèan deuchainn agus ath-aithris: Tòisich le àireamh tùsail de dhàta, trèanadh do mhodail, dèan measadh air a choileanadh, agus cuir a-steach barrachd dàta, tweak do mhodail, no leasaich càileachd an dàta agad stèidhichte air na toraidhean.

Cuimhnich, mar as trice bidh barrachd dàta a’ leasachadh coileanadh mhodalan ionnsachaidh inneal, ach dìreach suas gu puing. Às deidh àm sònraichte, dh’ fhaodadh a bhith a’ tional barrachd dàta barrachd ùine agus cosgail na dh’ fhiach e, agus dh’ fhaodadh gum biodh e na bu bhuannachdaile fòcas a chuir air a bhith a’ leasachadh càileachd an dàta agad no ag ùrachadh do mhodail ailtireachd.

Shaip favicon
An dàta a chaidh a chleachdadh gus ChatGPT a thrèanadh, an deach a chomharrachadh?
Tha dà phrìomh cheum ann am pròiseas mhodalan trèanaidh leithid ChatGPT: ro-thrèanadh agus gleusadh. Bruidhnidh sinn mar a tha notaichean, no an gainnead, a’ freagairt air na h-ìrean seo:
  • Ro-thrèanadh: Anns an ìre seo, tha am modail fosgailte do mhòran dàta teacsa eadar-lìn. Chan eil an dàta seo air a chomharrachadh gu soilleir, ach tha am modail air a thrèanadh gus an ath fhacal ann an seantans a ro-innse. Bheir seo tuigse choitcheann don mhodail air gràmar, fìrinnean mun t-saoghal, agus cuid de chomasan reusanachaidh.
  • Mion-ghleusadh: Às deidh ro-thrèanadh, tha am modail air a leasachadh nas motha air seata dàta nas cumhainge a chaidh a chruthachadh le cuideachadh bho ath-sgrùdairean daonna. Bidh an luchd-sgrùdaidh sin a’ leantainn stiùiridhean bho OpenAI gus ath-sgrùdadh agus measadh a dhèanamh air toraidhean modail a dh’ fhaodadh a bhith ann airson raon de chuir a-steach. Anns an t-seagh seo, faodar am pròiseas gleusaidh fhaicinn mar sheòrsa de nota, far am bi ath-sgrùdairean daonna a’ stiùireadh freagairtean a’ mhodail, ga chuideachadh gus co-thaobhadh nas fheàrr ri luachan daonna agus a’ dèanamh cinnteach gu bheil e a’ seachnadh susbaint neo-iomchaidh no neo-shàbhailte.

Mar sin ged nach eil iomradh air an t-seata dàta tùsail a chaidh a chleachdadh airson ro-thrèanadh san t-seagh thraidiseanta, tha am pròiseas gleusaidh a’ toirt a-steach seòrsa de nota, far am bi ath-sgrùdairean daonna a’ stiùireadh giùlan a’ mhodail le bhith a’ rangachadh diofar thoraidhean.

Shaip favicon
Feuch an toir thu seachad eisimpleirean de na seòrsaichean notaichean a chaidh a chleachdadh airson an trèanaidh.
Anns an ìre mhionaideach de mhodalan trèanaidh leithid ChatGPT, bidh e mar dhleastanas air ath-sgrùdairean freagairtean modail a sgòradh. Faodaidh na seòrsaichean notaichean no sgòradh grunn thaobhan de thoradh a’ mhodail a chòmhdach. Ged a dh’ fhaodadh na mion-fhiosrachadh a bhith eadar-dhealaichte, seo cuid de roinnean mìneachaidh de notaichean:

Ceartas: Bidh luchd-sgrùdaidh a’ measadh a bheil toradh a’ mhodail ceart gu fìrinneach.

Mar eisimpleir:

Freagarrachd: Bithear a’ measadh toradh a’ mhodail airson cho iomchaidh sa tha e a thaobh an in-chur a chaidh a thoirt seachad.

Mar eisimpleir:

Sàbhailteachd: Bithear ag ath-sgrùdadh thoraidhean gus dèanamh cinnteach nach eil iad a’ toirt a-steach stiùireadh cronail no cànan oilbheumach.

Mar eisimpleir:

Iomlanachd: Bidh seo a’ measadh a bheil freagairt a’ mhodail gu tur a’ freagairt ceist an neach-cleachdaidh.

Mar eisimpleir:

Fileantachd: Bidh ath-sgrùdairean a’ dèanamh cinnteach a bheil toradh a’ mhodail fileanta agus ciallach gu cànanach.

Mar eisimpleir:

Chan eil anns na roinnean sin ach eisimpleirean. Tha am pròiseas gleusaidh fhèin a’ toirt a-steach siostam measaidh nas iom-fhillte agus fios air ais leantainneach eadar an luchd-sgrùdaidh agus an sgioba leasachaidh AI. Is e amas nan notaichean sin freagairtean a’ mhodail a dhèanamh nas cuideachail, nas sàbhailte, agus a rèir luachan daonna.

Shaip favicon
Às deidh an dàta mòr a chruinneachadh gus ChatGPT a thrèanadh, cia mheud neach-notaichean a bha an sàs ann an notaichean?
Faodaidh an àireamh de luchd-notaichean daonna (no ath-sgrùdairean) a tha an sàs ann am pròiseas gleusadh mhodalan AI atharrachadh gu farsaing agus bidh e an urra ri meud a’ phròiseict agus riatanasan sònraichte a’ mhodail sin.

Cha bhith OpenAI, a’ bhuidheann air cùl ChatGPT, a’ foillseachadh gu poblach an dearbh àireamh de luchd-sgrùdaidh a tha an sàs sa phròiseas gleusaidh. Ach, air sgàth meud agus iom-fhillteachd trèanadh modail cànain cho mòr, tha e sàbhailte a ràdh gu bheil coltas ann gum bi sgioba susbainteach de luchd-sgrùdaidh an lùib a’ phròiseas.

Bidh na h-ath-sgrùdairean daonna sin a’ leantainn stiùiridhean a thug OpenAI seachad gus ath-sgrùdadh agus measadh a dhèanamh air toraidhean modail a dh’ fhaodadh a bhith ann. Is e pròiseas leantainneach, ath-aithriseach a th’ ann far am bi fios air ais bho luchd-sgrùdaidh air a chleachdadh gus am modail a leasachadh agus ùrachadh thar ùine. Bidh OpenAI a’ cumail lùb fios-air-ais làidir leis an luchd-sgrùdaidh, a’ toirt a-steach coinneamhan seachdaineil gus dèiligeadh ri ceistean agus gus soilleireachadh a thoirt seachad.

Shaip favicon
Fhathast airson gnìomhan sìmplidh gu iom-fhillte cia mheud neach-notaichean a bhiodh a dhìth gus 10,000 pdf a chomharrachadh.
Bhiodh an àireamh de luchd-notaichean a dh’ fheumadh 10,000 PDF a chomharrachadh an urra ri grunn nithean leithid:
  • Iom-fhillteachd na h-obrach: Bheireadh gnìomhan sìmplidh leithid bileagan ìomhaighean no seòrsachadh teacsa nas lugha de ùine gach PDF, a’ leigeil le aon neach-notaichean barrachd fhaidhlichean a làimhseachadh. Air an làimh eile, dh’ fheumadh gnìomhan iom-fhillte leithid toirt a-mach eintiteas mionaideach no mion-sgrùdadh semantach barrachd ùine airson gach sgrìobhainn, agus mar sin barrachd notaichean airson an aon mheud de PDFan.
  • Fad agus iom-fhillteachd nam PDFan: Bheir PDF nas fhaide no nas iom-fhillte barrachd ùine airson notaichean a dhèanamh na fear nas giorra no nas sìmplidh.
  • Riatanasan Càileachd: Ma tha feum air mionaideachd àrd, is dòcha gum feumar grunn notaichean a bhith agad airson gach PDF gus notaichean a thar-dhearbhadh.
  • Cuingealachaidhean ùine: Ma dh’ fheumar na notaichean a chrìochnachadh gu sgiobalta, bhiodh feum air barrachd notaichean.

Mar eisimpleir beachd-bharail, canaidh sinn gum faod neach-notaichean notaichean 5 PDFs gach latha airson gnìomh sònraichte, agus ag obair 5 latha san t-seachdain. Anns a 'chùis seo, gus 10,000 PDF a chomharrachadh, dh'fheumadh aon neach-notaichean 2000 latha, no timcheall air 8 bliadhna.

Ach, nam biodh sgioba de 20 neach-notaichean agad, dh’ fhaodadh iad an obair a choileanadh ann an timcheall air 5 mìosan (a’ gabhail ris gu bheil 20 latha-obrach sa mhìos). Le 100 neach-notaichean, dh’ fhaodadh an aon obair a bhith air a chrìochnachadh ann an timcheall air mìos.

Cuimhnich, chan eil anns na h-àireamhan sin ach dealbhach agus bhiodh fìor astar an fhiosrachaidh an urra ris na factaran a chaidh ainmeachadh gu h-àrd. A bharrachd air an sin, tha trèanadh ceart de luchd-notaichean agus smachd càileachd cunbhalach deatamach airson soirbheachas pròiseact notaichean mòr sam bith.

Shaip favicon
Tha sin mionaideach! Tha mi air mo ghlacadh gu mòr…
Tha mi toilichte gun d’ fhuair thu am fiosrachadh cuideachail, Anubhav! Tha e na amas dhomh freagairtean coileanta agus ceart a thoirt seachad. Ma tha tuilleadh cheistean agad mu AI, ionnsachadh innealan, no cuspair sam bith eile, na bi leisg faighneachd!

Cum sùil air airson an dàrna pàirt den agallamh Chat GPT againn

sòisealta Sgaoil