Mae Preben Vangberg a Leena Farhat yn fyfyrwyr sy'n astudio am ddoethuriaeth yn yr Ysgol Cyfrifiadureg a Pheirianneg Electronig ym Mhrifysgol Bangor. Cyllidir eu hastudiaethau gan yr Artificial Intelligence, Machine Learning and Advanced Computing (AIMLAC) Centre for Doctoral Training (CDT). Cyllidir AIMLAC gan UKRI. Mae eu traethodau doethurol yn ymchwilio i ddata mawr a deallusrwydd artiffisial. Mae gwaith Preben yn gydweithrediad rhwng Cyfrifiadureg a鈥檙 Uned Technolegau Iaith yng Nghanolfan Bedwyr (data iaith mawr), ac mae 听Leena yn cydweithio gyda Chyfrifiadureg a Gwyddorau鈥檙 Eigion (data mawr gwyddorau cymdeithas).
Cyhoeddodd Mozilla gystadleuaeth fyd-eang ym mis Mehefin 2022. Mae eu cystadleuaeth,听, wedi ei chynllunio i ymchwilio i ragfarn mewn modelau iaith, yn enwedig testun-i-leferydd. Mae'r modelau hyn yn canolbwyntio ar hybu amrywiaeth a chynhwysiant. Casglwyd cyflwyniadau gan Mozilla o bedwar ban byd.听, a Preben a Leena oedd un o鈥檙 timau.
"Roedd yn anrhydedd ennill y gystadleuaeth hon, ynghyd 芒鈥檙 enillwyr eraill. Roedd ein model yn canolbwyntio ar yr iaith leiafrifol Romansh. Mae gan y iaith hon o鈥檙 Swistir ddwy dafodiaith, sef听Sursilvan a Vallader.鈥 Aeth Preben ymlaen i ddweud, 鈥淩oeddem yn falch ofnadwy bod y beirniaid wedi canmol ein gwaith am ei berfformiad, a鈥檌 gyfradd gwallau bach.鈥澨
Gan fod hon yn iaith leiafrifol, mae鈥檙 adnoddau i hyfforddi鈥檙 model, sy鈥檔 dod o recordiadau sain a thestun, yn gyfyngedig. Gwnaethom ddefnyddio hen bapurau newydd o鈥檙 Swistir o gorpws testun clir o ansawdd uchel sydd ar gael yn gyhoeddus.
Aeth Preben ymlaen听
鈥Mae'r dull yn gweithio mewn sawl cam. Yn gyntaf, gwnaethom hyfforddi model acwstig sy'n gyfrifol am drawsnewid y synau yn gynrychioliad testunol. Yna gwnaethom hyfforddi model iaith (model N-gram) i helpu i gynorthwyo'r model acwstig a thrwsio'r camgymeriadau sillafu yn yr allbwn. Yn drydydd, gwnaethom hyfforddi modelau pwrpasol i dafodieithoedd amrywiol Romansch, tra hefyd yn efelychu鈥檙 effaith o gael data testun da ar gyfer y tafodieithoedd unigol ond heb unrhyw ddata llafar. Perfformiodd ein modelau yn dda, ond dim ond un rhan o'r project oedd hynny. Gwnaethom ddangos eich bod yn gallu creu modelau lleferydd i destun da trwy ddefnyddio model iaith sydd wedi ei hyfforddi ar y dafodiaith darged tra鈥檔 defnyddio model acwstig wedi ei lunio ar gyfer tafodiaith wahanol.鈥澨
惭别诲诲补颈鈥檙
Athro Jonathan Roberts, arweinydd CDT (Canolfan Hyfforddiant Doethurol) gyda chyllid ym Mhrifysgol Bangor
鈥淢ae鈥檔 destun balchder mawr bod ymdrech Preben a Leena wedi talu ar ei ganfed. Mae eu gwaith yn dangos ein diddordeb parhaus mewn dadansoddi testun, deallusrwydd artiffisial, a chydweithio rhwng Cyfrifiadureg a鈥檙 Uned Dechnolegau Iaith yng Nghanolfan Bedwyr. Yn wir, cyn gwneud eu doethuriaeth, bu Leena a Preben yn astudio ar ein cwrs MSc newydd mewn technolegau iaith. Rwy鈥檔 edrych ymlaen i weld sut bydd y gwaith hwn yn datblygu yn y dyfodol鈥.听