Arweinydd y prosiect aml-sefydliad hwn yw Dawn Knight o Brifysgol Caerdydd. Mae'n cynnwys sefydliadau partner ym Mhrifysgolion Abertawe, Bangor a Chaerhirfryn. Bydd CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes: yn torri tir newydd fel adnodd iaith a model o greu corpws. Mae dau Gynorthwy-ydd Ymchwil ym Mhrifysgol Abertawe yn rhan o'r prosiect, yn ogystal ag eraill mewn sefydliadau partner eraill.
Bydd y prosiect hwn yn creu corpws sylweddol ar gyfer yr Iaith Gymraeg. Hwn fydd y corpws cyntaf erioed ar raddfa fawr i gynrychioli Cymraeg llafar, ysgrifenedig a Chymraeg y cyfryngau cymdeithasol (gan gasglu 10 miliwn o eiriau Cymraeg ynghyd mewn set ddata gychwynnol). Bydd ganddo ddyluniad ymarferol sy'n seiliedig, o'r cychwyn cyntaf, ar fewnbwn cynrychiolwyr yr holl grwpiau o ddefnyddwyr academaidd a chymunedol disgwyliedig. Bydd CorCenCC yn darparu buddion cymdeithasol, economaidd ac academaidd drwy:
- Hwyluso defnydd o'r Gymraeg mewn sefyllfaoedd cyhoeddus, masnachol, addysgol a llywodraethol.
- Ailddiffinio cwmpas, perthnasedd ac isadeiledd dylunio methodoleg datblygu corpws.
Mae corpws yn caniatáu i ddefnyddwyr nodi ac archwilio iaith fel y mae'n cael ei defnyddio, yn hytrach na dibynnu ar reddf neu adroddiadau rhagnodol am sut y 'dylid' ei defnyddio. Defnyddir yr ymagwedd hon sy'n seiliedig ar dystiolaeth gan ymchwilwyr academaidd, geiriadurwyr, athrawon, dysgwyr iaith, aseswyr, datblygwyr adnoddau, llunwyr polisi, cyhoeddwyr, cyfieithwyr ac eraill, ac mae'n hanfodol i ddatblygiad technolegau megis cynhyrchu testun rhagfynegol, offer prosesu geiriau, cyfieithu peirianyddol, offer adnabod llais a chwilio'r we. Nid oes gan y Gymraeg unrhyw gyfleuster corpws cynhwysfawr i ddiwallu'r holl anghenion hyn.
Bydd CorCenCC yn manteisio ar ddiddordeb cymunedol cynyddol mewn cynnal a 'thyfu'r' Gymraeg, gan ddefnyddio cymorth torfol, dull newydd, pwerus o gasglu data sydd â'r potensial i weddnewid prosesau adeiladu corpws. Caiff siaradwyr Cymraeg eu recriwtio, drwy'r cyfryngau cymdeithasol a darlledu, sioeau teithiol a rhwydweithiau sefydledig, i recordio a lanlwytho eu data eu hunain drwy ap symudol, gan gyfrannu at godio data hyd yn oed. Mae'r ymagwedd hon yn addo cofnodi iaith gynrychioladol ar draws sawl genre, amrywiaeth iaith (ranbarthol a chymdeithasol) a chyd-destun. Bydd dulliau traddodiadol o gasglu data'n ategu'r cymorth torfol, gan sicrhau cydbwysedd cynrychioladol o ddata fel y nodir yn nhargedau'r prosiect.
Mae'r prosiect yn cynnwys gwaith cydweithio â gwyddonwyr cyfrifiadurol, arbenigwyr y Gymraeg, arbenigwyr addysgol a chydweithwyr ym maes ieithyddiaeth gymhwysol. Mae grŵp ymgynghori'r prosiect yn cynnwys cynrychiolwyr o amrywiaeth eang o grwpiau rhanddeiliaid allanol. Mae'r rhain yn cynnwys y canlynol: Llywodraeth Cymru, Cynulliad Cenedlaethol Cymru, Cyd-bwyllgor Bwrdd Arholi Cymru, y Ganolfan Genedlaethol ar gyfer Dysgu Cymraeg, SaySomethingin.com, Gwasg y Lolfa, Llyfrgell Genedlaethol Cymru a Geiriadur Prifysgol Cymru.