Maes gwyddor cyfrifiadurol a ieithyddiaeth i greu systemau adnabod a defnyddio iaith fyw From Wikipedia, the free encyclopedia
Prosesu Iaith Naturiol (PIN; neu NLP o'i enw Saesneg, Natural Language Processing) yw'r ddisgyblaeth gyfrifiadurol sy'n gyfrifol am drin ieithoedd naturiol, neu ieithoedd dynol yn gyfrifiadol.[1] Mae Prosesu Iaith Naturiol yn cyfuno cyfrifiadureg, ieithyddiaeth a deallusrwydd artiffisial ac mae wedi'i wreiddio mewn datrys problemau drwy gymhwyso atebion technolegol sy'n prosesu ac yn dadansoddi iaith neu lafariad naturiol.[2]
Enghraifft o'r canlynol | disgyblaeth academaidd, arbenigedd, maes astudiaeth, cangen economaidd |
---|---|
Math | deallusrwydd artiffisial, cyfrifiadureg, computational linguistics, disgyblaeth academaidd |
Ffeiliau perthnasol ar Gomin Wicimedia |
Ganed PIN ar ddiwedd yr 1940au, ond ni fu ymdrechion i wneud cyfieithiad awtomatig rhwng Saesneg a Rwsieg (gan yr Unol Daleithiau, yn sgil y Rhyfel Oer) yn llwyddiannus gan fod modelau iaith syml iawn yn cael eu defnyddio, ac roedd pŵer cyfrifiaduron yn brin iawn. Er hyn, ar y pryd, disgwyla'r rheolwyr y byddai cyfieithu cyfiadurol ar gael ymhen pum mlynedd, ond nid felly a fu.[4] gan fod modelau iaith syml iawn yn cael eu defnyddio, ac roedd pŵer cyfrifiaduron yn brin iawn. Yn ystod yr 1960au a 70au, gydag amcanion mwy diymhongar, gwnaed datblygiadau pwysig wrth weithredu rhyngwynebau mynediad data mewn iaith naturiol. Ers y 1980au, diolch i rym cynyddol cyfrifiaduron — yn ogystal â mabwysiadu damcaniaethau ieithyddol mwy cymhleth — mae canlyniadau pwysig yn cael eu cyflawni mewn amrywiol feysydd, megis cyfieithu awtomatig.
Hyd at yr 1980au, roedd y rhan fwyaf o systemau NLP yn seiliedig ar setiau cymhleth o reolau mewn llawysgrifen. Fodd bynnag, o ddiwedd yr wythdegau bu chwyldro yn NLP gyda chreu algorithmau dysgu peirianyddol ar gyfer prosesu iaith. Roedd hyn oherwydd y cynnydd cyson mewn grym cyfrifiadurol (gweler Cyfraith Moore) a gostyngiad yn nylanwad damcaniaethau ieithyddol yr athronydd Noam Chomsky (megis gramadeg trawsnewidiol), lle nad yw’r seiliau damcaniaethol yn cyfateb i’r math o ieithyddiaeth corpws y mae’r math hwn o beiriant arno. dysgu yn seiliedig. [5]
Cynhyrchodd rhai o'r algorithmau dysgu peiriant cynharaf megis coed penderfyniad systemau gyda rheolau caled "os-yna" tebyg i reolau llawysgrifen presennol. Dechreuodd tagio rhan-o-leferydd weithredu modelau cudd Markov fel y'u gelwir, ac o hynny ymlaen, dechreuodd ymchwil yn NLP ganolbwyntio mwy ar fodelau ystadegol, lle gwneir penderfyniadau meddal, yn seiliedig ar debygolrwydd. Mae'r penderfyniadau'n seiliedig ar bwysau gwirioneddol werthfawr sy'n gysylltiedig â nodweddion yn y data mewnbwn. Mae'r hyn a elwir yn "modelau cast" (modelau iaith sy'n defnyddio cof cache), y mae llawer o systemau adnabod lleferydd yn seiliedig arnynt, yn enghreifftiau o fodelau ystadegol o'r fath. Mae'r modelau hyn yn gyffredinol yn fwy cadarn pan fyddant yn derbyn mewnbwn anhysbys, yn enwedig mewnbwn sy'n cynnwys gwallau (sy'n aml iawn yn wir gyda data byd go iawn). Mae canlyniadau'r modelau hefyd yn gyffredinol yn fwy dibynadwy pan gânt eu hintegreiddio i system fwy sy'n cynnwys is-dasgau lluosog.
Yn y dyddiau cynnar, dyluniwyd llawer o systemau prosesu iaith trwy ddulliau symbolaidd, h.y., codio set o reolau â llaw, ynghyd ag chwiliad geiriadur:[6][7] megis trwy ysgrifennu gramadegau neu ddyfeisio rheolau hewristig ar gyfer deillio.
Mae gan systemau mwy diweddar sy'n seiliedig ar algorithmau dysgu peiriannau lawer o fanteision dros reolau a gynhyrchir â llaw:
Er gwaethaf poblogrwydd dysgu peirianyddol mewn ymchwil NLP, mae dulliau symbolaidd yn dal i gael eu defnyddio (2020) yn gyffredin:
Prif gymwysiadau neu feysydd gwaith PIN ar hyn o bryd yw adalw gwybodaeth, echdynnu gwybodaeth, chwilio atebion, cyfieithu peirianyddol, cynhyrchu crynodebau, ac adnabod lleferydd.
Yn gyffredinol, mae PIN yn delio â dadansoddiad geiriadurol, dadansoddiad morffolegolo, dadansoddiad cystrawen, a dehongliad semantig er mwyn cyflawni ei hamcanion, er bod y rhan fwyaf o gymwysiadau yn canolbwyntio ar rai ohonynt ac nid pob un ohonynt. maent yn trin y cyfan yn fanwl.
Mae ieithoedd dynol i gyd yn amwys. Mae’r amwysedd hwn, y mae bodau dynol yn gwybod sut i ddelio ag ef a’i ddatrys yn anymwybodol y rhan fwyaf o’r amser, yn cyflwyno ei hun mewn gwahanol ffyrdd:
Er mwyn gweithio gydag ieithoedd naturiol, rhaid i'r PIN ddatrys yr holl amwyseddau hyn, gan droi'n aml at gynrychiolaeth fewnol sy'n dileu'r amwysedd hwn.
Yn seiliedig ar dueddiadau hirsefydlog yn y maes, mae'n bosibl allosod cyfeiriadau NLP yn y dyfodol. O 2020 ymlaen, gellir gweld tri thuedd ymhlith pynciau'r gyfres hirsefydlog o CoNLL Shared Tasks:[8]
Mae gwahanol unigolion, sefydliadau a Llywodraeth Cymru wedi mynd ati i brif-ffrydio'r iaith Gymraeg fewn i dechnoleg PIN.
Yn 2015 sefydlodd Lywodraeth Cymru Pecyn Cymorth Iaith Naturiol Cymru (WNLT). Nod WNLT oedd datblygu cyfres o fodiwlau meddalwedd cod agored sy'n galluogi cymwysiadau ieithyddol cyfrifiadurol Cymraeg a chryfhau seilwaith technoleg Cymraeg gyda set o offer prosesu iaith naturiol (NLP) craidd o fewn y Porth Fframwaith.[9] Yn hytrach na chreu Pecyn Cymorth Iaith Naturiol Cymru (WNLT) o’r newydd, roedd y dull yn ymwneud ag addasu a gwella’r ymarferoldeb prosesu iaith a ddarperir ar gyfer ieithoedd eraill o fewn fframwaith sy’n bodoli eisoes a gwneud defnydd o adnoddau iaith allanol pan oedd ar gael.[10]
Caiff y Porth Technolegau Iaith Cenedlaethol ei ddarparu gan Uned Technolegau Iaith Prifysgol Bangor. Bwriad y Porth yw darparu un man canolog i roi gwybod am adnoddau a digwyddiadau perthnasol, y rhan fwyaf ohonynt yn cael eu hariannu gan Lywodraeth Cymru. Mae'n dod o dan adain Canolfan Bedwyr sy'n rhan o'r Brifysgol. Diffinia Dechnoleg Iaith fel popeth lle mae cyfrifiaduron a dyfeisiau electronig yn ceisio gweithio gyda ieithoedd dynol. Gall hyn gynnwys adnabod lleferydd (lle mae pobl yn siarad a’r cyfrifiadur yn ymateb neu’n teipio’r testun), testun i leferydd (lle mae’r cyfrifiadur neu’r ddyfais yn siarad yr hyn sydd mewn testun ysgrifenedig, a hynny mewn llais synthetig), a chyfieithu peirianyddol (lle mae’r peiriant yn cyfieithu rhwng dwy neu fwy o ieithoedd, heb fod angen help cyfieithydd dynol). Mae hefyd yn cynnwys Prosesu Iaith Naturiol (NLP), lle mae’r cyfrifiadur yn defnyddio Deallusrwydd Artiffisial (AI) i ddadansoddi a deall iaith.[11]
Ynghyd â defnydd o PIN mewn technoleg fel adnabod lleferydd, mae hefyd i'w weld fwy-fwy mewn meysydd arbenigol fel y Gyfraith.[12]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.