tietokoneohjelman suorittamaa kielenkääntämistä From Wikipedia, the free encyclopedia
Konekääntäminen tarkoittaa tietokoneohjelman suorittamaa kielenkääntämistä. Konekääntimet ovat perinteisesti perustuneet tilastoihin tai sääntöihin, ja ne ovat kääntäneet tekstiä muutama sana kerrallaan. Neuroverkkoihin perustuvia konekääntimiä alettiin ottaa käyttöön vuoden 2015 jälkeen. Ne tuottavat aiempaa laadukkaampia käännöksiä, mutta eivät toistaiseksi kuitenkaan yhtä virheettömiä kuin ammattimaiset ihmiskääntäjät. Ammattikääntäjätkin kuitenkin nykyisin hyödyntävät konekääntimien tekemiä raakakäännöksiä käännösprosessin ensimmäisessä vaiheessa.
Perinteisiä konekääntimiä ovat tilastopohjaiset ja sääntöpohjaiset konekääntimet. Tilastopohjainen konekäännin kääntää tekstiä vasemmalta oikealle muutama sana kerrallaan. Se koulutetaan syöttämällä sille suuri määrä lähdekielistä tekstiä ja sitä vastaavaa kohdekielistä tekstiä. Niiden pohjalta se tunnistaa sen, mikä on minkäkin käännös. Se käyttää algoritmeja todennäköisyyksien luomiseen alku- ja kohdekielisten dokumenttien välillä, ja ehdottaa käännöstä sen pohjalta.[1]
Sääntöpohjainen konekäännin käyttää algoritmeja, jotka analysoivat lähtötekstin syntaksin, ja se käyttää oppimiaan leksikaalisia ja kielioppisääntöjä kohdekielisen lauseen rakentamiseen. Se ei vaadi koulutusta tietyllä tekstimassalla kuten tilastopohjainen konekäännin, mikä tekee siitä monipuolisemman. Toisaalta se tarvitsee sanakirjojen apua.[1]
Pitkään konekääntimet olivat joko tilastopohjaisia tai sääntöpohjaisia, tai niiden yhdistelmiä. Vuoden 2015 jälkeen useat konekääntimet ovat alkaneet hyödyntää neuroverkkoja.[1] Neuroverkko ei tulkitse tekstiä pelkkinä merkkijonoina vaan katsoo, minkälaisessa ympäristössä sana esiintyy ja etsii käännöskielestä vastaavassa ympäristössä olevan sanan. Vasta jos käännösohjelma ei löydä sanaa, se alkaa etsiä samankaltaisuutta merkkipohjaisesti. Koska neuroverkko käsittelee tekstiä lauseittain, se saattaa muuttaa lauseen alun käännöstä lopun perusteella.[2]
Googlen käännösohjelma alkoi käyttää hyväkseen neuroverkkoja syksyllä 2016. Konekäännin hyödyntää voimakkaasti Googlen itse keräämiä hakutuloksia ja verkosta löytyvää tietoa.[2] Googlen lisäksi neuroverkkoja ovat hyödyntäneet kääntämisessä myös esimerkiksi Facebook, Microsoft sekä yliopistot kuten Harvard ja Helsingin yliopisto. Neuroverkkoteknologia otetaan käyttöön kieli kerrallaan: esimerkiksi Google aloitti syväoppivan neuroverkkokääntämisen 12 kielellä. Alan tutkimus on laajaa ja kehitys nopeaa.[1]
Konekäännöksiä hyödynnetään nykyisin hyvin paljon, ja verkossa on monia ilmaisia käännöskoneita. Vaikka käännöskoneet ovatkin 2010-luvulla kehittyneet selvästi, ne tekevät yhä virheitä, eivätkä ne ole korvanneet ihmiskääntäjiä. Korkealaatuisia konekäännöksiä pystytään tuottamaan hyvin rajoitetuissa käyttötilanteissa, joissa sanasto ja usein myös lauserakenteet voidaan määritellä tarkasti ja käännin räätälöidä niiden mukaisesti. Heikkolaatuisempikin konekäännös voi joskus auttaa lukijaa ymmärtämään tuntemattomalla kielellä kirjoitetun tekstin keskeisimmät sisällöt. Ihmiskääntäjä voi hyödyntää konekäännöstä raakakäännöksenä, josta hän korjaa valmiin käännöksen. Tällaisena työvälineenä kääntäjät ovat hyödyntäneet konekääntimiä yleisesti esimerkiksi suurissa organisaatioissa.[3]
Perinteisten konekääntimien ongelmia ovat esimerkiksi se, että tilastopohjainen konekäännin ei ymmärrä kontekstin merkitystä, ja sääntöpohjainen konekäännin ei ymmärrä metaforia. Erityisiä vaikeuksia perinteisille kääntimille aiheuttavat morfologisesti rikkaat kielet.[1] Englanniksi kääntävän kääntimen on myös esimerkiksi vaikea päätellä, pitäisikö suomen kielen "hän" kääntää "he" vai "she". Vaikeuksia aiheuttaa sekin, että indoeurooppalaisissa kielissä käytetään paljon prepositioita, kun taas suomessa asiat ilmaistaan päätteiden avulla. Hankaluuksia tuottavat myös homonyymit eli sanat, jotka voivat tarkoittaa useampaa asiaa. Konekäännökset törmäävät samoin ongelmiin, kun kyse on kulttuurisidonnaisista tai erityisalojen teksteistä.[4]
Konekääntäminen on sitä tarkempaa, mitä lähempänä lähtö- ja kohdekieli ovat toisiaan. Esimerkiksi rakenteeltaan samankaltaisten germaanisten kielten välillä konekäännin tekee vähemmän virheitä kuin suomesta germaanisiin kieliin tai toisin päin, sillä suomi on rakenteeltaan poikkeuksellinen. Kääntäminen on myös sitä sujuvampaa, mitä suuremmat aineistot kääntimellä on ollut käytettävissään oppimisvaiheessa. Tämä suosii suuria kieliä kuten englantia ja espanjaa. Suuret kielet hyötyvät myös siitä, että niillä konekääntämiseen on enemmän tutkijoita ja resursseja kuin pienillä kielillä.[5]
Konekääntämisen historia alkaa 1940-luvulta, jolloin Andrew Donald Booth ja Warren Weaver pohtivat tietokonekääntämisen teoriaa. Ensimmäiset kokeilut tehtiin vuonna 1954 APEXC-tietokoneella Lontoon yliopistossa (englanti–ranska) ja IBM:n tietokoneella Georgetownin yliopistossa (venäjä–englanti).
2010-luvulla konekääntämistä on tuotu esimerkiksi kopiokoneisiin, korvanappeihin ja kännykkäsovelluksiin sekä sähkökirjoihin.[3] Sanomalehtiä konekäännetään lähellä toisiaan olevien kielten kuten espanjan ja katalaanin välillä. Palvelujen ja tuotteiden vaatima tekninen käyttötuki suurilla eurooppalaisilla kielillä hoidetaan usein konekäännöksen avulla.[5]
Konekääntäminen on neuroverkkojen ansiosta kehittynyt nopeasti 2010-luvulla. Vuoden 2017 lopulla maailman kaikista käännöksistä jo yli 99 prosenttia tehtiin konekääntimillä, ja ammattikääntäjät tekivät enää alle yhden prosentin. Ammattikääntäjienkin tarve kuitenkin kasvaa jatkuvasti kansainvälisen kaupan ja kontaktien lisääntyessä.[5]
2010-luvulla on kehitetty myös konetulkkausta, jossa puhe käännetään reaaliaikaisesti toiselle kielelle. Konetulkkauksessa käännösvirheitä tulee kuitenkin vielä enemmän kuin tekstin kääntämisessä, sillä puheentunnistusvaihe lisää omat virheensä.[5]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.