May 10, 2024
Oletetaan, että yrityksesi on päättänyt investoida konekäännösjärjestelmään. Alustavaa tutkimusta tehdessäsi olet huomannut, että valittavissa on monia vaihtoehtoja. Kullekin niistä mainitaan tiettyihin mittareihin perustuva pistemäärä, muttet tiedä, mitä numerot oikeastaan tarkoittavat. Mistä tiedät, mikä vaihtoehdoista sopii sinulle parhaiten?
Sinun on ymmärrettävä, miten konekäännöksen arviointi toimii.
Tässä artikkelissa käydään konekäännöksen arviointi perusteellisesti läpi.Artikkeli auttaa sinua ymmärtämään, mitä arviointi tarkoittaa, miksi sellaista tarvitaan ja millaisia arviointitapoja on olemassa, jotta voit tehdä tietoon perustuvan päätöksen konekäännösjärjestelmää valitessasi.
Konekäännöksen arviointi viittaa prosesseihin, joilla mitataan konekäännösjärjestelmän suorituskykyä.
Se on tapa pisteyttää konekäännöksen laatu niin, että on mahdollista tietää, kuinka hyvä järjestelmä on, ja vertailla eri konekäännösjärjestelmien tehokkuutta.Tätä varten konekäännösten arviointiin käytetään määrällisiä mittareita.
On kaksi pääasiallista syytä sille, miksi konekäännösjärjestelmän suorituskykyä on arvioitava. Ensinnäkin näin voidaan selvittää, onko järjestelmä tarpeeksi hyvä tosimaailman sovelluksiin. Toisekseen se toimii oppaana tutkimuksessa ja kehityksessä.
Ensimmäiseksi on tietysti selvitettävä, toimiiko konekäännösjärjestelmä sellaisella tasolla, että se on riittävän hyvä todelliseen käyttöön. Tämä on loppukäyttäjille merkityksellisin syy. Jos konekäännösjärjestelmä toimii huonosti, käyttäjät valitsevat todennäköisesti toisen järjestelmän.
Konekääntämistä hyödyntävät teollisuudenalat haluavat myös valita käyttämänsä konekäännösjärjestelmän konkreettisten mittareiden perusteella. Onhan konekääntäminen loppujen lopuksi sijoitus ja yritysten saatava paras vastine rahoilleen.
Tästä syystä konekäännösjärjestelmien kehittäjien on arvioitava, onko järjestelmän laatu riittävän hyvä, jotta se voidaan lähettää asiakkaille.
Ihannetapauksessa konekäännösjärjestelmät eivät ole staattisia kokonaisuuksia. Konekäännöstekniikka paranee jatkuvasti ajan myötä. On luonnollista odottaa myös konekäännösjärjestelmien paranevan.
Tämä edellyttää tutkimusta, ja tutkijat tarvitsevat suuntaviivoja sille, mitä etsiä. Mittarit antavat tutkijoille mahdollisuuden vertailla eri menetelmiä, mikä auttaa heitä hienosäätämään järjestelmää.
Niistä on erityistä hyötyä tarkasteltaessa, kuinka järjestelmä käsittelee johdonmukaisia käännösvirheitä. Mittarien avulla voidaan nähdä hallitummassa ympäristössä, voidaanko tällaiset virheet ratkaista tietyllä menetelmällä.
On olemassa kaksi eri tapaa määrittää, kuinka hyvin konekäännösjärjestelmä toimii. Ihmisarvioinnin tekevät ihmisasiantuntijat manuaalisesti, kun taas automaattiseen arviointiin käytetään tekoälypohjaisia mittareita, jotka on tarkoitettu käännöksen laadun arviointiin ilman ihmistä. Kullakin tavalla on omat hyötynsä ja haittansa. Käymme artikkelin myöhemmissä osissa molemmat konekäännöksen arviointitavat tarkemmin läpi, mutta tässä ensin nopea yleiskatsaus molemmista tyypeistä sekä niitä hyödyntävistä arviointimenetelmistä.
Konekäännöksen ihmisarviointi tarkoittaa sitä, että ammattimaiset ihmiskääntäjät arvioivat käännöksen laadun. Tämä on tehokkain vaihtoehto konekäännöksen laadun määrittämiseen lausetasolla. Mutta ihmiskääntämisen tavoin ihmisarviointi on kalliimpaa ja vie enemmän aikaa.
Automaattiseen arviointiin taas käytetään erityisiä ohjelmia, jotka on kehitetty arvioimaan konekäännöksen laatu eri menetelmin. Se ei ole yhtä luotettavaa kuin lausetason ihmisarviointi, mutta se on hyvä, skaalautuva vaihtoehto arvioitaessa useita asiakirjoja kattavan käännöksen kokonaislaatua.
Konekäännöksen arviointimenetelmät perustuvat rakeisuuteen. Toisin sanoen siis eri tasoihin, joilla pistemäärää voidaan pitää merkittävänä.
Lauseperusteinen menetelmä. Tässä menetelmässä jokaiselle lauseelle annetaan pistemäärä, joka kertoo, onko sen käännös hyvä (1) vai ei (0), ja lopuksi lasketaan niiden keskiarvo. Tämä tehdään yleisimmin ihmisarviointina.
Asiakirjaperusteinen menetelmä. Tässäkin menetelmässä, jota kutsutaan myös korpusperusteiseksi menetelmäksi, lauseille annetaan pistemäärä, mutta ratkaiseva pistemäärä on laajemman asiakirjasarjan kokonaispistemäärä tai keskiarvo. Tämä on pienin taso, jolla automaattista konekäännöksen arviointia voidaan pitää merkittävänä, koska menetelmä riippuu suuresti laajasta tietojoukosta saaduista tilastoista.
Kontekstiperusteinen menetelmä. Tämä menetelmä eroaa edellisistä siinä, että huomioon otetaan konekäännöksen yleinen soveltuvuus tarkoitukseensa lauseille annettujen pistemäärien keskiarvon sijaan.Siksi sitä voidaan pitää kokonaisvaltaisena menetelmänä konekäännöksen arviointiin.
Konekäännöksen arviointi on hankala prosessi. Tämä johtuu siitä, että kieli itsessään on hyvin monimutkainen asia.
Ensinnäkin oikeita käännöksiä voi olla useita. Käytetään esimerkkinä seuraavaa lausetta:
Nopea ruskea kettu hyppäsi laiskan koiran yli.
Konekäännösjärjestelmä voi tuottaa sen sijaan seuraavan käännöksen:
Nopea ruskea kettu loikkasi verkkaisen koiran yli.
Tämä on teknisesti oikea käännös, ja ihmisarvioinnissa se yleensä merkittäisiin sellaiseksi. Mutta automaattisessa arvioinnissa se merkittäisiin virheelliseksi.
Pienet yksityiskohdat voivat myös muuttaa lauseen merkityksen kokonaan.
Nopea ruskea kettu hyppäsi laiskan koiran päälle.
Lauseesta on muutettu vain yksi sana.Tuo yksi sana kuitenkin muuttaa lauseen merkityksen täysin. Automaattisessa arvioinnissa sille annettaisiin todennäköisesti korkeampi arvosana kuin edelliselle esimerkille. Ihmiskääntäjät todennäköisesti havaitsisivat virheen, mutta jotkut saattaisivat pitää sitä oikeana.
Tämä johtuu siitä, että kieli on usein subjektiivinen asia.Jopa ihmisarvioijat voivat olla eri mieltä siitä, onko käännös hyvä vai ei.
Nyt kun olemme käyneet läpi perusteet, tarkastellaan tarkemmin molempia konekäännöksen arviointityyppejä, ihmisarvioinnista alkaen.
Lähtökohtaisesti konekääntämisen tavoitteena on kääntää teksti lähdekielestä kohdekielelle niin, että käännös on ihmisen ymmärrettävissä. Siksi ihmisarviointi on paras tapa konekäännöksen arviointiin.
Seuraavaksi käsitellään erilaisia tapoja, joilla ihmisarviointi voidaan suorittaa:
Tämä on yksinkertaisin ihmisarvioinnin tapa. Konekäännös pisteytetään lausetasolla.
Suoran arvioinnin haasteena on, että arvioijien pisteytystavat eroavat suuresti toisistaan. Joillakin saattaa olla taipumus mennä pisteytyksessä äärimmäisyyksiin ja merkitä käännös joko erittäin huonoksi tai erittäin hyväksi. Toiset taas ovat varovaisempia ja valitsevat samoille lauseille pistemäärän, joka on lähempänä puoliväliä.
Toinen haaste on edellä mainittu subjektiivisuus. Arvioidessaan, onko käännös huono vai ei, arvioijien on tehtävä päätöksiä kielestä, joka on usein tulkinnanvaraista.Palataan esimerkkilauseeseen:
Nopea ruskea kettu hyppäsi laiskan koiraeläimen yli.
”Koiraeläin” ei välttämättä ole väärin, mutta se ei myöskään ole paras vaihtoehto. Jotkut arvioijat saattavat pitää sitä riittävän hyvänä ja toiset merkitä sen täysin vääräksi. Jos pisteytykseen käytetään viiden pisteen asteikkoa, jotkut kääntäjät saattavat valita pistemääräksi 4 ja toiset vain 2.
Näihin haasteisiin voidaan vastata käyttämällä useampia arvioijia, mikä mahdollistaa pistemäärien normalisoinnin tilastollisesti.
Toinen tapa konekäännösjärjestelmien ihmisarviointiin on käännösten sijoittaminen paremmuusjärjestykseen.
Tässä tapauksessa arvioijat eivät anna lauseille pistemääriä, vaan vertailevat eri konekäännösjärjestelmien tuottamia käännöksiä. Sitten he päättävät, mikä käännöksistä on paras, mikä toiseksi paras ja niin edelleen.
Tämän menetelmän etuna suoraan arviointiin verrattuna on se, että käännöksiä vertaillaan suoraan ja välittömästi sen sijaan, että vertailtaisiin pistemääriä, jotka on saatu eri kokeista ja mahdollisesti eri arvioijilta.
Haasteena on kuitenkin edelleen subjektiivisuus. Erilaiset konekäännösjärjestelmät tuottavat todennäköisesti erilaisia virheitä.Esimerkki:
Nopea vihreä kettu hyppäsi laiskan koiran yli.
Quick brown fox jumped over lazy dog.
Nopea ruskea kettu hyppää laiskan koiran yli.
Jokaisessa lauseessa on yksinkertainen virhe. Ensimmäisessä on käännösvirhe. The second omits articles. Kolmannessa on väärä verbin aikamuoto.
Arvioijien on päätettävä virheiden tärkeysjärjestyksestä, ja kullakin heistä voi olla asiasta erilainen näkemys.
Jos konekäännösjärjestelmän tarkoituksena on valmistella asiakirjoja jälkieditointia varten, arviointi voidaan tehdä sen perusteella, kuinka paljon työtä jälkieditointi vaatii.
Jälkieditoinnin perimmäisenä tavoitteena on, että kääntäjä voi työskennellä nopeammin kuin teksti käännettäisiin alusta alkaen. Yksinkertaisin tapa arvioida jälkieditointiin tarkoitettua konekäännösjärjestelmää on mitata aika, joka kääntäjällä kuluu konekäännöksen korjaamiseen.
Toinen tapa mitata jälkieditoinnin vaatimaa työtä on laskea, kuinka monta näppäimistön painallusta konekäännöksen korvaaminen ihmiskäännökseen veisi. Tämä ei ota huomioon aikarajoituksia eikä sitä, että oikeita käännöksiä voi olla useita.
Tehtäväperusteinen arviointi – kuten nimestä voi päätellä – arvioi konekäännösjärjestelmää sen perusteella, kuinka hyvin se sopii käsillä olevaan tehtävään. Jos sitä käytetään esimerkiksi monikieliseen webinaariin, osallistujia voidaan pyytää arvioimaan mielipiteensä konekäännetystä translitteroinnista. Tämä tarkoittaa, että he arvioivat, kuinka konekäännösjärjestelmä on onnistunut kokonaisuudessaan.
Menetelmän ongelmana on, että se on altis muille elementeille, jotka voivat vaikuttaa annettuihin arvioihin. Tehtäväperusteinen arviointi on siksi hyvin tilannekohtainen.
Kuten olet saattanut huomata, konekäännöksen ihmisarviointimenetelmillä on omat haasteensa. Niillä on myös yhteisiä haasteita, jotka liittyvät yhdenmukaisuuteen tai yksimielisyyteen.
Tämä viittaa eri arvioijien antamien pistemäärien yhdenmukaisuuteen.Kuten aiemmin mainitsimme, eri arvioijilla on erilaisia taipumuksia sen suhteen, kuinka he pisteyttävät samat tekstisegmentit. Toiset ovat taipuvaisia valitsemaan pistemäärän ääripäistä ja toiset keskeltä. Heidän näkemyksensä voivat vaihdella myös eri käännöskoneita arvioitaessa. On tärkeää, että arvioijia on useita, jotta pistemäärien jakauma voidaan normalisoida.
Tapa, jolla yksittäinen arvioija pisteyttää tekstin, on myös pätevyyden mitta. Arvioija saattaa merkitä lauseen hyväksi tai huonoksi ensimmäisellä kerralla mutta muuttaa mieltään toistaessaan saman testin. Arvioijan yksimielisyys itsensä kanssa takaa, että häntä voidaan pitää johdonmukaisena ja luotettavana.
Ihmisarviointia pidetään parhaana vaihtoehtona konekäännöksen laadun arviointiin. Se on kuitenkin kallista ja työlästä. Siksi alan tutkijat ovat kehittäneet erilaisia keinoja arvioida konekäännöksen laatua automatisoitujen prosessien avulla.
Nämä prosessit on suunniteltu vastaamaan sitä, kuinka ihmiset arvioivat konekäännösjärjestelmiä. Tietenkään ne eivät suoriudu tästä läheskään täydellisesti, mutta automaattinen arviointi on silti tietyissä tapauksissa tärkeässä asemassa.
Automaattisen arvioinnin tärkein etu ihmisarviointiin verrattuna on sen skaalautuvuus. On paljon nopeampaa suorittaa satoja automaattisia arviointeja kuin yksi ihmisarviointi. Nopeat tulokset tekevät siitä ihanteellisen ratkaisun konekäännösjärjestelmien hienosäätöön ja optimointiin.
Toisin kuin ihmiset, koneet eivät hallitse kielenkäytön vivahteita. Automaattiset arviointijärjestelmät perustuvat konekäännöksen täsmällisiin vastaavuuksiin viitetekstin kanssa, joten pienillä eroilla voi olla merkittävä vaikutus lopulliseen pistemäärään. Tällaisiin eroihin voi kuulua morfologiset poikkeamat, synonyymit ja sanajärjestys.
Kaikesta, mitä ihmisarvioija voi pitää teknisesti oikeana, saatetaan rangaista automaattisessa arvioinnissa. Siitä huolimatta tarkkojen vastaavuuksien määrä – erityisesti silloin, kun tarkastellaan suurta tekstiotosta – riittää usein automaattiseen arviointiin.
Nykyään automaattiseen arviointiin on käytettävissä useita erilaisia mittareita. Tässä muutamia esimerkkejä:
●
●
●
●
●
●
●
Kukin mittari hyödyntää eri algoritmia, joten automaattinen arviointiprosessi suoritetaan eri tavalla kukin mittarin osalta. Tämä tarkoittaa, että mittareilla on erilaisia vahvuuksia ja heikkouksia. Ne eroavat toisistaan siinä, millaisista virheistä ne rankaisevat enemmän ja millaisista vähemmän.
BLEU on yleisin kaikista yllä mainituista mittareista. Se oli yksi ensimmäisistä mittareista, joka saavutti suuren korrelaation ihmisarvioinnin kanssa, ja sen pohjalta on kehitetty monia erilaisia muunnelmia.
Se toimii siten, että yksittäisiä lauseita pisteytetään korkealaatuisten viitekäännösten perusteella. Näille pisteille lasketaan keskiarvo, ja tulokseksi saatava luku on kyseisen konekäännösjärjestelmän lopullinen BLEU-pistemäärä. Tämä pistemäärä kuvaa, kuinka tarkasti konekäännösjärjestelmän tuotos vastaa ihmisen laatimaa, laadun merkkinä pidettävää viitekäännöstä.
Pisteet lasketaan käyttämällä n-grammeiksi kutsuttuja yksiköitä, jotka viittaavat yhtäjaksoisesta tekstistä koostuviin segmentteihin. Palataan aikaisempaan esimerkkilauseeseen:
Nopea ruskea kettu hyppäsi laiskan koiran yli.
Tämä voidaan jakaa eri pituisiin n-grammeihin. Esimerkiksi 2-grammeja olisivat ”nopea ruskea”, ”ruskea kettu” ja ”kettu hyppäsi”. 3-grammeja olisivat ”nopea ruskea kettu” ja ”ruskea kettu hyppäsi”. 4-grammi olisi ”nopea ruskea kettu hyppäsi”. Ja niin edelleen.
Kyseessä on monimutkainen matemaattinen prosessi, mutta yksinkertaisesti sanottuna BLEU:n algoritmi laskee pistemäärän tarkistamalla n-grammien päällekkäisyyksien määrän. Laskettu pistemäärä on välillä 0–1, ja 1 edustaa täysin identtistä vastaavuutta viitelauseen ja käännöskoneen tuottaman lauseen välillä. Katso nyt seuraavaa muunnelmaa esimerkkilauseesta:
Vikkelä ruskea kettu hyppäsi laiskan koiran yli.
Kaikki n-grammit vastaavat lausetta lukuun ottamatta niitä, joissa on sana ”vikkelä”. Toinen esimerkki:
Nopea ruskea kettu hyppäsi koiran yli.
Tästä esimerkistä puuttuu sana ”laiska”, mikä myös vaikuttaa päällekkäisyyteen negatiivisesti. Molemmissa tapauksissa BLEU-pisteet olisivat edelleen korkeita mutta alle 1.
Käytännössä useimpien lauseiden korrelaatio ei ole näin suuri. BLEU-pisteet ovat siis tilastollisesti merkittäviä vain, kun kyseessä on suuri tekstinäyte tai korpus.
BLEU-pisteisiin vaikuttavat tietenkin muutkin tekijät, kuten rangaistukset ylimääräisistä sanoista ja hyvin lyhyet lauseet.Vaikka BLEU:n pohjalta on kehitetty muita pisteytysjärjestelmiä sen heikkouksien kompensoimiseksi, se on edelleen suosituin ja laajimmin käytetty konekäännöksen arviointijärjestelmä.
Konekäännöksen arvioinnin perusteet on nyt käyty läpi. Kuten edeltä käy ilmi, konekäännösjärjestelmien arviointi voidaan suorittaa ihmisen toimesta tai automaattisesti. Molemmilla tavoilla on omat hyötynsä ja haittansa.
Ihmisarviointi on laadun kannalta paras mutta kallis ja aikaa vievä menetelmä.Automaattinen arviointi ei ole yhtä tarkkaa, mutta se on nopeaa ja skaalautuvaa.Molemmille tavoille on erityiset käyttötapauksensa, joissa ne pääsevät loistamaan.