10/05/2024

Evaluering av maskinoversettelse: Den ultimate guiden

Si at du er en bedrift som har bestemt seg for å investere i et maskinoversettelsessystem. Du har gjort noen grunnleggende undersøkelser, og finner ut at det er mange alternativer å velge mellom. Hver og en hevder å score en viss mengde basert på visse beregninger, men du vet ikke hva tallene egentlig betyr. Hvordan vet du hvilket som passer best for deg?

Du må forstå hvordan evaluering av maskinoversettelse fungerer.

Denne artikkelen vil gå i dybden på temaet evaluering av maskinoversettelse. Den vil hjelpe deg å forstå hva det er, hvorfor du trenger det, og de forskjellige typene evalueringer, for å hjelpe deg med å ta en velinformert beslutning når du velger et MT-system å investere i.

Innledning: Hva er maskinoversettelsesevaluering?

Evaluering av maskinoversettelse refererer til de forskjellige prosessene å måle ytelsen til et maskinoversettelsessystem på.

Det er en måte å score kvaliteten på MT slik at det er mulig å vite hvor bra systemet er, og det er et solid grunnlag for å sammenligne hvor effektive forskjellige MT-systemer er. For å gjøre dette bruker maskinoversettelsesevaluering kvantifiserbare beregninger.

Hvorfor er beregninger for evaluering av maskinoversettelse viktig?

Det er to hovedgrunner til at evaluering av ytelsen til et MT-system må gjøres. Den første er å sjekke om det er bra nok for anvendelse i den virkelige verden. Den andre er å virke som en guide i forskning og utvikling.

For å sjekke om det er bra nok for bruk i den virkelige verden

Det første, selvfølgelig, er å avgjøre om MT-systemet fungerer på et nivå som er godt nok til faktisk bruk. Denne grunnen har mest direkte relevans for sluttbrukere. Hvis maskinoversettelsessystemet fungerer dårlig, er det mer sannsynlig at brukerne velger noe annet.

Industrisektorer som bruker MT vil også ha konkrete beregninger for å bestemme hvilket MT-system som skal skaffes. Tross alt er MT en investering, og bedrifter trenger å få best mulig verdi for pengene sine.

Som sådan må MT-utviklere vurdere om maskinoversettelsessystemets kvalitet er god nok til at de kan sende det ut til kunder.

Å virke som en guide i forskning og utvikling

MT-systemer er ideelt sett ikke en statisk enhet. Teknologien for MT forbedres kontinuerlig over tid. Det er fornuftig at MT-systemer også bør forventes å bli bedre.

Det er her forskning kommer inn, og forskere må ha en guide om hvor de skal lete. Målbare beregninger lar forskere sammenligne om en bestemt tilnærming er bedre enn en annen, og hjelper dem med å finjustere systemet.

Dette er spesielt bra for å se hvordan systemet håndterer konsistente oversettelsesfeil. Å ha målbare beregninger kan vise i en mer kontrollert setting om en bestemt tilnærming er i stand til å håndtere denne typen feil eller ikke.

Hvordan vurderer du resultatet til maskinoversettelser?

Det er to forskjellige måter å bestemme hvor godt et MT-system fungerer. Menneskelig evaluering gjøres av menneskelige eksperter som gjør en manuell vurdering, mens automatisk evaluering bruker KI-baserte beregninger spesielt utviklet for å vurdere oversettelseskvalitet uten menneskelig inngripen. Hver har sine fordeler og ulemper. Vi vil gå nærmere inn på begge typer MT-evaluering i de senere avsnittene i denne artikkelen, men først, her er en rask oversikt over de to evalueringstypene av maskinoversettelse, samt tilnærmingene til MT-evaluering som bruker dem.

Menneskelig evaluering vs automatisk evaluering

Menneskelig evaluering av maskinoversettelse betyr at vurderingen av oversettelsens kvalitet utføres av menneskelige profesjonelle oversettere. Dette er det mest effektive alternativet når det gjelder å bestemme kvaliteten på maskinoversettelser ned på setningsnivå. Men menneskelig evaluering, som med menneskelig oversettelse, er av natur mer kostbar og tidkrevende.

Automatisk evaluering bruker derimot programmer bygget spesielt for å vurdere kvaliteten på maskinoversettelse i henhold til forskjellige metoder. Den er ikke like pålitelig som menneskelig evaluering på setningsnivå, men er et godt skalerbart alternativ når du vurderer den generelle kvaliteten på oversettelsen på flere dokumenter.

Tilnærminger til MT-evaluering

Tilnærmingene til evaluering av maskinoversettelse er basert på begrepet granularitet. Det vil si de forskjellige nivåene hvor poengsummen kan betraktes som signifikant.

Setningsbasert tilnærming. Under denne tilnærmingen får hver setning en poengsum som sier om oversettelsen er god (1) eller ikke god (0), og totalen blir gitt et gjennomsnitt. Dette gjøres oftest i menneskelig evaluering.

Dokumentbasert tilnærming. Dette er også kjent som den korpusbaserte tilnærmingen. Her blir setninger også gitt score, men den signifikante poengsummen er totalen eller gjennomsnittet blant et større sett med dokumenter. Dette er det minste nivået der automatisert MT-evaluering kan betraktes som betydelig, da det avhenger sterkt av statistikk fra et bredt datasett.

Kontekstbasert tilnærming. Denne tilnærmingen skiller seg fra de forrige, da det den tar hensyn til er hvor godt den samlede MT-oppgaven passer til formålene den er satt til, i stedet for gjennom gjennomsnittlige poengsummer basert på setninger. Som sådan kan det betraktes som en helhetlig tilnærming til MT-evaluering.

Utfordringer i evaluering av maskinoversettelse

Evaluering av maskinoversettelse er en vanskelig prosess. Dette er fordi språket i seg selv er en veldig kompleks ting.

For det første kan det være flere riktige oversettelser. Ta for eksempel følgende setning:

Den raske brune reven hoppet over den late hunden.

Et MT-system kan generere følgende oversettelse i stedet:

Den raske brune reven kastet seg over den indolente hunden.

Dette er en teknisk korrekt oversettelse, og i menneskelig evaluering vil den normalt være merket som sådan. Men i automatisert evaluering vil det bli merket som feil.

Små detaljer kan også endre betydningen av en setning fullstendig.

Den raske brune reven hoppet på den late hunden.

Her er det bare ett ord som er endret. Men det ene ordet endrer betydningen av setningen fullstendig. Automatiske evalueringer vil sannsynligvis markere det høyere enn forrige eksempel. Menneskelige oversettere vil sannsynligvis fange opp feilen, men noen kan anse det som riktig.

Og det er fordi språk kan være subjektivt. Selv menneskelige evaluatorer kan variere i sine vurderinger om en oversettelse er god eller ikke.

Menneskelig evaluering: Gullstandarden

Nå som vi har gått gjennom det grunnleggende, la oss ta en grundig titt på de to typene MT-evalueringer, og vi begynner med menneskelig evaluering.

På det mest grunnleggende nivået er målet med maskinoversettelse å oversette tekst fra et kildespråk til et målspråk på et nivå som mennesker kan forstå. Som sådan er mennesker det beste referansepunktet for å evaluere kvaliteten på maskinoversettelse.

Typer av menneskelig evaluering

Det er en rekke forskjellige måter menneskelig evaluering gjøres på, som vi skal gå inn på nå:

Direkte vurdering

Dette er den enkleste typen menneskelig evaluering. Maskinoversettelsesutdata blir scoret på setningsnivå.

Utfordringen med direkte vurdering er at forskjellige dommere vil variere mye i måten de scorer på. Noen kan ha en tendens til å gå for ytterpunktene når det gjelder score, og markerer oversettelser som enten veldig dårlige eller veldig gode. Andre kan være mer konservative, og markere de samme setningene med score nærmere midten.

En annen utfordring er, igjen, subjektivitet. For å bedømme om en setning er en dårlig oversettelse eller ikke, må evaluatorer ta beslutninger om språk som er tvetydig. Tilbake til eksempelsetningen:

Den raske brune reven hoppet over den late hunden.

Her er ikke hunden nødvendigvis feil, men den passer heller ikke best. Noen evaluatorer kan anse det som godt nok, mens andre kan flagge det som helt feil. For eksempel, hvis poengsummen gjøres på en 5-punkts skala, kan noen oversettere markere den som 4, mens en annen kan gi den bare en 2.

Disse utfordringene kan oppveies ved å ansette et større utvalg av evaluatorer, noe som gjør at poengsummene kan normaliseres på statistiske vilkår.

Rangering

En annen måte å vurdere maskinoversettelsessystemer gjennom menneskelig evaluering er rangering.

I dette tilfellet gir ikke evaluatorer individuelle poeng for setninger, men sammenligner i stedet med oversettelser fra forskjellige MT-systemer. De bestemmer deretter hvilken som er den beste oversettelsen, hvilken som er nest best, og så videre.

Fordelen med denne metoden fremfor direkte vurdering er at den umiddelbart gir en direkte sammenligning, i motsetning til å sammenligne score som er generert over forskjellige forsøk og muligens av forskjellige evaluatorer.

Imidlertid lider den fortsatt av utfordringen med subjektivitet. Ulike MT-systemer vil sannsynligvis komme med forskjellige feil. For eksempel:

Den raske grønne reven hoppet over den late hunden.

Hurtig brunrev hoppet over lat hund.

Den raske brune reven hopper over den late hunden.

Hver setning har en enkel feil. Den første har en feiloversettelse. Den andre utelater artikler. Den tredje mangler verbtider.

Evaluatorer må nå bestemme hvilken feil som er viktigere enn den andre, og igjen kan evaluatorer ha forskjellige meninger om saken.

Etterredigeringsarbeid

Hvis brukerens formål med et MT-system er å forberede dokumenter for etterredigering, er det også måter å evaluere det i henhold til hvor mye innsats det tar å etterredigere.

Det grunnleggende formålet med etterredigering er å la en oversetter jobbe raskere enn om de skulle oversette en tekst fra bunnen av. Som sådan er den enkleste måten å vurdere et MT-system for etterredigering å måle tiden det tar for oversetteren å korrigere de maskinoversatte utdataene.

En annen måte å måle etterredigeringsinnsatsen på er ved å tabulere antall slag på tastaturet som det vil ta for å erstatte den maskinoversatte teksten med en menneskelig referanseoversettelse. Dette er uavhengig av tidsbegrensninger, men tar heller ikke hensyn til muligheten for flere korrekte oversettelser.

Oppgavebasert evaluering

Så er det oppgavebasert evaluering som, som navnet antyder, vurderer et MT-system basert på hvor godt det passer til oppgaven. Hvis det for eksempel brukes i en flerspråklig webinar-setting, kan deltakerne bli bedt om å vurdere opplevelsen sin med en maskinoversatt transkripsjon. Dette betyr at de vurderer resultatet til MT-systemet som helhet.

Problemet med denne tilnærmingen er at den er veldig åpen for innføring av andre ukontrollerte elementer som kan påvirke vurderingen evaluatorene gir. Som sådan er bruken av oppgavebasert evaluering veldig situasjonell.

Generelle utfordringer i menneskelig evaluering

Som du kanskje kan se, kommer de forskjellige typene menneskelig evaluering av MT med sine egne utfordringer. Det er også noen utfordringer som de deler bredt, og disse har å gjøre med konsistens eller enighet.

Inter-annotatorenighet

Dette refererer til konsistensen av score mellom forskjellige evaluatorer. Som vi nevnte tidligere, vil forskjellige evaluatorer ha varierende tendenser i måten de scorer de samme tekstsegmentene på. Noen kan score dem helt i ytterpunktene eller mot midten. Når du rangerer forskjellige MT-motorer, kan deres meninger også variere. Dette er grunnen til at det er viktig å ha flere evaluatorer, slik at fordelingen av poengsummene blir normalisert.

Intra-annotatorenighet

Måten en enkelt evaluator scorer en tekst på er også et mål for gyldighet. En evaluator kan score en setning som god eller dårlig første gang, men de kan ombestemme seg når de gjentar den samme testen. Å ha en høy grad av intra-annotatorenighet sikrer at den valgte evaluatoren kan betraktes som konsistent og pålitelig.

Automatisk evaluering: Det skalerbare alternativet

Menneskelig evaluering regnes som gullstandarden når det gjelder å evaluere kvaliteten på maskinoversettelse. Det er imidlertid en kostbar bestrebelse når det gjelder innsats og tid. Dette er grunnen til at forskere på området har utviklet forskjellige måter å evaluere MT-kvalitet på gjennom automatiserte prosesser.

Disse prosessene er designet for å tilnærme seg hvordan mennesker vil evaluere MT-systemet. Selvfølgelig er de langt fra perfekte på dette, men automatisk evaluering har fortsatt svært viktige brukstilfeller.

Den største fordelen med automatisk evaluering fremfor menneskelig evaluering er skalerbarheten. Den er mye raskere på å kjøre hundrevis av forekomster av automatisk evaluering enn til og med én runde med menneskelig evaluering. Dette gjør den til en ideell løsning når du gjør justeringer eller optimaliserer MT-systemet, noe som trenger raske resultater.

Utfordringer i automatisk evaluering

I motsetning til mennesker er maskiner ikke utstyrt for å håndtere de forskjellige nyansene i språkbruk. Automatiske evalueringssystemer er basert på at MT har et nøyaktig samsvar med en referansetekst, og mindre forskjeller kan ha innvirkning på den endelige poengsummen. Disse forskjellene kan omfatte avvik i morfologi, bruk av synonymer og grammatisk rekkefølge.

Alt som kan betraktes som teknisk eller mer eller mindre korrekt av en menneskelig evaluator, kan muligens straffes i automatisk evaluering. Ikke desto mindre, antall eksakte treff, spesielt når man vurderer et stort utvalg av tekst, er ofte nok til å gjøre automatisk evaluering mulig for bruk.

Automatiske evalueringsberegninger

Det er en rekke forskjellige automatiske evalueringsberegninger tilgjengelig i dag. Her er noen eksempler på de som er i bruk:

      BLEU (tospråklig evalueringsunderstudie)

      NIST (fra Nasjonalt institutt for standarder og teknologi)

      METEOR (Metrikk for evaluering av oversettelse med eksplisitt bestilling)

      LEPOR (lengde-straff, presisjon, n-gram posisjonsforskjell-straff og tilbakekalling)

      COMET 

      PRIS

      TER (oversettelsesfeilrate)

Hver beregning fungerer på forskjellige algoritmer og håndterer som sådan prosessen med automatisk evaluering forskjellig. Det betyr at de har forskjellige styrker og svakheter, og er forskjellige med hensyn til hvilke typer feil de gir høyere eller lavere straffer til.

BLEU, den mest populære beregningen

Av alle beregningene som er nevnt ovenfor, er BLEU den som er mest brukt. Det var en av de første beregningene som oppnådde et høyt nivå av korrelasjon med menneskelig evaluering, og har skapt mange forskjellige varianter.

Det fungerer ved at individuelle setninger blir scoret mot et sett med referanseoversettelser av høy kvalitet. Disse poengsummene blir deretter gjennomsnittet, og det resulterende tallet er den endelige BLEU-poengsummen for det MT-systemet. Denne poengsummen representerer hvor tett MT-systemets utdata samsvarer med den menneskelige referanseoversettelsen, som er markøren for kvalitet.

Resultatene beregnes ved hjelp av enheter kalt n-gram, som refererer til segmenter av påfølgende tekst. Tilbake til den tidligere eksempelsetningen, for eksempel:

Den raske brune reven hoppet over den late hunden.

Dette kan deles inn i n-gram av forskjellig lengde. Et 2 gram, for eksempel, vil være «Den raske», «rask brun» eller «brun rev». Et 3-gram ville være «Den raske brune» eller «rask brun rev». Et 4-gram ville være «Den raske brune reven». Og så videre.

Det er en kompleks matematisk prosess, men helt grunnleggende beregner BLEUs algoritme poengsummen ved å sjekke antall overlappinger mellom n-gram. Den beregnede poengsummen vil være mellom 0 og 1, med 1 som representerer en helt identisk match mellom referansen og utgangssetningen. Ta nå følgende variasjon på eksempelsetningen:

Den raske brune reven hoppet over den late hunden.

Alle n-grammene vil matche bortsett fra de som har ordet «rask». Et annet eksempel:

Den raske brune reven hoppet over hunden.

I dette eksemplet mangler ordet «lat», slik at det også påvirker overlappingen negativt. I begge tilfeller, vil BLEU-poengsummen fortsatt være høy, men mindre enn 1.

I praksis vil ikke mange setninger vise dette høye korrelasjonsnivået. Som sådan blir BLEU-score statistisk signifikante bare når de tas i sammenheng med et stort utvalg av tekst eller korpus.

Det er selvfølgelig andre faktorer som inngår i beregningen av BLEU-poengsummen, for eksempel straffer for ekstra ord eller veldig korte setninger. Andre derivatpoengsystemer er utviklet for å kompensere for manglene, men BLEU er fortsatt høyt rangert og fortsetter å være det mest brukte MT-evalueringssystemet i dag.

Avsluttende ord om MT-evaluering

Og det dekker det grunnleggende om evaluering av maskinoversettelse. Som vi har vist, kan vurdering av et MT-system gjøres gjennom menneskelig evaluering eller automatisk evaluering. Begge prosessene har sine fordeler og ulemper.

Menneskelig evaluering er gullstandarden når det gjelder kvalitet, men er dyr og tidkrevende. Automatisk oversettelse er ikke like nøyaktig, men den er rask og skalerbar. Som sådan har begge typene sine spesifikke brukstilfeller der de skinner.