May 13, 2024
Säg att du är ett företag som har beslutat att investera i ett system för maskinöversättning.Du har gjort en del grundläggande forskning och upptäcker att det finns så många alternativ att välja mellan. Var och en hävdar att de får ett visst belopp baserat på vissa mätvärden, men du vet inte vad siffrorna egentligen betyder. Hur vet du vilket system som passar dig bäst?
Du måste förstå hur utvärdering av maskinöversättningen fungerar.
Den här artikeln kommer att gå på djupet i ämnet utvärdering av maskinöversättning. Det hjälper dig att förstå vad det är, varför du behöver det, och de olika typerna av utvärdering som finns så att du kan fatta ett välgrundat beslut när du väljer ett MT-system att investera i.
Utvärdering av maskinöversättning avser de olika processerna för att mäta prestanda hos ett system för maskinöversättning.
Det är ett sätt att betygsätta kvaliteten på MT så att det är möjligt att veta hur bra systemet är och det finns en stabil utgångspunkt för att jämföra hur effektiva olika MT-system är. För att göra detta använder utvärderingen av maskinöversättning kvantifierbara mätvärden.
Det finns två huvudskäl till varför utvärderingen av prestandan hos ett MT-system måste göras. Den första är att kontrollera om det är tillräckligt bra för att användas i verkligheten.Den andra är att fungera som en vägledning inom forskning och utveckling.
Det första är naturligtvis att avgöra om MT-systemet fungerar på en nivå som är tillräckligt bra för faktisk användning. Detta är skälet som har störst direkt betydelse för slutanvändarna.Om systemet för maskinöversättning fungerar dåligt är användarna mer benägna att välja något annat.
Industrisektorer som använder MT vill också ha konkreta mätvärden för att bestämma vilket MT-system som de ska skaffa.När allt kommer omkring är MT en investering och företag måste få bra valuta för pengarna.
MT-utvecklare måste därför utvärdera om systemets kvalitet är tillräckligt bra för att de ska kunna skicka ut det till kunder.
MT-system är i idealfallet inte en statisk enhet. Tekniken för MT förbättras ständigt över tid. Det är logiskt att MT-systemen också förväntas bli bättre.
Det är här forskningen kommer in och forskare måste ha vägledning om var de ska leta. Mätbara mätvärden gör det möjligt för forskare att jämföra om ett visst tillvägagångssätt är bättre än ett annat. Det hjälper dem att finjustera systemet.
Detta är särskilt effektivt för att se hur systemet hanterar återkommande översättningsfel. Med mätbara parametrar kan man på ett mer kontrollerat sätt visa om en viss metod klarar av att hantera den här typen av fel eller inte.
Det finns två olika sätt att avgöra hur bra ett MT-system fungerar. Mänsklig utvärdering görs av mänskliga experter som gör manuell bedömning, medan automatisk utvärdering använder AI-baserade mätvärden speciellt utvecklade för att bedöma översättningskvalitet utan mänsklig inblandning. Alla har sina egna fördelar och nackdelar. Vi kommer att gå in mer i detalj på båda typerna av MT-utvärdering i de senare avsnitten i den här artikeln, men först kommer en snabb översikt över de två typerna av utvärdering av maskinöversättning, samt de metoder för MT-utvärdering som använder sig av dem.
Mänsklig utvärdering av maskinöversättning innebär att bedömningen av översättningens kvalitet görs av professionella översättare. Detta är det mest effektiva alternativet när det gäller att bestämma kvaliteten på maskinöversättningar ner till satsnivå.Men mänsklig utvärdering, som med mänsklig översättning, är av naturliga skäl mer kostsam och tidskrävande.
Automatisk utvärdering, å andra sidan, använder program byggda specifikt för att bedöma kvaliteten på maskinöversättning enligt olika metoder. Det är inte lika tillförlitligt som mänsklig utvärdering på satsnivå, men det är ett bra alternativ när man utvärderar översättningens övergripande kvalitet på flera dokument.
Tillvägagångssätten för utvärdering av maskinöversättning baseras på begreppet noggrannhet.Det vill säga de olika nivåerna där poängen kan anses vara betydande.
Satsbaserat tillvägagångssätt. Enligt detta tillvägagångssätt får varje sats en poäng som anger om översättningen är bra (1) eller inte bra (0) och summan får ett genomsnitt. Detta görs oftast vid mänsklig utvärdering.
Dokumentbaserat tillvägagångssätt. Även känd som det corpusbaserade tillvägagångssättet. Satser ges också poäng men den signifikanta poängen är den totala eller genomsnittliga poängen bland en större uppsättning dokument. Detta är den minsta nivån på vilken automatiserad MT-utvärdering kan anses vara signifikant, eftersom den är starkt beroende av statistik från ett brett dataset.
Kontextbaserat tillvägagångssätt. Detta tillvägagångssätt skiljer sig från de tidigare eftersom det tar hänsyn till är hur väl den övergripande MT-uppgiften passar de syften som den används för, snarare än genom genomsnittliga poäng baserade på meningar. Som sådat kan det betraktas som ett övergripande tillvägagångssätt för MT-utvärdering.
Utvärdering av maskinöversättning är en svår process. Detta beror på att språket i sig är en mycket komplex sak.
För det första kan det finnas flera korrekta översättningar. Ta till exempel följande mening:
Den snabba bruna räven hoppade över den lata hunden.
Ett MT-system kan generera följande översättning istället:
Den snabba bruna räven kastade sig över den indolenta hunden.
Detta är en tekniskt korrekt översättning och vid mänsklig utvärdering skulle den normalt markeras som sådan. Men i automatiserad utvärdering skulle det markeras som felaktigt.
Små detaljer kan också helt ändra betydelsen av en mening.
Den snabba bruna räven hoppade på den lata hunden.
Här är det bara ett ord som har ändrats. Men det ena ordet ändrar meningen helt. Automatiska utvärderingar kommer sannolikt att markera det högre än föregående exempel. Mänskliga översättare kommer sannolikt att fånga felet, men vissa kanske anser att det är korrekt.
Och det beror på att språk kan vara subjektivt. Även mänskliga utvärderare kan skilja sig åt i sina bedömningar om en översättning är bra eller inte.
Nu när vi har gått igenom grunderna, låt oss ta en djupgående titt på de två typerna av MT-utvärdering, som börjar med mänsklig utvärdering.
På den mest grundläggande nivån är målet med maskinöversättning att översätta text från ett källspråk till ett målspråk på en nivå som människor kan förstå. Som sådan är människor den bästa referenspunkten för att utvärdera kvaliteten på maskinöversättning.
Det finns ett antal olika sätt som mänsklig utvärdering görs, som vi kommer att gå in på nu:
Detta är den enklaste typen av mänsklig utvärdering. Utdata för maskinöversättning poängsätts på satsnivå.
Utmaningen med direkt bedömning är att olika domare kommer att variera kraftigt i hur de får poäng. Vissa tenderar att gå för ytterligheterna när det gäller poängsättning och markerar översättningar som antingen mycket dåliga eller mycket bra. Andra kan göra det mer konservativt och markera samma meningar med poäng närmare mitten.
En annan utmaning är återigen subjektivitet. För att bedöma om en mening är en dålig översättning eller inte, måste utvärderarna fatta beslut om språk som är tvetydigt. Gå tillbaka till exempelmeningen:
Den snabba bruna räven hoppade över den lata hunden.
Här är hund inte nödvändigtvis fel, men det passar inte heller bäst. Vissa utvärderare kanske anser att det är tillräckligt bra, medan andra kan flagga det som helt fel. Till exempel, om poängsättningen görs på en 5-punktsskala, kan vissa översättare markera den som 4, medan en annan kanske bara ger den en 2.
Dessa utmaningar kan kompenseras genom att anställa en större pool av utvärderare, vilket gör att poängen kan normaliseras på statistiska termer.
Ett annat sätt att bedöma system för maskinöversättning genom mänsklig utvärdering är ranking.
I det här fallet ger utvärderarna inte individuella poäng för satser, utan jämför istället mellan översättningar från olika MT-system. De bestämmer sedan vilken som är den bästa översättningen, vilken är näst bäst, och så vidare.
Fördelen med denna metod jämfört med direkt bedömning är att den omedelbart ger en direkt jämförelse i motsats till att jämföra poäng som har gjorts i olika försök och eventuellt av olika utvärderare.
Men det lider dock fortfarande av problemet med subjektivitet. Olika MT-system kommer sannolikt att komma med olika fel. Till exempel:
Den snabba gröna räven hoppade över den lata hunden.
Snabb brun räv hoppade över lat hund.
Den snabba bruna räven hoppar över den lata hunden.
Varje mening har ett enkelt fel. Den första har en felöversättning. Den andra utelämnar artiklar. Den tredje saknar verbens tempus.
Utvärderarna måste nu bestämma vilket fel som är allvarligare än det andra och återigen kan utvärderarna ha olika åsikter i frågan.
Om användarens syfte med ett MT-system är att förbereda dokument för insatser efter redigering finns det också sätt att utvärdera det utifrån hur mycket arbete som krävs för att göra efterredigeringen.
Det grundläggande syftet med efterredigering är att låta en översättare arbeta snabbare än om de skulle översätta en text från grunden. Som sådan är det enklaste sättet att bedöma ett MT-system för efterredigering genom att mäta den tid det tar för översättaren att korrigera den maskinöversatta utgången.
Ett annat sätt att mäta arbetet med efterredigeringen är att tabulera antalet slag på tangentbordet som det skulle ta för att ersätta den maskinöversatta texten med en mänsklig referensöversättning. Detta är oberoende av tidsbegränsningar, men tar inte heller hänsyn till möjligheten till flera korrekta översättningar.
Sedan finns det uppgiftsbaserad utvärdering som utvärderar ett MT-system baserat på hur väl det är anpassat till den aktuella uppgiften. Om det till exempel används i ett flerspråkigt webbinarium kan deltagarna bli ombedda att betygsätta sin erfarenhet med en maskinöversatt transkription.Detta innebär att de betygsätter framgången för MT-systemet som helhet.
Problemet med detta tillvägagångssätt är att det är mycket lätt att införa andra okontrollerade element som kan påverka det betyg som utvärderarna ger.Användningen av uppgiftsbaserad utvärdering är därför mycket situationsanpassad.
Som du kanske kan se kommer de olika typerna av mänsklig utvärdering av MT med sina egna utmaningar. Det finns också några utmaningar som de delar i stort och dessa har att göra med konsekvens eller överenskommelse.
Detta avser överensstämmelsen mellan poängen från olika utvärderare.Som vi nämnde tidigare kommer olika utvärderare att ha olika tendenser i hur de betygsätter samma textsegment. Vissa kan värdera dem till ytterligheter eller mot mitten. När man rankar olika MT-motorer kan deras åsikter också variera. Det är därför det är viktigt att ha flera utvärderare, så att fördelningen av poäng kommer att normaliseras.
Hur en enskild utvärderare betygsätter en text är också ett mått på validitet.En utvärderare kan betygsätta en mening som bra eller dålig första gången, men kan ändra sig när testet upprepas.Att ha ett högt mått av överenskommelse mellan kommentatorer säkerställer att den valda utvärderaren kan anses som konsekvent och tillförlitlig.
Mänsklig utvärdering anses vara guldstandarden när det gäller att utvärdera kvaliteten på maskinöversättning. Det är dock ett kostsamt arbete i form av tid och energi.Därför har forskare inom området utvecklat olika sätt att utvärdera MT-kvalitet genom automatiserade processer.
Dessa processer är utformade för att på ett ungefär motsvara hur människor kommer att utvärdera MT-systemet. Naturligtvis är de långt ifrån perfekta på detta, men automatisk utvärdering har fortfarande mycket viktiga användningsområden.
Den största fördelen med automatisk utvärdering jämfört med mänsklig utvärdering är dess skalbarhet. Det är mycket snabbare att genomföra hundratals automatiska utvärderingar än en enda omgång mänsklig utvärdering. Detta gör det till en idealisk lösning för att göra justeringar eller optimera MT-systemet, vilket kräver snabba resultat.
Till skillnad från människor är maskiner inte utrustade för att hantera olika nyanser av språkanvändning. Automatiska utvärderingssystem bygger på att MT har en exakt matchning med en referenstext, och mindre skillnader kan påverka slutresultatet. Dessa skillnader kan inkludera avvikelser i morfologi, användning av synonymer och grammatisk ordning.
Allt som kan anses tekniskt eller mer eller mindre korrekt av en mänsklig utvärderare kan eventuellt missgynnas i automatisk utvärdering. Ändå är antalet exakta matchningar, särskilt när man överväger ett stort urval av text, ofta tillräckligt för att göra automatisk utvärdering möjlig att använda.
Det finns ett antal olika automatiska utvärderingsmått tillgängliga idag. Här är några exempel på de som används:
●
●
●
●
●
●
●
Varje mätmetod fungerar på olika algoritmer och hanterar därför processen för automatisk utvärdering på olika sätt. Det betyder att de har olika styrkor och svagheter och skiljer sig åt när det gäller vilka typer av fel de ger högre eller lägre påföljder för.
Av alla mätvärden som anges ovan är BLEU det som oftast används. Det var en av de första mätvärdena som uppnådde en hög korrelation med mänsklig utvärdering och har skapat många olika variationer.
Det går till så att enskilda meningar poängsätts mot en uppsättning referensöversättningar av hög kvalitet. Därefter beräknas medelvärdet av dessa poäng och det resulterande talet är den slutliga BLEU-poängen för det MT-systemet. Denna poäng representerar hur nära MT-systemets utdata matchar den mänskliga referensöversättningen, vilket är markören för kvalitet.
Poängen beräknas med hjälp av enheter som kallas n-gram, som hänvisar till segment av på varandra följande text. Gå tillbaka till den tidigare exempelmeningen, till exempel:
Den snabba bruna räven hoppade över den lata hunden.
Detta kan delas in i n-gram av olika längd. Ett 2-gram, till exempel, skulle vara ”Den snabba”, ”snabbbruna” eller ”bruna räven”. Ett 3-gram skulle vara ”The quick brown” eller ”quick brown fox”. Ett 4-gram skulle vara ”Den snabba bruna räven”. Och så vidare.
Det är en komplex matematisk process, men i grundläggande termer beräknar BLEU:s algoritm poängen genom att kontrollera antalet överlappningar mellan n-gram. Den beräknade poängen kommer att vara mellan 0 och 1, med 1 som representerar en helt identisk matchning mellan referensen och utgångsmeningen. Ta nu följande variation på exempelmeningen:
Den snabba bruna räven hoppade över den lata hunden.
Alla n-gram kommer att matcha utom de som har ordet ”snabb”. Ett annat exempel:
Den snabba bruna räven hoppade över hunden.
I det här exemplet saknas ordet ”lat”, så det påverkar också överlappningen negativt. I båda fallen, BLEU-poängen skulle fortfarande vara hög, men mindre än 1.
I praktiken kommer inte många meningar att visa denna höga korrelation. Som sådan blir BLEU-poäng statistiskt signifikanta endast när de tas i samband med ett stort urval av text eller korpus.
Det finns naturligtvis andra faktorer som går in i beräkningen av BLEU-poängen, exempelvis påföljder för extra ord eller mycket korta meningar. Andra system för derivatpoäng har utvecklats för att kompensera för bristerna, men BLEU är fortfarande högt rankad och fortsätter att vara det mest använda MT-utvärderingssystemet idag.
Och det täcker grunderna i utvärdering av maskinöversättning. Som vi har visat kan bedömning av ett MT-system göras genom mänsklig utvärdering eller automatisk utvärdering. Båda processerna har sina fördelar och nackdelar.
Mänsklig utvärdering är guldstandarden när det gäller kvalitet, men är dyr och tidskrävande. Automatisk översättning är inte lika exakt, men den är snabb och skalbar. Båda typerna här därför sina specifika användningsområden där de gör sig bäst.