13/05/2024

Ocena aspektów tłumaczenia maszynowego: Przewodnik kompleksowy

Załóżmy, że prowadzisz firmę, która zdecydowała się zainwestować w jakiś system tłumaczeń maszynowych. Po jakimś czasie ogólnych poszukiwań okazuje się, że do wyboru jest ich całe mnóstwo. Producent każdego z nich twierdzi, że jego system zdobywa określoną liczbę punktów w oparciu o pewne zdefiniowane wskaźniki, jednak nie wiadomo, co te wartości tak naprawdę oznaczają. Skąd masz wiedzieć, który z nich będzie dla Ciebie i Twojej firmy najlepszy?

Musisz zrozumieć, jak działa proces ewaluacji tłumaczenia maszynowego.

W tym artykule temat ten omówimy nieco dogłębniej. Artykuł pomoże Ci zrozumieć, czym jest proces ewaluacji tłumaczenia maszynowego, dlaczego jest on potrzebny i jakie są różne jego rodzaje, co pomoże Ci podjąć świadomą decyzję i wybrać system MT, w który zainwestujesz swoje środki.

Wprowadzenie: Czym jest ewaluacja tłumaczenia maszynowego?

Ewaluacja tłumaczenia maszynowego odnosi się do różnych procesów pomiaru efektywności systemu tłumaczenia tego typu.

Jest to sposób na ocenę jakości MT, dzięki czemu możliwe jest ustalenie, jak dobry jest dany system, przy czym solidne podstawy porównywania skuteczności różnych systemów MT zostały już opracowane. Ewaluacja tłumaczenia maszynowego wykorzystuje zatem mierzalne wskaźniki.

Dlaczego wskaźniki ewaluacji aspektów tłumaczenia maszynowego są istotne?

Istnieją dwa główne powody, dla których przeprowadzanie oceny wydajności systemów MT jest zasadne. Pierwszym z nich jest sprawdzenie, czy tłumaczenie to jest wystarczająco przydatne do zastosowań w świecie rzeczywistym. Drugi koncentruje się na potrzebie wykorzystania tłumaczenia maszynowego jako wyznacznika w pracach badawczych rozwojowych.

Czy system MT jest wystarczająco przydatny do zastosowań w świecie rzeczywistym

Przede wszystkim należy oczywiście ustalić, czy system MT działa na poziomie umożliwiającym jego rzeczywiste wykorzystanie. To jest uzasadnienie, które ma najbardziej bezpośrednie znaczenie dla użytkowników końcowych. Jeśli system tłumaczenia maszynowego działa niezadowalająco, użytkownicy są bardziej skłonni do wybrania innej opcji.

Także branże przemysłowe korzystające z MT będą potrzebować konkretnych wskaźników do podjęcia decyzji o wyborze systemu MT, który zaspokoi ich potrzeby.W końcu MT to inwestycja, a firmy muszą uzyskać najlepszy stosunek jakości do zainwestowanych środków.

W związku z tym programiści MT muszą oceniać, czy jakość systemu tłumaczenia maszynowego jest na tyle dobra, aby mógł on zostać udostępniony klientom.

Potrzeba wykorzystania tłumaczenia maszynowego jako wyznacznika w pracach badawczych i rozwojowych.

Systemy MT nie są z założeń idealnych projektowane jako twory statyczne. Technologia MT jest nieustannie ulepszana. Możemy zatem w uzasadniony sposób oczekiwać, że systemy MT również poddawane będą udoskonalaniu.

To właśnie tutaj wkracza na scenę domena badań, a naukowcy w niej się poruszający muszą dysponować jakimiś wytycznymi, na co mają zwracać uwagę. Mierzalne wskaźniki pozwalają badaczom porównać, czy dane podejście jest lepsze od innego, co pomaga im z kolei dostrajać kolejne systemy.

Wskaźniki te szczególnie sprawdzają się w sytuacji, w której konieczne jest przeanalizowanie sposobu, w jaki dany system radzi sobie z błędami polegającymi na niezachowywaniu spójności tłumaczenia.Posiadanie mierzalnych metryk może wykazać w bardziej kontrolowanym otoczeniu, czy dane podejście jest w stanie uporać się z tego rodzaju błędami.

Jak ocenić skuteczność tłumaczenia maszynowego?

Istnieją dwa różne sposoby na określenie, jak sprawnie działa dany system MT. Ocenianiem w ujęciu „ludzkim” zajmują się eksperci przeprowadzający manualny proces ewaluacji, podczas gdy ocena automatyczna wykorzystuje metryki oparte na sztucznej inteligencji (AI), opracowywane specjalnie na potrzeby procesu oceny jakości tłumaczenia bez interwencji człowieka. Każdy z tych sposobów ma swoje mocne i słabe strony. Oba rodzaje oceny tłumaczenia maszynowego omówimy bardziej szczegółowo w dalszej części tego artykułu, lecz w pierwszej kolejności przedstawiamy krótki przegląd tych dwóch rodzajów ewaluacji, a także wykorzystywanych przez nie podejść.

Ocena przeprowadzana przez człowieka a ocena automatyczna

„Ludzka” ocena aspektów tłumaczenia maszynowego przeprowadzana jest przez profesjonalnych tłumaczy. Jest to najskuteczniejsza opcja, jeśli chodzi o osąd jakości tłumaczenia maszynowego aż do poziomu pojedynczych zdań.Jednak ewaluacja przeprowadzana przez człowieka, podobnie jak tłumaczenie wykonywane ręką tłumacza, jest z natury rzeczy bardziej kosztowna i czasochłonna.

Z drugiej strony, ocena automatyczna wykorzystuje programy stworzone specjalnie do sprawdzania jakości tłumaczenia maszynowego przy zastosowaniu różnych metod. Nie jest tak wiarygodna jak osąd ludzki na poziomie zdania, jednak jest dobrą skalowalną opcją przy ogólnej ocenie jakości tłumaczenia wielu dokumentów.

Podejścia do ewaluacji MT

Podejścia do ewaluacji tłumaczenia maszynowego opierają się na koncepcji granularności. Punktacja przyznawana MT może być uznana za istotną na różnych poziomach analizy.

Podejście poziomu zdania. Zgodnie z tym podejściem, każde zdanie otrzymuje punktację określającą, czy jego tłumaczenie jest prawidłowe (1), czy nieprawidłowe (0), a otrzymana suma jest uśredniana. Najczęściej odbywa się to w ramach ewaluacji przeprowadzanej przez tłumacza.

Podejście poziomu dokumentu. Znane również jako podejście poziomu korpusu – tu oceny są również przyznawane zdaniom, jednak istotną oceną stanowi suma lub średnia z większego zbioru dokumentów. Jest to najmniejszy poziom, na którym zautomatyzowaną ocenę MT można uznać za znaczącą, ponieważ zależy ona w dużej mierze od statystyk z obszernego zbioru danych.

Podejście poziomu kontekstu. Podejście to różni się od poprzednich, ponieważ bierze pod uwagę to, jak dobrze ogólne zadanie MT odpowiada celom, dla których zostało ono wdrożone, a nie poprzez średnie wyniki oparte na poziomie zdania. W związku z tym to podejście można uznać za holistyczne podejście do procesu ewaluacji MT.

Wyzwania procesu ewaluacji tłumaczenia maszynowego

Ewaluacja tłumaczenia maszynowego to proces o wysokim stopniu skomplikowania.Wynika to z faktu, że sam język jest tworem bardzo złożonym.

Po pierwsze, może istnieć wiele poprawnych wersji tłumaczeń. Weźmy na przykład następujące zdanie:

Ten szybki brązowy lis przeskoczył nad leniwym psem.

System MT może wygenerować następujące tłumaczenie:

Ten szybki brązowy lis dał susa ponad gnuśnym psem.

Jest to technicznie poprawne tłumaczenie, a w osądzie ludzki byłoby najprawdopodobniej oznaczone jako takie. Jednak w ocenia automatycznej wersja ta byłaby uznana za nieprawidłową.

Także niuanse drobne szczegóły mogą całkowicie zmienić znaczenie zdania.

Ten szybki brązowy lis wskoczył na leniwego psa.

W tym przypadku zmienione zostało tylko jedno słowo.Ale też to jedno słowo z kolei całkowicie zmienia znaczenie naszego przykładu.Jednak algorytmy oceny automatycznej prawdopodobnie przypiszą im wyższą punktację niż poprzedniemu przykładowi.Tłumacze prawdopodobnie wychwycą błąd, jednak część z nich może uznać to zdanie za poprawne.

A to dlatego, że język może być subiektywny. Nawet osoby oceniające mogą różnić się w swoim osądzie dotyczącym tego, czy dane tłumaczenie jest zadowalające, czy nie.

Ewaluacja przeprowadzana przez człowieka: Złoty standard

Teraz, gdy omówiliśmy podstawy przedmiotowego procesu, przyjrzyjmy się dogłębnie dwóm rodzajom oceny MT, zaczynając od tego, przeprowadzanego przez człowieka.

Na najbardziej podstawowym poziomie celem tłumaczenia maszynowego jest przetłumaczenie tekstu z języka źródłowego na język docelowy na tyle, by był on zrozumiały dla człowieka. W związku z tym to tłumaczenie sporządzane przez człowieka stanowi najlepsze kryterium oceny jakości tłumaczenia maszynowego.

Rodzaje ewaluacji przeprowadzanej przez człowieka

Istnieje wiele różnych sposobów na przeprowadzenie ewaluacji przez tłumacza. Postaramy się je omówić w dalszej części tego artykułu.

Ewaluacja bezpośrednia

Jest to najprostszy rodzaj ewaluacji przeprowadzanej przez człowieka. Wyniki tłumaczenia maszynowego są oceniane na poziomie zdania.

Wyzwanie związane z taką oceną bezpośrednią polega na tym, że sposób przyznawania punktów przez poszczególnych arbitrów może się znacznie różnić. Niektórzy mogą mieć tendencję do przyznawania punktów ze skrajnych obszarów skali punktowej, oznaczając tłumaczenia jako bardzo złe lub bardzo dobre. Inni mogą demonstrować bardziej zachowawczą postawę, przyznając tym samym zdaniom wyniki bliższe środka skali.

Kolejnym wyzwaniem jest ponownie subiektywność oceny.Podczas oceniania, czy dane zdanie jest złym tłumaczeniem, czy nie, osoby oceniające muszą podejmować decyzje dotyczące języka o niejednoznacznym charakterze.Wracając do przykładowego zdania:

Ten szybki brązowy lis przeskoczył leniwe zwierzę z rodziny psowatych.

W tym przykładzie wskazane dopełnienie złożone niekoniecznie jest nieprawidłowe, ale też nie jest najlepszym wyborem. Niektórzy oceniający mogą uznać je za wystarczająco dobre, podczas gdy inni mogą uznać je za całkowicie błędne. Na przykład, jeśli ocena jest dokonywana w 5-stopniowej skali, niektórzy tłumacze mogą ocenić ją na 4, podczas gdy inni mogą przyznać temu zdaniu jedynie 2 punkty.

Wyzwania te można zrównoważyć, zatrudniając większą liczbę osób oceniających, co pozwoli na normalizację wyników pod względem statystycznym.

Ranking

Innym sposobem weryfikacji systemów tłumaczenia maszynowego przez człowieka jest próba stworzenia pewnego rankingu.

W tym przypadku osoby oceniające nie podają indywidualnych wyników dla zdań, ale zamiast tego porównują tłumaczenia z różnych systemów MT. Następnie decydują, które tłumaczenie jest najlepsze, które drugie w kolejności itd.

Zaletą tej metody w porównaniu z metodą oceny bezpośredniej jest to, że natychmiast otrzymujemy bezpośrednie porównanie różnych wersji tłumaczeń, w przeciwieństwie do porównywania wyników, które zostały wygenerowane w przebiegu różnych testów i prawdopodobnie przez różnych oceniających.

Metoda ta jednak nadal skażona jest niedoskonałością mającą związek z aspektem subiektywności.Różne systemy MT prawdopodobnie wygenerują różne rodzaje błędów. Na przykład:

Ten szybki zielony lis przeskoczył leniwego psa.

Szybki brązowy lis przeskoczył leniwego psa.

Ten szybki brązowy lis przeskakuje leniwego psa.

Każde zdanie zawiera prosty błąd. Pierwsze z nich zawiera błędne tłumaczenie. W drugim mamy pominięcie zaimka wskazującego. W trzecim brakuje formy czasownika wskazującej na czas przeszły.

Osoby oceniające muszą teraz zdecydować, który błąd jest istotniejszy od drugiego i ponownie, różne osoby mogą mieć różne opinie na ten temat.

Post-edycja

Jeśli celem użytkownika systemu MT jest przygotowanie dokumentów do ich późniejszej edycji, istnieją również sposoby oceny jakości wygenerowanego przez MT dokumentu na podstawie objętości nakładu pracy niezbędnej do wykonania takiej właśnie edycji już przetłumaczonego dokumentu.

Podstawowym celem post-edycji jest skrócenie czasu pracy tłumacza w porównaniu z procesem tłumaczenia tekstu od zupełnych podstaw. W związku z tym najprostszym sposobem oceny systemu MT pod kątem post-edycji jest pomiar czasu potrzebnego tłumaczowi na zredagowanie i udoskonalenie przetłumaczonego maszynowo tekstu.

Innym sposobem pomiaru intensywności nakładu niezbędnej pracy post-edycyjnej jest zestawienie liczby uderzeń w klawiaturę, które byłyby potrzebne do zastąpienia tekstu przetłumaczonego maszynowo tłumaczeniem porównawczym sporządzonym przez człowieka. Ta metoda nie bierze pod uwagę ograniczenia czasowego, jednak nie uwzględnia również możliwego współistnienia wielu poprawnych tłumaczeń.

Ewaluacja poziomu zadania

Dostępna jest również ocena oparta o zakres zadania, która – jak sama nazwa wskazuje – ocenia system MT na podstawie tego, jak dobrze jest on dostosowany do danego zadania. Na przykład, jeśli tekst wygenerowany maszynowo używany jest w wielojęzycznym webinarium, uczestnicy mogą zostać poproszeni o ocenę swoich odczuć dotyczących jakości takiej przetłumaczonej maszynowo transkrypcji szkolenia. Oznacza to przeprowadzenie oceny efektywności systemu MT jako całości.

Problem z tym podejściem polega na tym, że jest ono bardzo podatne na wprowadzenie innych niekontrolowanych elementów, które mogą wpływać na ocenę osób przeprowadzających ewaluację. W związku z tym stosowanie oceny opartej o skuteczność realizacji zadania jest bardzo zależne od indywidualnych okoliczności i sytuacji.

Ogólne wyzwania procesu ewaluacji przeprowadzanej przez człowieka

Jak widać, z różnymi rodzajami przeprowadzanej przez człowieka ewaluacji systemu MT wiążą się różne i swoiste wyzwania. Istnieją również pewne problemy, które są wspólne dla wszystkich tych rodzajów ewaluacji, a które dotyczą aspektów spójności lub uzgodnienia.

Jednorodność wewnątrztekstowa

Termin ten odnosi się do spójności punktacji przyznawanej przez różnych oceniających. Jak wspomnieliśmy wcześniej, różni oceniający będą mieli różne tendencje w zakresie sposobu oceniania tych samych segmentów tekstu. Niektórzy mogą oceniać je skrajnie lub skłaniać się do przyznawania punktacji ze środkowego zakresu skali.Ich opinie mogą również odbiegać od siebie podczas ustalania rankingu poszczególnych mechanizmów MT. Dlatego istotne jest, aby w procesie oceny MT brało udział wiele osób oceniających, aby rozkład wyników został znormalizowany.

Jednorodność wewnątrztekstowa

Sposób, w jaki pojedynczy oceniający ocenia tekst, jest również miarą wiarygodności tego procesu.Oceniający może ocenić zdanie jako dobre lub złe za pierwszym razem, może jednak zmienić raz przyznaną ocenę w przypadku pojawienia się tego samego, ocenionego już, fragmentu tekstu w ramach tego samego dokumentu. Wysoka wartość jednorodności wewnątrztekstowej sprawia, że osąd wybranej osoby oceniającej może zostać uznany za konsekwentny, stabilny i rzetelny.

Ewaluacja automatyczne: Opcja skalowalna

Ocena przeprowadzana przez człowieka uznawana jest za złoty standard, jeśli chodzi o ocenę jakości tłumaczenia maszynowego. Stanowi jednak kosztowne przedsięwzięcie pod względem koniecznych nakładów pracy i czasu. Z tego powodu badacze tej dziedziny opracowali różne metody oceniania jakości MT z wykorzystaniem procesów zautomatyzowanych.

Procesy te mają na celu odzwierciedlenie sposobu, w jaki tekst wygenerowany przez silnik tłumaczenia maszynowego oceniany byłby przez człowieka. Oczywiście, są one dalekie od doskonałości, jednak ewaluacja automatyczna nadal ma bardzo istotne zastosowania.

Główną przewagą oceny automatycznej nad oceną przeprowadzają przez człowieka jest skalowalność jej aspektów. Uruchomienie setek instancji procedury oceny automatycznej jest o wiele szybsze niż przeprowadzenie nawet pojedynczej oceny przez człowieka. To sprawia, że jest to idealne rozwiązanie do wprowadzania poprawek lub optymalizacji systemu MT, który wymaga szybkich rezultatów.

Wątpliwości związane z oceną automatyczną

W przeciwieństwie do ludzi, maszyny nie mają zdolności do wykrywania i różnicowania odcieni i subtelnościami aspektów języka jakim posługuje się człowiek. Automatyczne systemy ewaluacyjne opierają się na dokładnym pokryciu się MT z tekstem referencyjnym, zaś drobne różnice mogą mieć wpływ na ostateczny wynik tak przeprowadzanej oceny. Różnice te mogą obejmować odchylenia natury morfologicznej, stosowanie synonimów czy kolejność elementów składni gramatycznej.

Wszystko, co może zostać uznane za technicznie czy mniej lub bardziej poprawne przez osobę oceniającą, może zostać zidentyfikowane i określone jako błędne w procesie oceny automatycznej.Niemniej jednak liczba dokładnych trafień, zwłaszcza w przypadku dużej partii tekstu, jest często wystarczająca, aby automatyczna ocena była możliwa do zastosowania.

Metryki ewaluacji automatycznej

Obecnie dostępnych jest wiele różnych metryk pomiaru jakości oceny automatycznej.Oto kilka z tych będących w użyciu:

● BLEU (Bilingual Evaluation Understudy)

● NIST (from the National Institute of Standards and Technology)

● METEOR (Metric for Evaluation of Translation with Explicit Ordering)

● LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

● COMET

● PRIS

● TER (Translation Error Rate)

Każda metryka wykorzystuje inne algorytmy i w związku z tym inaczej radzi sobie z procesem oceny automatycznej.Oznacza to, że każda z nich ma inne mocne i słabe strony, jest także różna od innej pod względem tego, którym rodzajom błędów przydzielane są wyższe lub niższe formy penalizacji.

BLEU, metryka najpopularniejsza

Ze wszystkich wymienionych powyżej metryk, BLEU jest najczęściej wykorzystywany. Była to jedna z pierwszych metryk, która osiągnęła wysoki poziom korelacji z ludzkim osądem jakości i na podstawie której opracowano wiele różnych wariacji.

Działa następująco: poszczególne zdania są porównywane z zestawem wysokiej jakości tłumaczeń referencyjnych. Punkty te są następnie uśredniane w obrębie całego korpusu, aby oszacować całkowitą jakość MT. Wynik ten określa, jak bardzo tłumaczenie systemu MT odpowiada ludzkiemu tłumaczeniu referencyjnemu, stanowiącemu wyznacznik jakości.

Wyniki są obliczane przy użyciu jednostek zwanych n-gramami, które odnoszą się do segmentów kolejnego tekstu. Powracając do wcześniejszego przykładowego zdania:

Ten szybki brązowy lis przeskoczył nad leniwym psem.

Zdanie to można podzielić na n-gramy o różnej długości. Na przykład 2-gramem (bigramem) będzie: „Ten szybki”, „szybki brązowy” lub „brązowy lis”. 3-gram (trigram) to: „Ten szybki brązowy” lub „Szybki brązowy lis”. 4-gramem zaś będzie wyrażenie: „Ten szybki brązowy lis”. I tak dalej.

Jest to złożony proces matematyczny, ale w podstawowym ujęciu algorytm BLEU oblicza wynik, sprawdzając liczbę pokrywających się n-gramów. Obliczony wynik będzie wynosił od 0 do 1, przy czym 1 oznacza całkowicie identyczne dopasowanie między zdaniem referencyjnym a wyjściowym. Przeanalizujmy teraz następującą wariację na temat przykładowego zdania:

Ten szybki brązowy lis przeskoczył nad leniwym psem.

Wszystkie modele n-gramowe będą pasować z wyjątkiem tych, które mają w swojej strukturze słowo „szybki”. Kolejny przykład:

Ten zwinny brązowy lis przeskoczył nad psem.

W tym przykładzie brakuje słowa „leniwy”, co również negatywnie wpływa na aspekt pokrywania się n-gramów. W obu przypadkach wynik BLEU nadal byłby wysoki, jednak niższy od 1.

W praktyce niewiele zdań wykaże tak wysoki poziom korelacji. W związku z tym wyniki BLEU stają się statystycznie istotne tylko wtedy, gdy są rozpatrywane w kontekście dużej próbki lub korpusów tekstu.

Istnieją oczywiście inne czynniki, które wpływają na kalkulację wyniku BLEU, takie jak penalizacja słów dodatkowych lub bardzo krótkich zdań. Inne pochodne systemy oceny zostały opracowane w celu zrekompensowania niedociągnięć algorytmu BLEU, jednak ten pozostaje wysoko oceniany i nadal jest obecnie najczęściej stosowanym systemem oceny jakościowej MT.

Garść podsumowujących spostrzeżeń na temat oceny MT

Tak oto omówiliśmy podstawy procesu oceny jakości tłumaczenia maszynowego. Jak wykazaliśmy, ocena systemu MT może odbywać się po poddaniu go pod osąd ludzki lub proces oceny automatycznej. Oba te procesy mają swoje wady i zalety.

Ewaluacja przeprowadzana przez człowieka stanowi złoty standard pod względem jakości, jest jednak kosztowna i czasochłonna. Tłumaczenie automatyczne nie jest tak dokładne, jednak cechuje je szybkość i skalowalność. W związku z tym oba typy mają swoje specyficzne przypadki użycia, w których wykazują się przydatnością.