May 10, 2024

Αξιολόγηση μηχανικής μετάφρασης: Ο απόλυτος οδηγός

Ας πούμε ότι είστε μια επιχείρηση που έχει αποφασίσει να επενδύσει σε ένα σύστημα μηχανικής μετάφρασης. Έχετε κάνει κάποια βασική έρευνα και διαπιστώνετε ότι υπάρχουν τόσες πολλές επιλογές για να διαλέξετε. Το καθένα ισχυρίζεται ότι αξιολογείται με μια συγκεκριμένη βαθμολογία με βάση ορισμένη μετρική, αλλά δεν ξέρετε τι σημαίνουν πραγματικά οι αριθμοί. Πώς ξέρετε ποιο είναι το καλύτερο για εσάς;

Πρέπει να καταλάβετε πώς λειτουργεί η αξιολόγηση της μηχανικής μετάφρασης.

Αυτό το άρθρο θα εξετάσει σε βάθος το θέμα της αξιολόγησης της μηχανικής μετάφρασης. Θα σας βοηθήσει να καταλάβετε τι είναι, γιατί το χρειάζεστε και τους διαφορετικούς τύπους αξιολόγησης, για να σας βοηθήσει να λάβετε μια καλά ενημερωμένη απόφαση όταν επιλέγετε ένα σύστημα MT για να επενδύσετε.

Εισαγωγή Τι είναι η αξιολόγηση της μηχανικής μετάφρασης;

Η αξιολόγηση της μηχανικής μετάφρασης αναφέρεται στις διάφορες διαδικασίες μέτρησης της απόδοσης ενός συστήματος μηχανικής μετάφρασης.

Είναι ένας τρόπος βαθμολόγησης της ποιότητας της MT, ώστε να είναι δυνατό να γνωρίζουμε πόσο καλό είναι το σύστημα και να υπάρχει μια σταθερή βάση για να συγκρίνουμε πόσο αποτελεσματικά είναι τα διαφορετικά συστήματα MT. Για να πραγματοποιηθεί η παραπάνω βαθμολόγηση ποιότητας, η αξιολόγηση μηχανικής μετάφρασης χρησιμοποιεί ποσοτικοποιήσιμη μετρική.

Γιατί είναι σημαντική η μετρική αξιολόγησης της μηχανικής μετάφρασης;

Υπάρχουν δύο κύριοι λόγοι για τους οποίους πρέπει να γίνει αξιολόγηση της απόδοσης ενός συστήματος MT. Ο πρώτος είναι ο έλεγχος επάρκειας της ποιότητάς του για εφαρμογή σε συνθήκες παραγματικής εργασίαςΟ δεύτερος είναι η λειτουργία του ωςοδηγού στην έρευνα και την ανάπτυξη.

Ο έλεγχος επάρκειας ποιότητάς του για εφαρμογή σε συνθήκες πραγματικής εργασίας

Πρώτος, φυσικά, είναι ο καθορισμός της επάρκειας της ποιότητας λειτουργίας του συστήματος MT σε ένα επίπεδο που είναι αρκετά καλό για πραγματική χρήση. Αυτός είναι ο λόγος που έχει άμεση σχέση με τους τελικούς χρήστες. Εάν το σύστημα μηχανικής μετάφρασης έχει κακές επιδόσεις στην απόδοση νοήματος, οι χρήστες είναι πιο πιθανό να επιλέξουν κάτι άλλο.

Οι τομείς κλάδων που χρησιμοποιούν MT θα ήθελαν επίσης συγκεκριμένους δείκτες μέτρησης για να αποφασίσουν ποιο σύστημα MT να αποκτήσουν. Παρά όλα αυτά, η MT είναι μια επένδυση κι οι επιχειρήσεις πρέπει να έχουν την καλύτερη σχέση ποιότητας τιμής για τα χρήματά τους.

Ως εκ τούτου, οι σχεδιαστές της MT πρέπει να αξιολογήσουν εάν η ποιότητα του συστήματος μηχανικής μετάφρασης είναι αρκετά καλή για να το διανέμουν σε πελάτες.

Η λειτουργία του ως οδηγού στην έρευνα και την ανάπτυξη

Τα συστήματα MT δεν είναι, ιδανικά, μια στατική οντότητα. Η τεχνολογία για το MT βελτιώνεται συνεχώς με την πάροδο του χρόνου. Είναι λογικό να αναμένεται να βελτιωθούν και τα συστήματα MT.

Εδώ μπαίνει η έρευνα κι οι ερευνητές πρέπει να έχουν κάποιον οδηγό για το πού να ψάξουν. Η μετρήσιμη μετρική επιτρέπει στους ερευνητές να συγκρίνουν εάν μια συγκεκριμένη προσέγγιση είναι καλύτερη από μια άλλη, βοηθώντας τους να βελτιώσουν το σύστημα.

Αυτό βοηθάει ιδιαίτερα για να δείτε τονν τρόπο με τον οποίο το σύστημα αντιμετωπίζει τα λάθη μετάφρασης που εμφανίζονται συχνά. Η ύπαρξη μετρήσιμηςμετρικής μπορεί να δείξει σε ένα πιο ελεγχόμενο περιβάλλον εάν μια συγκεκριμένη προσέγγιση είναι σε θέση να αντιμετωπίσει τέτοιου είδους σφάλματα.

Πώς αξιολογείτε την επιτυχία της μηχανικής μετάφρασης;

Υπάρχουν δύο διαφορετικοί τρόποι για να προσδιορίσετε πόσο καλά αποδίδει ένα σύστημα MT. Η ανθρώπινη αξιολόγηση γίνεται από εμπειρογνώμονες που είναι άνθρωποι κι εκτελούν την αξιολόγηση με μη αυτόματο τρόπο, ενώ η αυτόματη αξιολόγηση χρησιμοποιεί μετρική βασισμένη σε τεχνητή νοημοσύνη ειδικά σχεδιασμένη για την αξιολόγηση της ποιότητας της μετάφρασης χωρίς ανθρώπινη παρέμβαση. Κάθε ένας έχει τα δικά του πλεονεκτήματα και μειονεκτήματα. Θα αναφερθούμε με περισσότερες λεπτομέρειες και στα δύο είδη αξιολόγησης MT στις επόμενες ενότητες αυτού του άρθρου, αλλά πρώτα, να μια γρήγορη επισκόπηση των δύο τύπων αξιολόγησης μηχανικής μετάφρασης, καθώς και των προσεγγίσεων για την αξιολόγηση της MT που χρησιμοποιούν.

Ανθρώπινη αξιολόγηση έναντι αυτόματης αξιολόγησης

Η ανθρώπινη αξιολόγηση της μηχανικής μετάφρασης σημαίνει ότι η αξιολόγηση της ποιότητας της μετάφρασης γίνεται από επαγγελματίες μεταφραστές. Αυτή είναι η πιο αποτελεσματική επιλογή όταν πρόκειται για τον προσδιορισμό της ποιότητας των μηχανικών μεταφράσεων μέχρι το επίπεδο των προτάσεων. Αλλά η ανθρώπινη αξιολόγηση, όπως και με την ανθρώπινη μετάφραση, είναι από τη φύση της πιο δαπανηρή και χρονοβόρα.

Η αυτόματη αξιολόγηση, από την άλλη πλευρά, χρησιμοποιεί προγράμματα που έχουν κατασκευαστεί ειδικά για την αξιολόγηση της ποιότητας της μηχανικής μετάφρασης σύμφωνα με διαφορετικές μεθόδους. Δεν είναι τόσο αξιόπιστη όσο η ανθρώπινη αξιολόγηση σε επίπεδο πρότασης, αλλά είναι μια καλή επιλογή με μεταβλητές δυνατότητες όταν εκτελείται αξιολόγηση της συνολικής ποιότητας της μετάφρασης σε πολλαπλά έγγραφα.

Προσεγγίσεις για την αξιολόγηση MT

Οι προσεγγίσεις για την αξιολόγηση της μηχανικής μετάφρασης βασίζονται στην έννοια της κοκκιότητας. Δηλαδή, τα διαφορετικά επίπεδα στα οποία η βαθμολογία μπορεί να θεωρηθεί σημαντική.

Προσέγγιση βασισμένη σε προτάσεις. Σύμφωνα με αυτήν την προσέγγιση, κάθε πρόταση λαμβάνει μια βαθμολογία που δηλώνει εάν η μετάφρασή της είναι καλή (1) ή όχι καλή (0) και στο σύνολο δίνεται ένας μέσος όρος. Αυτό γίνεται συνήθως στην ανθρώπινη αξιολόγηση.

Προσέγγιση βασισμένη σε έγγραφα. Γνωστή κι ως η προσέγγιση που βασίζεται σε σώματα κειμένων, στην οποία οι προτάσεις ναι μεν βαθμολογούνται, αλλά στην οποία η σημαίνουσα βαθμολόγηση είναι το σύνολο ή ο μέσος όρος μεταξύ ενός μεγαλύτερου συνόλου εγγράφων. Αυτό είναι το μικρότερο επίπεδο στο οποίο η αυτοματοποιημένη αξιολόγηση MT μπορεί να θεωρηθεί σημαίνουσα, καθώς εξαρτάται σε μεγάλο βαθμό από στατιστική προερχόμενη από ένα ευρύ σύνολο δεδομένων.

Προσέγγιση βασισμένη σε πλαίσιο. Αυτή η προσέγγιση διαφέρει από τις προηγούμενες, καθώς αυτό που λαμβάνει υπόψη είναι πόσο καλά ταιριάζει η συνολική εργασία MT στους σκοπούς στους οποίους έχει τεθεί, και όχι μέσω των μέσων βαθμολογιών που βασίζονται σε προτάσεις. Ως εκ τούτου, θα μπορούσε να θεωρηθεί μια ολιστική προσέγγιση στην αξιολόγηση της ΜΤ.

Προκλήσεις στην αξιολόγηση της μηχανικής μετάφρασης

Η αξιολόγηση της μηχανικής μετάφρασης είναι μια δύσκολη διαδικασία. Αυτό συμβαίνει επειδή η ίδια η γλώσσα είναι πολύ περίπλοκη.

Πρώτον, μπορεί να υπάρχουν πολλές σωστές μεταφράσεις. Πάρτε, για παράδειγμα, την ακόλουθη πρόταση:

Η γρήγορη καφέ αλεπού πήδηξε πάνω από το τεμπέλικο σκυλί.

Ένα σύστημα MT μπορεί να δημιουργήσει την ακόλουθη μετάφραση:

Η γρήγορη καφέ αλεπού έριξε πάνω από το αδέξιο σκυλί.

Αυτή είναι μια τεχνικά σωστή μετάφραση, και στην ανθρώπινη αξιολόγηση θα χαρακτηριζόταν κανονικά ως τέτοια. Αλλά στην αυτοματοποιημένη αξιολόγηση, θα χαρακτηριζόταν ως λανθασμένη.

Μικρές λεπτομέρειες μπορούν επίσης να αλλάξουν εντελώς το νόημα μιας πρότασης.

Η γρήγορη καφέ αλεπού πήδηξε πάνω στο τεμπέλικο σκυλί.

Εδώ, υπάρχει μόνο μία λέξη που έχει αλλάξει. Αλλά αυτή η λέξη αλλάζει εντελώς το νόημα της πρότασης. Οι αυτόματες αξιολογήσεις είναι πιθανό να το επισημάνουν υψηλότερα από το προηγούμενο παράδειγμα. Οι μεταφραστές που είναι άνθρωποι είναι πιθανό να εντοπίσουν το σφάλμα, αλλά ορισμένοι μπορεί να το θεωρήσουν σωστό.

Και αυτό γιατί η γλώσσα μπορεί να είναι υποκειμενική. Ακόμη κι οι αξιολογητές που είναι άνθρωποι δύνανται να διαφέρουν στις κρίσεις τους σχετικά με το αν μια μετάφραση είναι καλή ή όχι.

Ανθρώπινη αξιολόγηση: Το χρυσό πρότυπο

Τώρα που έχουμε εξετάσει τα βασικά, ας ρίξουμε μια ματιά σε βάθος στους δύο τύπους αξιολόγησης της MT, ξεκινώντας από την ανθρώπινη αξιολόγηση.

Στο πιο βασικό επίπεδο, ο στόχος της μηχανικής μετάφρασης είναι να μεταφράσει κείμενο από μια γλώσσα προέλευσης σε μια γλώσσα στόχο σε ένα επίπεδο που οι άνθρωποι μπορούν να κατανοήσουν. Ως εκ τούτου, οι άνθρωποι είναι το καλύτερο σημείο αναφοράς για την αξιολόγηση της ποιότητας της μηχανικής μετάφρασης.

Τύποι ανθρώπινης αξιολόγησης

Υπάρχουν διάφοροι τρόποι με τους οποίους γίνεται η ανθρώπινη αξιολόγηση, στους οποίους θα αναφερθούμε τώρα:

Απευθείας αξιολόγηση

Αυτό είναι το πιο απλό είδος ανθρώπινης αξιολόγησης. Τα στοιχεία εξόδου της μηχανικής μετάφρασης βαθμολογούνται σε επίπεδο προτάσεων.

Η πρόκληση με την απευθείας αξιολόγηση είναι ότι οι διαφορετικοί κριτές θα διαφέρουν πολύ στον τρόπο με τον οποίο βαθμολογούν. Κάποιοι μπορεί να συνηθίζουν να προτιμούν τα άκρα όσον αφορά τη βαθμολογία, επισημαίνοντας τις μεταφράσεις είτε ως πολύ κακές είτε ως πολύ καλές. Άλλοι μπορεί να το κινηθούν εκ του ασφαλούς, σημειώνοντας τις ίδιες προτάσεις με βαθμολογίες πιο κοντά στη μέση.

Μια άλλη πρόκληση είναι, πάλι, η υποκειμενικότητα. Για να κρίνουν εάν μια πρόταση είναι κακή μετάφραση ή όχι, οι αξιολογητές πρέπει να λάβουν αποφάσεις σχετικά με τη γλώσσα που είναι διφορούμενη. Επιστρέφοντας στο παράδειγμα πρότασης:

Η γρήγορη καφέ αλεπού πήδηξε πάνω από τον τεμπέλικο σκύλο.

Εδώ, ο σκύλος δεν είναι απαραίτητα λάθος, αλλά δεν είναι κι η καλύτερη αντιστοίχιση. Ορισμένοι αξιολογητές μπορεί να την θεωρούν αρκετά καλή, ενώ άλλοι μπορεί να την επισημάνουν ως εντελώς εσφαλμένη. Για παράδειγμα, εάν η βαθμολογία γίνεται σε κλίμακα 5 σημείων, ορισμένοι μεταφραστές μπορεί να την επισημάνουν ως 4, ενώ άλλοι μπορεί να της δώσουν μόνο ένα 2.

Αυτές οι προκλήσεις μπορούν να αντισταθμιστούν με τη χρήση μεγαλύτερης ομάδας αξιολογητών, η οποία θα επιτρέψει την ομαλοποίηση των βαθμολογιών σε σχέση με την στατιστική.

Κατάταξη

Ένας άλλος τρόπος αξιολόγησης των συστημάτων μηχανικής μετάφρασης μέσω της ανθρώπινης αξιολόγησης είναι η κατάταξη.

Σε αυτήν την περίπτωση, οι αξιολογητές δεν παρέχουν μεμονωμένες βαθμολογίες για προτάσεις, αλλά αντίθετα συγκρίνουν ανάμεσα σε μεταφράσεις από διαφορετικά συστήματα MT. Στη συνέχεια αποφασίζουν ποια είναι η καλύτερη μετάφραση, ποια είναι η δεύτερη καλύτερη, και ούτω καθεξής.

Το πλεονέκτημα αυτής της μεθόδου έναντι της απευθείας αξιολόγησης είναι ότι παρέχει αμέσως μια απευθείας σύγκριση, σε αντίθεση με τη σύγκριση βαθμολογιών που έχουν δημιουργηθεί σε διαφορετικές δοκιμές και πιθανώς από διαφορετικούς αξιολογητές.

Ωστόσο, εξακολουθεί να πάσχει από την ύπαρξη της υποκειμενικότητας. Διαφορετικά συστήματα MT είναι πιθανό να παρουσιάσουν διαφορετικά σφάλματα. Για παράδειγμα:

Η γρήγορη πράσινη αλεπού πήδηξε πάνω από το τεμπέλικο σκυλί.

Γρήγορη καφέ αλεπού πήδηξε πάνω από τεμπέλης σκύλο

Η γρήγορη καφέ αλεπού πηδά πάνω από το τεμπέλικο σκυλί.

Κάθε πρόταση έχει ένα απλό σφάλμα. Το πρώτο έχει λανθασμένη μετάφραση. Το δεύτερο παραλείπει άρθρα. Στο τρίτο λείπουν οι χρόνοι ρήματος.

Οι αξιολογητές πρέπει τώρα να αποφασίσουν ποιο σφάλμα είναι πιο σημαντικό από το άλλο, και πάλι, οι αξιολογητές μπορεί να έχουν διαφορετικές απόψεις σχετικά με το θέμα.

Προσπάθεια μετεπεξεργασίας

Εάν ο σκοπός του χρήστη για ένα σύστημα MT είναι η προετοιμασία εγγράφων για μετεπεξεργασία, υπάρχουν επίσης τρόποι για να το αξιολογήσει ανάλογα με την προσπάθεια που απαιτείται για την μετεπεξεργασία.

Ο θεμελιώδης σκοπός της μετεπεξεργασίας είναι να επιτρέψει σε έναν μεταφραστή να εργαστεί γρηγορότερα από το αν μετέφραζε ένα κείμενο από το μηδέν. Ως εκ τούτου, ο απλούστερος τρόπος για να αξιολογήσει ένα σύστημα MT για μετεπεξεργασία είναι να μετρήσει το χρόνο που χρειάζεται ο μεταφραστής για να διορθώσει τα στοιχεία εξόδου της μηχανικής μετάφρασης

Ένας άλλος τρόπος μέτρησης της προσπάθειας μετεπεξεργασίας είναι ο πίνακας του αριθμού των κινήσεων στο πληκτρολόγιο που θα χρειαζόταν για να αντικατασταθεί το μεταφρασμένο από μηχανή κείμενο με μια ανθρώπινη μετάφραση αναφοράς. Αυτό είναι ανεξάρτητο από χρονικούς περιορισμούς, αλλά επίσης δεν λαμβάνει υπόψη τη δυνατότητα πολλαπλών σωστών μεταφράσεων.

Εργασιοκεντρική αξιολόγηση

Στη συνέχεια, υπάρχει η εργασιοκεντρική αξιολόγηση, η οποία, όπως υποδηλώνει το όνομα, αξιολογεί ένα σύστημα MT με βάση το πόσο καλά ταιριάζει στην εργασία που υπάρχει. Για παράδειγμα, εάν χρησιμοποιείται σε ένα πολύγλωσσο περιβάλλον διαδικτυακού σεμιναρίου, θα μπορούσε να ζητηθεί από τους συμμετέχοντες να αξιολογήσουν την εμπειρία τους με μια μεταφρασμένη από μηχανή βαθμολογία.Τα παραπάνω σημαίνουν ότι αξιολογούν την επιτυχία του συστήματος MT στο σύνολό του.

Το πρόβλημα με αυτήν την προσέγγιση είναι ότι είναι πολύ ανοικτή στην είσοδο άλλων ανεξέλεγκτων στοιχείων που μπορεί να επηρεάσουν την αξιολόγηση που δίνουν οι αξιολογητές. Ως εκ τούτου, η χρήση εργασιοκεντρικής αξιολόγησης γίνεται σε μεγάλο βαθμό ανάλογα τις καταστάσεις.

Γενικές προκλήσεις στην ανθρώπινη αξιολόγηση

Όπως ίσως μπορείτε να δείτε, οι διαφορετικοί τύποι ανθρώπινης αξιολόγησης της MT έρχονται με τις δικές τους προκλήσεις. Υπάρχουν επίσης ορισμένες προκλήσεις που είναι ευρέως κοινές, κι αυτές έχουν να κάνουν με την συνέπεια ή την συμφωνία.

Συμφωνία Επισημειωτών

Αυτό αναφέρεται στη συνέπεια των βαθμολογιών μεταξύ διαφορετικών αξιολογητών. Όπως αναφέραμε νωρίτερα, διαφορετικοί αξιολογητές θα έχουν διαφορετικές τάσεις στον τρόπο με τον οποίο βαθμολογούν τα ίδια τμήματα κειμένου. Κάποιοι ενδέχεται να τα βαθμολογούν στα άκρα ή προς τη μέση. Επίσης, κατά την κατάταξη διαφορετικών λογισμικών MT, οι απόψεις των αξιολογητών μπορείνα διαφέρουν. Αυτός είναι ο λόγος για τον οποίο είναι σημαντικό να υπάρχουν πολλοί αξιολογητές, έτσι ώστε η κατανομή των βαθμολογιών να κανονικοποιηθεί.

Συμφωνία αξιολόγησης του ίδιου κειμένου πολλαπλές φορές από έναν μόνο αξιολογητή

Επίσης, ο τρόπος με τον οποίο ένας μόνο αξιολογητής βαθμολογεί ένα κείμενο είναι ένα μέτρο εγκυρότητας. Ένας αξιολογητής μπορεί να βαθμολογήσει μια πρόταση ως καλή ή κακή την πρώτη φορά, αλλά μπορεί να αλλάξει γνώμη όταν επαναλάβει την ίδια δοκιμασίαΗ ύπαρξη μιας υψηλής μέτρησης της συμφωνίας αξιολόγησης του ίδιου κειμένου πολλαπλές φορές από τον ίδιο σχολιαστή εξασφαλίζει ότι ο επιλεγμένος αξιολογητής μπορεί να θεωρηθεί συνεπής κι αξιόπιστος.

Αυτόματη αξιολόγηση: Η επιλογή με μεταβλητές δυνατότητες

Η ανθρώπινη αξιολόγηση θεωρείται το χρυσό πρότυπο όσον αφορά την αξιολόγηση της ποιότητας της μηχανικής μετάφρασης. Ωστόσο, είναι μια δαπανηρή προσπάθεια όσον αφορά την προσπάθεια και το χρόνο. Αυτός είναι ο λόγος για τον οποίο οι ερευνητές στον τομέα έχουν αναπτύξει διαφορετικά μέσα αξιολόγησης της ποιότητας MT μέσω αυτοματοποιημένων διαδικασιών.

Αυτές οι διαδικασίες έχουν σχεδιαστεί για να ομοιάζουν με τον τρόπο με τον οποίο οι άνθρωποι αξιολογούν το σύστημα MT. Φυσικά, δεν είναι καθόλου τέλειες σε αυτό, αλλά η αυτόματη αξιολόγηση εξακολουθεί να έχει πολύ σημαντικές περιπτώσεις χρήσης.

Το κύριο πλεονέκτημα της αυτόματης αξιολόγησης έναντι της ανθρώπινης αξιολόγησης είναι η μεταβλητή δυνατότητά της. Είναι πολύ πιο γρήγορο να εκτελέσετε εκατοντάδες περιπτώσεις αυτόματης αξιολόγησης παρά έναν γύρο ανθρώπινης αξιολόγησης. Αυτό την καθιστά ιδανική λύση όταν κάνετε τροποποιήσεις ή βελτιστοποιείτε το σύστημα MT, το οποίο χρειάζεται γρήγορα αποτελέσματα.

Προκλήσεις στην αυτόματη αξιολόγηση

Σε αντίθεση με τους ανθρώπους, οι μηχανές δεν είναι εξοπλισμένες για να χειριστούν τις διαφορετικές αποχρώσεις της χρήσης της γλώσσας. Τα συστήματα αυτόματης αξιολόγησης βασίζονται στο ότι το MT έχει ακριβή αντιστοιχία με ένα κείμενο αναφοράς, και μικρές διαφορές μπορούν να έχουν αντίκτυπο στην τελική βαθμολογία. Αυτές οι διαφορές μπορεί να περιλαμβάνουν αποκλίσεις στη μορφολογία, τη χρήση συνωνύμων και τη γραμματική σειρά.

Οτιδήποτε μπορεί να θεωρηθεί τεχνικά ή περισσότερο ή λιγότερο σωστό από έναν αξιολογητή που είναι άνθρωπος μπορεί ενδεχομένως να τιμωρηθεί στην αυτόματη αξιολόγηση. Παρ 'όλα αυτά, ο αριθμός των ακριβών αντιστοιχιών, ειδικά όταν εξετάζεται ένα μεγάλο δείγμα κειμένου, είναι συχνά αρκετός για να καταστήσει εφικτή την αυτόματη αξιολόγηση για χρήση.

Αυτόματες μετρήσεις αξιολόγησης

Υπάρχουν πολλοί διαφορετικοί δείκτες μέτρησης αυτόματης αξιολόγησης διαθέσιμοι σήμερα. Ακολουθούν μερικά παραδείγματα αυτών που χρησιμοποιούνται:

● BLEU (Bilingual Evaluation Understudy)

● NIST (από το Εθνικό Ινστιτούτο Προτύπων και Τεχνολογίας)

● METEOR (Metric for Evaluation of Translation with Explicit Ordering)

● LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

● COMET

● PRIS

● TER (Translation Error Rate)

Κάθε μετρική λειτουργεί σε διαφορετικούς αλγόριθμους και ως εκ τούτου χειρίζεται τη διαδικασία της αυτόματης αξιολόγησης διαφορετικά. Αυτό σημαίνει ότι έχουν διαφορετικά πλεονεκτήματα κι αδυναμίες και διαφέρουν ως προς το είδος των σφαλμάτων στα οποία επιβάλλουν υψηλότερες ή χαμηλότερες κυρώσεις.

BLEU, η πιο δημοφιλής μετρική

Από όλες τις μετρικές που αναφέρονται παραπάνω, ο BLEU είναι αυτός που χρησιμοποιείται πιο συχνά. Ήταν μια από τις πρώτες μετρικές που πέτυχαν υψηλό επίπεδο συσχέτισης με την ανθρώπινη αξιολόγηση κι έχει δημιουργήσει πολλές διαφορετικές παραλλαγές.

Ο τρόπος λειτουργίας του είναι η βαθμολογία μεμονωμένων προτάσεων ι σε σχέση με ένα σύνολο μεταφράσεων αναφοράς υψηλής ποιότητας. Αυτές οι βαθμολογίες στη συνέχεια υπολογίζονται κατά μέσο όρο κι ο αριθμός που προκύπτει είναι η τελική βαθμολογία BLEU για αυτό το σύστημα MT. Αυτή η βαθμολογία αντιπροσωπεύει πόσο καλά ταιριάζει η απόφαση η έξοδος του συστήματος MT ταιριάζει με την ανθρώπινη μετάφραση αναφοράς, η οποία είναι ο δείκτης ποιότητας.

Οι βαθμολογίες υπολογίζονται χρησιμοποιώντας μονάδες που ονομάζονται n-γραμμάρια, οι οποίες αναφέρονται σε τμήματα διαδοχικού κειμένου. Επιστρέφοντας στο προηγούμενο δείγμα πρότασης, για παράδειγμα:

Η γρήγορη καφέ αλεπού πήδηξε πάνω από το τεμπέλικο σκυλί.

Αυτό μπορεί να χωριστεί σε n-γραμμάρια διαφορετικού μήκους. Ένα 2 γραμμάρια, για παράδειγμα, θα ήταν «Η γρήγορη», «γρήγορη καφέ» ή «καφέ αλεπού». Ένα 3 γραμμάρια θα ήταν «Η γρήγορη καφέ» ή «γρήγορη καφέ αλεπού». Ένα 4 γραμμάρια θα ήταν «Η γρήγορη καφέ αλεπού». Και ούτω καθεξής.

Είναι μια πολύπλοκη μαθηματική διαδικασία, αλλά με βασικούς όρους ο αλγόριθμος του BLEU υπολογίζει τη βαθμολογία ελέγχοντας τον αριθμό των επικαλύψεων μεταξύ των n-γραμμαρίων. Η υπολογιζόμενη βαθμολογία θα είναι μεταξύ 0 και 1, με το 1 να αντιπροσωπεύει μια εντελώς πανομοιότυπη αντιστοίχιση μεταξύ της αναφοράς και της πρότασης εξόδου. Τώρα πάρτε την ακόλουθη παραλλαγή στο δείγμα πρότασης:

Η γρήγορη καφέ αλεπού πήδηξε πάνω από το τεμπέλικο σκυλί.

Όλα τα n-γραμμάρια θα ταιριάζουν εκτός από αυτά που έχουν τη λέξη «γρήγορο». Ένα άλλο παράδειγμα:

Η γρήγορη καφέ αλεπού πήδηξε πάνω από το σκυλί.

Σε αυτό το παράδειγμα, λείπει η λέξη «τεμπέλης», οπότε επηρεάζει αρνητικά την σύμπτωση. Και στις δύο περιπτώσεις, η βαθμολογία BLEU θα εξακολουθούσε να είναι υψηλή, αλλά λιγότερο από 1.

Στην πράξη, πολλές προτάσεις δεν θα δείξουν αυτό το υψηλό επίπεδο συσχέτισης. Ως εκ τούτου, οι βαθμολογίες BLEU γίνονται στατιστικά σημαντικές μόνο όταν λαμβάνονται στο πλαίσιο ενός μεγάλου δείγματος κειμένου ή σωμάτων.

Υπάρχουν, φυσικά, άλλοι παράγοντες που υπολογίζουν τη βαθμολογία BLEU, όπως ποινές για επιπλέον λέξεις ή πολύ σύντομες προτάσεις. Άλλα συστήματα βαθμολόγησης παραγώγων έχουν αναπτυχθεί για να αντισταθμίσουν τις ελλείψεις του, αλλά το BLEU παραμένει υψηλά βαθμολογημένο κι εξακολουθεί να είναι το πιο ευρέως χρησιμοποιούμενο σύστημα αξιολόγησης MT σήμερα.

Επίλογος για την αξιολόγηση MT

Και με όλα τα παραπάνω, καλύφθηκαν τα βασικά της αξιολόγησης της μηχανικής μετάφρασης. Όπως έχουμε δείξει, η αξιολόγηση ενός συστήματος MT μπορεί να γίνει μέσω ανθρώπινης αξιολόγησης ή αυτόματης αξιολόγησης. Κι οι δύο διαδικασίες έχουν τα πλεονεκτήματα και τα μειονεκτήματά τους.

Η ανθρώπινη αξιολόγηση είναι το χρυσό πρότυπο όσον αφορά την ποιότητα, αλλά είναι δαπανηρή και χρονοβόρα. Η αυτόματη μετάφραση δεν είναι τόσο ακριβής, αλλά είναι γρήγορη και με μεταβλητές δυνατότητες. Ως εκ τούτου, κι οι δύο τύποι έχουν τις συγκεκριμένες περιπτώσεις χρήσης τους όπου διαπρέπουν.