May 13, 2024
Supongamos que tiene una empresa que ha decidido invertir en un sistema de traducción automática.Ha realizado una investigación básica y ha descubierto que hay muchas opciones entre las que elegir. Cada uno afirma obtener cierta puntuación en función de determinadas métricas, pero no sabe qué significan realmente los números. ¿Cómo sabe cuál es la más adecuada para usted?
Debe comprender cómo funciona la evaluación de la traducción automática.
Este artículo profundizará en el tema de la evaluación de la traducción automática.Le ayudará a entender qué es, por qué la necesita y los diferentes tipos de evaluación, para que pueda tomar una decisión bien informada al elegir un sistema de traducción automática en el cual invertir.
La evaluación de la traducción automática se refiere a los diferentes procesos de medición del rendimiento de un sistema de traducción automática.
Es una forma de evaluar la calidad de la traducción automática para que sea posible saber qué tan bueno es el sistema y exista una base sólida para comparar la eficacia de los diferentes sistemas de traducción automática. Para ello, la evaluación de la traducción automática utiliza métricas cuantificables.
Existen dos razones principales por las que es necesario evaluar el rendimiento de un sistema de traducción automática. La primera es comprobar si es lo suficientemente bueno para su aplicación en el mundo real.La segunda es servir de guía en la investigación y el desarrollo.
Lo primero, por supuesto, es determinar si el sistema de MT funciona a un nivel que sea suficientemente bueno para su uso real. Esta es la razón que tiene una relevancia más directa para los usuarios finales. Si el sistema de traducción automática es deficiente, es más probable que los usuarios elijan otro.
Los sectores industriales que utilizan la traducción automática también querrían métricas concretas para decidir qué sistema de MT adquirir. Después de todo, la traducción automática es una inversión y las empresas necesitan obtener el mejor valor por su dinero.
Por lo tanto, los desarrolladores de MT deben evaluar si la calidad del sistema de traducción automática es lo suficientemente buena como para enviarlo a los clientes.
Los sistemas de MT no son, idealmente, una entidad estática. La tecnología de la traducción automática mejora continuamente con el paso del tiempo. Tiene sentido que se espere que los sistemas de MT también mejoren.
Aquí es donde entra en juego la investigación, y los investigadores necesitan alguna guía sobre dónde buscar. Las métricas medibles permiten a los investigadores comparar si un enfoque en particular es mejor que otro, lo que les ayuda a ajustar el sistema.
Esto es especialmente bueno para ver cómo trata el sistema los errores de traducción sistemáticos. Tener métricas medibles puede mostrar en un entorno más controlado si un enfoque en particular es capaz o no de hacer frente a este tipo de errores.
Existen dos maneras diferentes de determinar qué tan bien funciona un sistema de MT. La evaluación humana la llevan a cabo expertos humanos que realizan una evaluación manual, mientras que la evaluación automática utiliza métricas basadas en inteligencia artificial desarrolladas especialmente para evaluar la calidad de la traducción sin intervención humana.Cada una tiene sus propias ventajas y desventajas. Profundizaremos en ambos tipos de evaluación de la MT en las secciones posteriores de este artículo, pero primero le presentamos una rápida descripción general de los dos tipos de evaluación de la traducción automática, así como de los enfoques para la evaluación de la MT que los utilizan.
La evaluación humana de la traducción automática significa que la evaluación de la calidad de la traducción la realizan traductores profesionales humanos. Esta es la opción más eficaz cuando se trata de determinar la calidad de las traducciones automáticas hasta el nivel de oración. Sin embargo, la evaluación humana, al igual que la traducción humana, es por naturaleza más costosa y lleva más tiempo.
La evaluación automática, por otro lado, utiliza programas creados específicamente para evaluar la calidad de la traducción automática de acuerdo con diferentes métodos. No es tan fiable como la evaluación humana a nivel de oración, pero es una buena opción escalable al evaluar la calidad general de la traducción de varios documentos.
Los enfoques para la evaluación de la traducción automática se basan en el concepto de granularidad. Es decir, los diferentes niveles en los que la puntuación podría considerarse significativa.
Enfoque basado en oraciones. Según este enfoque, cada oración recibe una puntuación que indica si su traducción es buena (1) o no es buena (0) y el total recibe un promedio. Esto se hace con mayor frecuencia en la evaluación humana.
Enfoque basado en documentos. También conocido como enfoque basado en corpus, las oraciones también reciben puntuaciones, pero la puntuación significativa es el total o el promedio entre un conjunto más grande de documentos. Este es el nivel más bajo en el que la evaluación automática de la MT puede considerarse significativa, ya que depende en gran medida de estadísticas de un amplio conjunto de datos.
Enfoque basado en el contexto. Este enfoque difiere de los anteriores, pues lo que tiene en cuenta es qué tan bien se adapta en general la tarea de traducción automática a los fines para los que se destina, y no a través de puntuaciones promedio basadas en oraciones. Como tal, podría considerarse un enfoque holístico de la evaluación de la MT.
La evaluación de la traducción automática es un proceso difícil. Esto se debe a que el lenguaje en sí mismo es algo muy complejo.
Por un lado, puede haber varias traducciones correctas. Tomemos, por ejemplo, la siguiente oración:
El veloz zorro marrón saltó hacia el perro perezoso.
En su lugar, un sistema de traducción automática podría generar la siguiente traducción:
El veloz zorro marrón se abalanzó sobre el perro indolente.
Esta es una traducción técnicamente correcta y, en la evaluación humana, normalmente se marcaría como tal.Sin embargo, en la evaluación automatizada, se marcaría como incorrecta.
Los detalles pequeños también pueden cambiar por completo el significado de una oración.
El veloz zorro marrón saltó sobre el perro perezoso.
Aquí, solo se ha cambiado una palabra. Pero esa palabra cambia por completo el significado de la oración. Es probable que las evaluaciones automáticas le den una puntuación más alta que en el ejemplo anterior. Es posible que los traductores humanos detecten el error, pero algunos podrían considerarla correcta.
Y eso se debe a que el lenguaje puede ser subjetivo. Incluso los evaluadores humanos pueden diferir en sus juicios sobre si una traducción es buena o no.
Ahora que hemos repasado los aspectos básicos, analicemos en profundidad los dos tipos de evaluación de la MT, empezando por la evaluación humana.
En el nivel más básico, el objetivo de la traducción automática es traducir el texto del idioma de origen al idioma de destino a un nivel que los humanos puedan entender.Como tal, las personas son el mejor punto de referencia para evaluar la calidad de la traducción automática.
Existen varias formas diferentes de realizar la evaluación humana, que analizaremos ahora:
Este es el tipo más simple de evaluación humana. Los resultados de la traducción automática se califican a nivel de oración.
El desafío de la evaluación directa es que los diferentes jueces variarán ampliamente en la forma de calificar. Algunos tienden a irse a los extremos en términos de puntuación, calificando las traducciones como muy malas o muy buenas. Otros pueden jugar de forma más conservadora, dani a las mismas oraciones puntuaciones más cercanas a la mitad.
Otro desafío es, de nuevo, la subjetividad. Al juzgar si una oración es una mala traducción o no, los evaluadores deben tomar decisiones sobre el lenguaje que es ambiguo. Volviendo a la oración de ejemplo:
El veloz zorro marrón saltó hacia el perezoso canino.
En este caso, canino no es necesariamente incorrecto, pero tampoco es la mejor opción. Algunos evaluadores pueden considerarla suficientemente bueno, mientras que otros pueden señalarla como completamente incorrecta. Por ejemplo, si la puntuación se hace en una escala de 5 puntos, algunos traductores pueden marcarla con un 4, mientras que otros pueden darle solo un 2.
Estos desafíos pueden compensarse empleando un grupo más grande de evaluadores, lo que permitirá normalizar las puntuaciones en términos estadísticos.
Otra forma de evaluar los sistemas de traducción automática mediante la evaluación humana es la clasificación.
En este caso, los evaluadores no dan puntuaciones individuales a las oraciones, sino que comparan las traducciones de diferentes sistemas de traducción automática. Luego deciden cuál es la mejor traducción, cuál es la segunda mejor, y así sucesivamente.
La ventaja de este método sobre la evaluación directa es que ofrece inmediatamente una comparación directa, en lugar de comparar las puntuaciones que se han generado en diferentes ensayos y, posiblemente, por diferentes evaluadores.
Sin embargo, aún se enfrenta al desafío de la subjetividad. Es probable que los diferentes sistemas de traducción automática generen diferentes errores. Por ejemplo:
El veloz zorro verde saltó hacia el perro perezoso.
Un veloz zorro marrón saltó sobre un perro perezoso.
El veloz zorro marrón salta sobre el perro perezoso.
Cada oración tiene un error simple. La primera tiene un error de traducción. La segunda omite los artículos. A la tercera le faltan los tiempos verbales.
Los evaluadores ahora deben decidir qué error es más importante que el otro y, de nuevo, los evaluadores pueden tener opiniones diferentes sobre el tema.
Si el objetivo del usuario de un sistema de traducción automática es preparar documentos para su post-edición, también hay formas de evaluarla de acuerdo con la cantidad de esfuerzo que lleva realizar la post-edición.
El propósito fundamental de la post-edición es permitir que un traductor trabaje más rápido que si tradujera un texto desde cero. Por lo tanto, la forma más sencilla de evaluar un sistema de traducción automática para la post-edición es medir el tiempo que tarda el traductor en corregir el resultado traducido automáticamente.
Otra forma de medir el esfuerzo de post-edición es tabular el número de pulsaciones del teclado que se necesitarían para reemplazar el texto traducido automáticamente por una traducción de referencia humana. Esto es independiente de las limitaciones de tiempo, pero tampoco tiene en cuenta la posibilidad de varias traducciones correctas.
Luego está la evaluación basada en tareas que, como su nombre indica, evalúa un sistema de MT en función de qué tan bien se adapta a la tarea en cuestión. Por ejemplo, si se usa en el entorno de un seminario web multilingüe, se les puede pedir a los participantes que califiquen su experiencia con una transcripción traducida automáticamente. Esto significa que califican el éxito del sistema de MT en su conjunto.
El problema de este enfoque es que está muy abierto a la introducción de otros elementos no controlados que pueden afectar a la calificación que otorgan los evaluadores. Como tal, el uso de la evaluación basada en tareas es altamente situacional.
Como puede ver, los diferentes tipos de evaluación humana de la MT conllevan sus propios desafíos. También hay algunos desafíos que comparten ampliamente, y tienen que ver con la consistencia o el acuerdo.
Esto se refiere a la consistencia de las puntuaciones entre los diferentes evaluadores. Como mencionamos anteriormente, los diferentes evaluadores tendrán diferentes tendencias en la forma en que califican los mismos segmentos de texto. Algunos pueden calificarlos en los extremos o hacia la mitad. Al clasificar los diferentes motores de traducción automática, sus opiniones también pueden variar. Por eso es importante tener varios evaluadores para que la distribución de las puntuaciones sea normalizada.
La forma en que un solo evaluador califica un texto también es una medida de validez. Un evaluador puede calificar una oración como buena o mala la primera vez, pero puede cambiar de opinión al repetir la misma prueba. Tener un alto grado de acuerdo entre los anotadores garantiza que el evaluador elegido pueda considerarse consistente y confiable.
La evaluación humana se considera el estándar de referencia cuando se trata de evaluar la calidad de la traducción automática. Sin embargo, es un emprendimiento costoso en términos de esfuerzo y tiempo. Esta es la razón por la que los investigadores en el campo han desarrollado diferentes medios para evaluar la calidad de la MT a través de procesos automatizados.
Estos procesos están diseñados para aproximar la forma en que los humanos evaluarán el sistema de MT. Por supuesto, están lejos de ser perfectos, pero la evaluación automática aún tiene casos de uso muy importantes.
La principal ventaja de la evaluación automática sobre la evaluación humana es su escalabilidad. Es mucho más rápido ejecutar cientos de instancias de evaluación automática que incluso una ronda de evaluación humana.Esto lo convierte en una solución ideal para realizar ajustes u optimizar el sistema de traducción automática, que necesita resultados rápidos.
A diferencia de los humanos, las máquinas no están equipadas para manejar los diferentes matices del uso del lenguaje. Los sistemas de evaluación automática se basan en la premisa de que la MT coincida exactamente con un texto de referencia, y las pequeñas diferencias pueden tener un impacto en la puntuación final. Estas diferencias pueden incluir desviaciones en la morfología, el uso de sinónimos y el orden gramatical.
Cualquier aspecto que un evaluador humano pueda considerar medianamente correcto desde el punto de vista técnico, puede penalizarse en la evaluación automática. Sin embargo, el número de coincidencias exactas, especialmente cuando se considera una muestra grande de texto, suele ser suficiente para que el uso de la evaluación automática sea factible
Existen varias métricas de evaluación automática diferentes disponibles en la actualidad. Estos son algunos ejemplos de los que están en uso:
●
●
●
●
●
●
●
Cada métrica funciona con diferentes algoritmos y, por lo tanto, maneja el proceso de evaluación automática de manera diferente. Esto significa que tienen diferentes fortalezas y debilidades, y difieren en cuanto a los tipos de errores a los que imponen penalizaciones más altas o más bajas.
De todas las métricas enumeradas anteriormente, BLEU es la que se usa con más frecuencia. Fue una de las primeras métricas en lograr un alto nivel de correlación con la evaluación humana y ha generado muchas variaciones diferentes.
Consiste en asignar puntuaciones a las oraciones individuales según un conjunto de traducciones de referencia de alta calidad. Luego, estas puntuaciones se promedian y el número resultante es la puntuación de BLEU final para dicho sistema MT. Esta puntuación representa qué tanto coincide el resultado del sistema de traducción automática con la traducción de referencia humana, que es el indicador de calidad.
Las puntuaciones se calculan mediante unidades denominadas n-gramas, que se refieren a segmentos de texto consecutivo. Volviendo a la oración de ejemplo anterior, por ejemplo:
El veloz zorro marrón saltó hacia el perro perezoso.
Esto se puede dividir en n-gramas de diferente longitud. Un n-grama de 2, por ejemplo, sería «El veloz», «marrón veloz» o «zorro marrón». Un n-grama de 3 sería «El veloz marrón» o «veloz zorro marrón». Un n-grama de 4 sería «El veloz zorro marrón». Y así sucesivamente.
Es un proceso matemático complejo, pero en términos básicos, el algoritmo de BLEU calcula la puntuación comprobando el número de superposiciones entre n-gramas. La puntuación calculada estará entre 0 y 1, donde 1 representa una coincidencia completamente idéntica entre la oración de referencia y la oración de salida. Ahora tomemos la siguiente variación de la oración de ejemplo:
El veloz zorro marrón saltó hacia el perro perezoso.
Todos los n-gramas coincidirán excepto los que tengan la palabra «veloz». Otro ejemplo:
El veloz zorro marrón saltó hacia el perro.
En este ejemplo, falta la palabra «perezoso», por lo que también afecta negativamente a la superposición. En ambos casos, la puntuación de BLEU seguiría siendo alta, pero inferior a 1.
En la práctica, no hay muchas oraciones que muestren este alto nivel de correlación. Por lo tanto, las puntuaciones de BLEU se vuelven estadísticamente significativas solo cuando se toman en el contexto de una muestra grande de texto o corpus.
Por supuesto, otros factores intervienen en el cálculo de la puntuación de BLEU, como las penalizaciones por palabras adicionales u oraciones muy cortas. Se han desarrollado otros sistemas de puntuación derivados para compensar sus deficiencias, pero BLEU sigue teniendo una alta calificación y sigue siendo el sistema de evaluación de MT más utilizado actualmente.
Y eso cubre los aspectos básicos de la evaluación de la traducción automática. Como hemos demostrado, la evaluación de un sistema de traducción automática se puede realizar mediante una evaluación humana o una evaluación automática.Ambos procesos tienen sus ventajas y desventajas.
La evaluación humana es el estándar de referencia en términos de calidad, pero es costosa y lleva mucho tiempo. La traducción automática no es tan precisa, pero es rápida y escalable. Como tal, ambos tipos tienen sus casos de uso específicos en los que destacan.