May 9, 2024

تقييم الترجمة الآلية: الدليل النهائي

الخيارات للاختيار من بينها. حيث يدّعي كل واحد أنه يسجل أرقامًا معينة بناءً على مقاييس معينة، لكنك لا تعرف ما تعنيه الأرقام حقًا. كيف تعرف أيهما أكثر ملاءمة لك؟

إنّك بحاجة إلى فهم كيفية عمل تقييم الترجمة الآلية.

ستتعمق هذه المقالة في موضوع تقييم الترجمة الآلية. وسيساعدك ذلك على فهم ماهيتها وسبب حاجتك إليها وأنواع التقييم المختلفة، لمساعدتك على اتخاذ قرار مستنير عند اختيار نظام الترجمة الآلية للاستثمار فيه.

مقدمة ما هو تقييم الترجمة الآلية؟

يشير مصطلح تقييم الترجمة الآلية إلى العمليات المختلفة لقياس أداء نظام الترجمة الآلية.

إنها طريقة سلسة لتسجيل جودة الترجمة الآلية بحيث يمكن معرفة مدى جودة النظام، وهناك أساس متين لمقارنة مدى فعالية أنظمة الترجمة الآلية المختلفة. للقيام بذلك، يستخدم تقييم الترجمة الآلية مقاييس قابلة للقياس الكمّي.

لماذا تعتبر مقاييس تقييم الترجمة الآلية مهمة؟

هناك سببان رئيسيان لضرورة تقييم أداء نظام الترجمة الآلية. الأول هو التحقّق ممّا إذا كانت جيدة بما يكفي للتطبيق في العالم الحقيقي. والثاني هو العمل كدليل في البحث والتطوير.

للتحقّق ممّا إذا كانت جيدة بما يكفي للتطبيق في العالم الحقيقي

أولاً، بالطبع، تحديد ما إذا كان نظام الترجمة الآلية يعمل بمستوى جيد بما يكفي للاستخدام الفعلي. فهذا هو السبب الأكثر أهمية مباشرةً للمستخدمين النهائيين. إذا كان أداء نظام الترجمة الآلية ضعيفًا، فمن المرجّح أن يختار المستخدمون شيئًا آخر.

وقد ترغب القطاعات الصناعية التي تستخدم الترجمة الآلية أيضًا في مقاييس ملموسة لتحديد نظام الترجمة الآلية الذي ستحصل عليه. بعد كل شيء، تعتبر الترجمة الآلية استثمارًا، وتحتاج الشركات إلى الحصول على أفضل قيمة مقابل أموالها.

وعلى هذا النحو، يحتاج مطورو الترجمة الآلية إلى تقييم ما إذا كانت جودة نظام الترجمة الآلية جيدة بما يكفي لإرسالها إلى العملاء.

لتكون بمثابة دليل في البحث والتطوير

من الناحية المثالية، لا تعتبر أنظمة الترجمة الآلية كيانًا ثابتًا. حيث تتحسن تقنية الترجمة الآلية باستمرار بمرور الوقت. ومن المنطقي أن يُتوقع أن تتحسن أنظمة الترجمة الآلية أيضًا.

هذا هو المكان الذي يأتي فيه البحث، ويحتاج الباحثون إلى بعض الإرشادات حول مكان البحث. تسمح المقاييس القابلة للقياس للباحثين بمقارنة ما إذا كان نهج معين أفضل من الآخر، ممّا يساعدهم على ضبط النظام بدقة.

هذا جيد بشكلٍ خاص لمعرفة كيفية تعامل النظام مع أخطاء الترجمة المتسقة. يمكن أن يُظهر وجود مقاييس قابلة للقياس في إعداد أكثر تحكمًا ما إذا كان نهج معين قادرًا على التعامل مع هذه الأنواع من الأخطاء أم لا.

كيف تقيم نجاح الترجمة الآلية؟

هناك طريقتان مختلفتان لتحديد مدى جودة أداء نظام الترجمة الآلية. يتم إجراء التقييم البشري من قبل خبراء بشريين يقومون بالتقييم اليدوي، بينما يستخدم التقييم التلقائي مقاييس قائمة على الذكاء الاصطناعي تم تطويرها خصيصًا لتقييم جودة الترجمة دون أي تدخل بشري. لكلٍ منها مزاياها وعيوبها. سنتناول مزيدًا من التفاصيل حول كلا النوعين من تقييم الترجمة الآلية في الأقسام اللاحقة من هذه المقالة، ولكن أولاً، إليك نظرة عامة وسريعة على نوعي تقييم الترجمة الآلية، بالإضافة إلى مناهج تقييم الترجمة الآلية التي يمكن أن تستفيد منها.

التقييم البشري مقابل التقييم الآلي

التقييم البشري للترجمة الآلية يعني أن تقييم جودة الترجمة يتم بواسطة مترجمين بشريين محترفين. هذا هو الخيار الأكثر فعالية عندما يتعلّق الأمر بتحديد جودة الترجمات الآلية وصولاً إلى مستوى الجمل. لكن التقييم البشري، كما هو الحال مع الترجمة البشرية، هو بطبيعته أكثر تكلفة واستهلاكًا للوقت.

ومن ناحيةٍ أخرى، يستخدم التقييم الآلي برامج مصمّمة خصيصًا لتقييم جودة الترجمة الآلية وفقًا لطرق مختلفة. لعلّه ليس موثوقًا مثل التقييم البشري على مستوى الجملة، ولكنّه خيار جيد قابل للتطوير عند تقييم الجودة الشاملة للترجمة على مستندات متعددة.

مقاربات تقييم الترجمة الآلية

تعتمد مناهج تقييم الترجمة الآلية على مفهوم التفصيل. أي المستويات المختلفة التي يمكن اعتبار التسجيل فيها مهمًا.

النهج القائم على الجملة. بموجب هذا النهج، يتم إعطاء كل جملة درجة توضح ما إذا كانت ترجمتها جيدة (1) أو ليست جيدة (0) ويتم تقديم متوسط الإجمالي. ويتم ذلك بشكلٍ شائع في التقييم البشري.

النهج القائم على المستندات. ويُعرف أيضًا باسم النهج القائم على المجموعة، حيث يتم منح الجمل أيضًا درجات ولكن الدرجة المهمة هي الإجمالي أو المتوسط بين مجموعة أكبر من المستندات. وهذا هو أصغر مستوى يمكن فيه اعتبار تقييم الترجمة الآلية مهمًا، لأنه يعتمد بشكلٍ كبير على الإحصائيات من مجموعة بيانات واسعة.

النهج القائم على السياق. يختلف هذا النهج عن الأساليب السابقة حيث أن ما يأخذه بعين الاعتبار هو مدى ملاءمة مهمة الترجمة الآلية الشاملة للأغراض التي تم وضعها من أجلها، وليس من خلال متوسط الدرجات بناءً على الجمل. وعلى هذا النحو، يمكن اعتباره نهجاً شاملاً لتقييم الترجمة الآلية.

التحديات في تقييم الترجمة الآلية

إن تقييم الترجمة الآلية عملية صعبة. هذا لأن اللغة نفسها شيء معقد للغاية.

أولاً، يمكن أن تكون هناك عدة ترجمات صحيحة. إليك على سبيل المثال الجملة التالية:

قفز الثعلب البني السريع فوق الكلب الكسول.

قد يقوم نظام الترجمة الآلية بإنشاء الترجمة التالية بدلاً من ذلك:

انقض الثعلب البني السريع على الكلب البطيء.

هذه ترجمة صحيحة تقنيًا، وفي التقييم البشري عادةً ما يتم تمييزها على هذا النحو. ولكن في التقييم الآلي، سيتم وضع علامة على أنها غير صحيحة.

يمكن للتفاصيل الصغيرة أيضًا تغيير معنى الجملة تمامًا.

قفز الثعلب البني السريع على الكلب الكسول.

هنا، ثمة كلمة واحدة فقط تم تغييرها. لكن هذه الكلمة تغير معنى الجملة تمامًا. من المرجّح أن تضع التقييمات الآلية علامة أعلى من المثال السابق. ومن المرجّح أن يكتشف المترجمون البشريون الخطأ، لكن البعض قد يعتبره صحيحًا.

وذلك لأن اللغة يمكن أن تكون ذات طابع شخصي. حتى المقيّمون البشريون يمكن أن يختلفوا في أحكامهم حول ما إذا كانت الترجمة جيدة أم لا.

التقييم البشري: المعيار الذهبي

الآن بعد أن استعرضنا الأساسيات، دعونا نلقي نظرة متعمقة على نوعي تقييم الترجمة الآلية، بدءًا بالتقييم البشري.

على المستوى الأساسي، يتمثل هدف الترجمة الآلية في ترجمة النص من لغة المصدر إلى لغة الهدف على مستوى يمكن للبشر فهمه. وعلى هذا النحو، فإن البشر هم أفضل نقطة مرجعية لتقييم جودة الترجمة الآلية.

أنواع التقييم البشري

هناك عدد من الطرق المختلفة التي يتم بها التقييم البشري، والتي سنتطرق إليها الآن:

التقييم المباشر

هذا هو أبسط نوع من التقييم البشري. يتم فيه تسجيل مخرجات الترجمة الآلية على مستوى الجملة.

ويتمثل التحدي في التقييم المباشر في أن المقيّمين المختلفين سيختلفون بشكلٍ كبير في تقييمهم. فقد يميل البعض إلى التطرف فيما يتعلق بتسجيل درجة التقييم، ووضع علامة على الترجمات على أنها إما سيئة جدًا أو جيدة جدًا. وقد يجعلها الآخرون تبدو بشكلٍ أكثر تحفظًا، ويحددون الجمل نفسها بدرجات تقييم أقرب إلى المتوسط.

والتحدي الآخر هو، مرة أخرى، الطابع الشخصي. فعند الحكم على ما إذا كانت الجملة ترجمة سيئة أم لا، يحتاج المقيّمون إلى اتخاذ قرارات بشأن اللغة الغامضة. بالعودة إلى الجملة المثال:

قفز الثعلب البني السريع فوق الكلب الكسولة.

هنا، الكلب ليست بالضرورة خاطئة، ولكنها ليست الأنسب أيضًا. قد يعتبرها بعض المقيّمين جيدة بما فيه الكفاية، بينما قد يعتبرها آخرون خاطئًا تمامًا. على سبيل المثال، إذا تم تسجيل النقاط على مقياس مكون من 5 نقاط، فقد يقوم بعض المترجمين بوضع علامة 4 عليها، بينما قد يعطيها مترجم آخر 2 فقط.

ويمكن تعويض هذه التحديات من خلال توظيف مجموعة أكبر من المقيّمين، ممّا سيسمح بتطبيع الدرجات من الناحية الإحصائية.

تصنيف المرتبة

هناك طريقة أخرى لتقييم أنظمة الترجمة الآلية من خلال التقييم البشري وهي تصنيف المرتبة.

في هذه الحالة، لا يقدم المقيِّمون درجات فردية للجمل، بل يقارنون بدلاً من ذلك بين الترجمات من أنظمة الترجمة الآلية المختلفة. ثم يقررون أيها أفضل ترجمة، وأيها ثاني أفضل ترجمة، وهكذا.

وتتمثل ميزة هذه الطريقة على التقييم المباشر في أنها توفر على الفور مقارنة مباشرة، بدلاً من مقارنة الدرجات التي تم الحصول عليها خلال تجارب مختلفة وربما من قبل مقيّمين مختلفين.

ومع ذلك، فإنها ما تزال تعاني من تحدي الذاتية. من المحتمل أن تأتي أنظمة الترجمة الآلية المختلفة بأخطاء مختلفة. على سبيل المثال:

قفز الثعلب الأخضر السريع فوق الكلب الكسول.

قفز الثعلب البني السريع فوق الكلب الكسول.

يقفز الثعلب البني السريع فوق الكلب الكسول.

تحتوي كل جملة على خطأ بسيط. الأولى بها ترجمة خاطئة. والثانية تحذف أدوات النكرة والمعرفة. والثالثة تفتقد أزمنة الفعل.

يحتاج المقيِّمون الآن إلى تحديد الخطأ الأكثر أهمية عن الآخر، ومرة أخرى، قد يكون لدى المقيِّمين آراء مختلفة حول هذه المسألة.

جهود التحرير اللاحق

إذا كان غرض المستخدم من نظام الترجمة الآلية هو إعداد المستندات للتحرير اللاحق، فهناك أيضًا طرق لتقييمها وفقًا لمقدار الجهد الذي يتطلبه التحرير اللاحق.

إن الغرض الأساسي من التحرير اللاحق هو السماح للمترجم العمل بشكلٍ أسرع ممّا لو كان سيترجم نصًا من البداية. وعلى هذا النحو، فإن أبسط طريقة لتقييم نظام الترجمة الآلية للتحرير اللاحق هي قياس الوقت الذي يستغرقه المترجم لتصحيح المخرجات المترجمة آليًا.

هناك طريقة أخرى لقياس جهد التحرير اللاحق وهي جدولة عدد السكتات الدماغية على لوحة المفاتيح التي قد يستغرقها الأمر لاستبدال النص المترجم آليًا بترجمة ذات مرجعية بشرية. وهذا مستقل عن قيود الوقت، ولكنه أيضًا لا يأخذ في الاعتبار إمكانية الترجمات الصحيحة المتعددة.

التقييم القائم على المهام

ثم هناك تقييم قائم على المهام حيث يقوم، كما يوحي الاسم، بتقييم نظام الترجمة الآلية استنادًا إلى مدى ملاءمته للمهمة المطروحة. على سبيل المثال، إذا تم استخدامه في إعداد ندوة عبر الإنترنت متعدّدة اللغات، فقد يُطلب من المشاركين تقييم تجربتهم مع نسخة مترجمة آليًا. وهذا يعني أنهم يقومون بتقييم نجاح نظام الترجمة الآلية ككل.

وتكمن مشكلة هذا النهج في أنه منفتح جدًا على إدخال عناصر أخرى غير خاضعة للرقابة قد تؤثر على التقييم الذي يقدمه المقيّمون. على هذا النحو، فإن استخدام التقييم القائم على المهام أمر ظرفي للغاية.

التحديات العامة في التقييم البشري

كما قد ترى، تأتي الأنواع المختلفة من التقييم البشري للترجمة الآلية مع تحدياتها الخاصة. وهناك أيضًا بعض التحديات التي يتقاسمونها على نطاق واسع، وهذه تتعلق بالاتساق أو الاتفاق.

التوافق بين التعليقات التوضيحية

يشير هذا إلى مدى اتساق الدرجات بين المقيّمين المختلفين. كما ذكرنا سابقًا، سيكون لدى المقيِّمين المختلفين اتجاهات مختلفة في الطريقة التي يسجلون بها تقييم نفس مقاطع النص. قد يسجل تقييمهها البعض عند أقصى الحدود أو عند المتوسط. عند تصنيف محركات الترجمة الآلية المختلفة، يمكن أن تختلف آرائهم أيضًا. هذا هو السبب في أهمية وجود مقيّمين متعددين، بحيث يتم تطبيع توزيع الدرجات.

لتوافق بين التعليقات التوضيحية

الطريقة التي يسجل بها مقيم واحد نصًا هي أيضًا مقياس للصلاحية. قد يسجل المقيِّم جملة جيدة أو سيئة في المرة الأولى، لكنه قد يغير رأيه عند تكرار نفس الاختبار. يضمن الحصول على قياس عالٍ للتوافق بين التعليقات أن المُقيِّم المختار يمكن اعتباره متسقًا وموثوقًا.

التقييم الآلي: الخيار القابل للتطوير

يعتبر التقييم البشري المعيار الذهبي عندما يتعلّق الأمر بتقييم جودة الترجمة الآلية. ومع ذلك، فهي محاولة مكلفة من حيث الجهد والوقت. لهذا السبب طور الباحثون في هذا المجال وسائل مختلفة لتقييم جودة الترجمة الآلية من خلال العمليات الآلية.

لقد تم تصميم هذه العمليات لتقريب كيفية تقييم البشر لنظام الترجمة الآلية. بالطبع، هم بعيدون عن الكمال في هذا، لكن التقييم الآلي ما يزال يحتوي على حالات استخدام مهمة جدًا.

الميزة الرئيسية للتقييم الآلي على التقييم البشري هي قابلية التوسّع. إن تشغيل مئات من حالات التقييم الآلي أسرع بكثير من إجراء جولة واحدة من التقييم البشري. وهذا يجعله حلاً مثاليًا عند إجراء التعديلات أو تحسين نظام الترجمة الآلية، والذي يحتاج إلى نتائج سريعة.

التحديات في التقييم الآلي

على عكس البشر، فإن الآلات ليست مجهزة للتعامل مع الفروق الدقيقة المختلفة في استخدام اللغة. تعتمد أنظمة التقييم الآلي على تطابق الترجمة الآلية تمامًا مع النص المرجعي، ويمكن أن يكون للاختلافات الطفيفة تأثير على النتيجة النهائية. كما يمكن أن تشمل هذه الاختلافات الانحرافات في علم الصرف واشتقاق الكلمات واستخدام المرادفات والترتيب النحوي.

فأي شيء يمكن اعتباره تقنيًا أو صحيحًا إلى حدٍ ما من قبل مقيم بشري يمكن عدم قبوله في التقييم الآلي. ومع ذلك، فإن عدد المطابقات التامة، خاصةً عند النظر في عينة كبيرة من النص، غالبًا ما يكون كافيًا لجعل التقييم الآلي ممكنًا للاستخدام.

مقاييس التقييم الآلي

هناك عدد من مقاييس التقييم الآلي المختلفة المتاحة اليوم. فيما يلي بعض الأمثلة على تلك المستخدمة:

· BLEU (بديل التقييم ثنائي اللغة)

· NIST (من المعهد الوطني للمعايير والتكنولوجيا)

· METEOR (مقياس لتقييم الترجمة بترتيب صريح)

· LEPOR (تقييم الدرجة حسب المدى والدقة وفرق الموضع بالكم والإعادة)

· التعليق

· PRIS

· TER (معدل أخطاء الترجمة)

يعمل كل مقياس على خوارزميات مختلفة وبالتالي يتعامل مع عملية التقييم الآلي بشكلٍ مختلف. وهذا يعني أن لديه نقاط قوة ونقاط ضعف مختلفة، ويختلف فيما يتعلق بأنواع الأخطاء التي يفرض عليها درجات تقييم أعلى أو أقل.

(بديل التقييم ثنائي اللغة) BLEU، المقياس الأكثر شيوعًا

من بين جميع المقاييس المذكورة أعلاه، يعد (بديل التقييم ثنائي اللغة) BLEU هو الأكثر استخدامًا. لقد كان أحد المقاييس الأولى لتحقيق مستوى عالٍ من الارتباط مع التقييم البشري، وقد أنتج العديد من الاختلافات المتنوعة.

وطريقة عمله هي أن الجمل الفردية يتم تسجيلها مقابل مجموعة من الترجمات ذات المرجعية عالية الجودة. ويتم بعد ذلك حساب متوسط هذه الدرجات، والرقم الناتج هو درجة (بديل التقييم ثنائي اللغة) BLEU النهائية لنظام الترجمة الآلية هذا. تمثل هذه النتيجة مدى تطابق مخرجات نظام الترجمة الآلية مع الترجمة المرجعية البشرية، والتي تعد علامة على الجودة.

ويتم حساب الدرجات باستخدام وحدات تسمى وحدات n-grams، والتي تشير إلى كم مقاطع من النص المتتابع. بالعودة إلى مثال الجملة السابقة، على سبيل المثال:

قفز الثعلب البني السريع فوق الكلب الكسول.

يمكن تقسيم هذا إلى أجزاء من وحدات n-gram بأطوال مختلفة. على سبيل المثال، ستكون «الثعلب السريع» أو «البني السريع» أو «الثعلب البني» بمثابة وحدتان. وستكون «البني السريع» أو «الثعلب البني السريع» بمثابة 3 وحدات. وستكون «الثعلب البني السريع» بمثابة 4 وحدات. وهكذا.

إنها عملية رياضية معقدة، ولكن من الناحية الأساسية، تحسب خوارزمية بديل التقييم ثنائي اللغة BLEU النتيجة عن طريق التحقق من عدد التداخلات بين وحدات n-grams. ستكون النتيجة المحسوبة بين 0 و 1، حيث يمثل 1 تطابقًا متطابقًا تمامًا بين الجملة المرجع والجملة المخرجة. والآن إليك الشكل التالي من الجملة المثال:

قفز الثعلب البني السريع فوق الكلب الكسول.

ستتطابق جميع وحدات n-grams باستثناء تلك التي تحتوي على كلمة «سريع». مثال آخر:

قفز الثعلب البني السريع فوق الكلب.

في هذا المثال، كلمة «كسول» مفقودة، وهذا يؤثر أيضًا على التداخل بشكلٍ سلبي. في كلتا الحالتين، ستظل درجة بديل التقييم ثنائي اللغة BLEU عالية، ولكن أقل من 1.

من الناحية العملية، لن تظهر العديد من الجمل هذا المستوى العالي من مدى الارتباط. وعلى هذا النحو، تصبح درجات بديل التقييم ثنائي اللغة BLEU ذات دلالة إحصائية فقط عندما يتم أخذها في سياق عينة كبيرة من النص أو النصوص.

وهناك بالطبع عوامل أخرى تدخل في حساب درجة بديل التقييم ثنائي اللغة BLEU، مثل درجات التقييم على الكلمات الإضافية أو الجمل القصيرة جدًا. تم تطوير أنظمة تسجيل مشتقة أخرى للتعويض عن أوجه القصور فيها، لكن بديل التقييم ثنائي اللغة BLEU ما يزال يتمتع بتصنيف عالٍ وما يزال نظام تقييم الترجمة الآلية الأكثر استخدامًا اليوم.

الكلمات الأخيرة في تقييم الترجمة الآلية

وهذا يشمل أساسيات تقييم الترجمة الآلية. كما أوضحنا، يمكن تقييم نظام الترجمة الآلية من خلال التقييم البشري أو التقييم الآلي. كلتا العمليتين لهما مزايا وعيوب.

فالتقييم البشري هو المعيار الذهبي من حيث الجودة، ولكنه مكلف ويستغرق وقتًا طويلاً. والترجمة الآلية ليست دقيقة بالقدر نفسه، ولكنها سريعة وقابلة للتطوير. وعلى هذا النحو، يحتوي كلا النوعين على حالات استخدام محدّدة حيثما يتألقان.