May 10, 2024

मशीन अनुवाद का मूल्यांकन: द अल्टीमेट गाइड

मान लें कि आप कोई ऐसा व्यवसाय हैं जिसने मशीन अनुवाद प्रणाली में निवेश करने का निर्णय लिया है। आपने कुछ मूल शोध किया है, और पाया है कि आपके पास चुनने के लिए बहुत सारे विकल्प हैं। प्रत्येक व्यक्ति कुछ मैट्रिक्स के आधार पर एक निश्चित योग स्कोर करने का दावा करता है, लेकिन आपको नहीं पता कि वास्तव में संख्याओं का क्या मतलब है। आप कैसे जानते हैं कि कौन सा आपके लिए सबसे उपयुक्त है?

आपको यह समझने की ज़रूरत है कि मशीन अनुवाद का मूल्यांकन कैसे काम करता है।

यह लेख मशीन अनुवाद के मूल्यांकन के विषय पर गहराई में जाएगा। यह आपको इस बात को समझने में मदद करेगा कि यह क्या है, आपको इसकी आवश्यकता क्यों है, और विभिन्न प्रकार के मूल्यांकन कौन से हैं, ताकि आपको निवेश करने के लिए एक MT प्रणाली चुनते समय अच्छी तरह से सूचित निर्णय लेने में मदद मिल सके।

परिचय: मशीन अनुवाद का मूल्यांकन क्या है?

मशीन अनुवाद का मूल्यांकन मशीन अनुवाद प्रणाली के प्रदर्शन को मापने की विभिन्न प्रक्रियाओं को संदर्भित करता है।

यह MT की गुणवत्ता को स्कोर देने का एक तरीका है ताकि यह जानना संभव हो कि प्रणाली कितनी अच्छी है, और इस बात की तुलना करने का एक ठोस आधार हो कि विभिन्न MT प्रणालियां कितनी प्रभावी हैं। ऐसा करने के लिए, मशीन अनुवाद का मूल्यांकन मात्रात्मक मेट्रिक्स का इस्तेमाल करता है।

मशीन अनुवाद के मूल्यांकन मेट्रिक्स क्यों महत्वपूर्ण हैं?

एक MT प्रणाली के प्रदर्शन का मूल्यांकन करने की आवश्यकता के दो मुख्य कारण हैं। पहला यह जांचना है कि क्या यह वास्तविक दुनिया के अनुप्रयोग के लिए काफी है या नहीं। दूसरा शोध और विकास में मार्गदर्शक के रूप में काम करना है।

यह जाँचने के लिए कि क्या यह वास्तविक दुनिया के अनुप्रयोग के लिए काफी है

सबसे पहले, निश्चित रूप से, यह निर्धारित करना है कि क्या MT प्रणाली उस स्तर पर काम करती है जो वास्तविक उपयोग के लिए काफी सही है। यही कारण है कि यह अंतिम उपयोगकर्ताओं के लिए सबसे अधिक प्रासंगिक है। यदि मशीन अनुवाद प्रणाली खराब प्रदर्शन करती है, तो उपयोगकर्ताओं के कुछ और चुनने की संभावना अधिक होती है।

MT का इस्तेमाल करने वाले औद्योगिक क्षेत्र भी यह तय करने के लिए ठोस मेट्रिक्स चाहते हैं कि कौन सी MT प्रणाली ली जाए। आखिरकार, MT एक निवेश है, और व्यवसायों के लिए अपने पैसे का सर्वोत्तम मूल्य पाना आवश्यक है।

इस प्रकार, MT डेवलपर्स को इसका मूल्यांकन करने की आवश्यकता है कि क्या मशीन अनुवाद प्रणाली की गुणवत्ता इतनी अच्छी है कि वे इसे अपने ग्राहकों को भेज सकें।

शोध और विकास में एक मार्गदर्शक के रूप में काम करना

MT प्रणालियां, आदर्श रूप से, एक स्थिर इकाई नहीं हैं। समय के साथ MT की तकनीक में निरंतर सुधार हो रहा है। यह समझ में आता है कि MT प्रणालियों में भी सुधार की उम्मीद की जानी चाहिए।

यहीं वह जगह है जहाँ शोध आता है, और शोधकर्ताओं के पास इस संबंध में कुछ मार्गदर्शक होने की आवश्यकता है कि कहाँ देखना है। मापने योग्य मेट्रिक्स शोधकर्ताओं के लिए यह तुलना कराते हैं कि क्या कोई विशेष दृष्टिकोण दूसरे से बेहतर है, जो उन्हें प्रणाली को ठीक करने में मदद करता है।

यह देखने के लिए विशेष रूप से अच्छा है कि प्रणाली लगातार अनुवाद संबंधी त्रुटियों से कैसे निपटती है। मापने योग्य मेट्रिक्स होना अधिक नियंत्रित सेटिंग में यह दिखा सकता है कि कोई विशेष दृष्टिकोण इस प्रकार की त्रुटियों से निपटने में सक्षम है या नहीं।

आप मशीनी अनुवाद की सफलता का मूल्यांकन कैसे करते हैं?

यह निर्धारित करने के दो अलग-अलग तरीके हैं कि MT प्रणाली कितना अच्छा प्रदर्शन करती है। मानव मूल्यांकन मानव विशेषज्ञों द्वारा मैन्युअल मूल्यांकन करके किया जाता है, जबकि स्वचालित मूल्यांकन मानव के हस्तक्षेप के बिना अनुवाद गुणवत्ता का आकलन करने के लिए विशेष रूप से तैयार किए AI-आधारित मेट्रिक्स का उपयोग करता है। प्रत्येक के अपने-अपने फायदे और नुकसान हैं। हम इस लेख के बाद के अनुभागों में दोनों प्रकार के MT मूल्यांकन के बारे में और अधिक विस्तार से जानेंगे, लेकिन सबसे पहले, यहां दो प्रकार के मशीन अनुवाद मूल्यांकन के साथ-साथ MT मूल्यांकन के प्रति दृष्टिकोणों का त्वरित अवलोकन दिया गया है, जो उनका इस्तेमाल करते हैं।

मानव मूल्यांकन बनाम स्वचालित मूल्यांकन

मशीनी अनुवाद के मानव मूल्यांकन का अर्थ है कि अनुवाद की गुणवत्ता का आकलन मानव पेशेवर अनुवादकों द्वारा किया जाता है। यह तब सबसे अधिक प्रभावी विकल्प होता है जब मशीन अनुवादों की गुणवत्ता को वाक्यों के स्तर तक निर्धारित करने की बात आती है। लेकिन मानव मूल्यांकन, मानव अनुवाद की तरह ही, अधिक महंगा और समय लेने वाला होता है।

दूसरी ओर, स्वचालित मूल्यांकन, विभिन्न तरीकों के अनुसार मशीनी अनुवाद की गुणवत्ता का आकलन करने के लिए विशेष रूप से तैयार किए गए प्रोग्रामों का इस्तेमाल करता है। यह वाक्य स्तर पर मानव मूल्यांकन जितना विश्वसनीय नहीं होता है, लेकिन यह एक से अधिक दस्तावेज़ों पर अनुवाद की समग्र गुणवत्ता का मूल्यांकन करते समय एक अच्छा मापनीय विकल्प है।

MT मूल्यांकन के प्रति दृष्टिकोण

मशीन अनुवाद के मूल्यांकन के प्रति दृष्टिकोण कणिकता की अवधारणा पर आधारित होते हैं। यानी, वे विभिन्न स्तर जिन पर स्कोरिंग को महत्वपूर्ण माना जा सकता है।

वाक्य-आधारित दृष्टिकोण। इस दृष्टिकोण के तहत, यह कहते हुए प्रत्येक वाक्य को एक स्कोर दिया जाता है कि क्या इसका अनुवाद अच्छा है (1) या अच्छा नहीं (0) और कुल को एक औसत दी जाती है। यह आमतौर पर मानव के मूल्यांकन में किया जाता है।

दस्तावेज़-आधारित दृष्टिकोण। इसे कॉर्पस-आधारित दृष्टिकोण भी कहा जाता है, वाक्यों को स्कोर भी दिए जाते हैं लेकिन महत्वपूर्ण स्कोर दस्तावेज़ों के एक बड़े सेट के बीच कुल या औसत होती है। यह सबसे छोटा स्तर होता है जिस पर स्वचालित MT मूल्यांकन को महत्वपूर्ण माना जा सकता है, क्योंकि यह व्यापक डेटासेट के आंकड़ों पर बहुत अधिक निर्भर करता है।

संदर्भ-आधारित दृष्टिकोण। यह दृष्टिकोण पिछले दृष्टिकोणों से अलग है क्योंकि यह इस बात को ध्यान में रखता है कि वाक्यों पर आधारित औसत स्कोर की तुलना में समग्र MT कार्य उन उद्देश्यों के लिए कितना अच्छा उपयुक्त है, जिनके लिए इसे किया गया है। इस प्रकार, इसे MT मूल्यांकन के लिए समग्र दृष्टिकोण माना जा सकता है।

मशीन अनुवाद के मूल्यांकन में चुनौतियां

मशीन अनुवाद का मूल्यांकन एक कठिन प्रक्रिया है। ऐसा इसलिए है क्योंकि भाषा अपने आप में ही एक बहुत जटिल चीज है।

एक के लिए, कई सही अनुवाद हो सकते हैं। उदाहरण के लिए, निम्नलिखित वाक्य लें:

तेज भूरी लोमड़ी आलसी कुत्ते के ऊपर से कूद गई।

एक MT प्रणाली इसके बजाय निम्न अनुवाद कर सकती है:

तेज भूरी लोमड़ी आलसी कुत्ते के ऊपर झपटी।

यह तकनीकी रूप से सही अनुवाद है, और मानव मूल्यांकन में इसे सामान्य रूप से ऐसे ही चिह्नित किया जाएगा। लेकिन स्वचालित मूल्यांकन में, इसे गलत चिह्नित किया जाएगा।

छोटे विवरण भी वाक्य के मतलब को पूरी तरह से बदल सकते हैं।

तेज भूरी लोमड़ी आलसी कुत्ते पर कूद गई।

यहाँ, केवल एक ही शब्द बदला गया है। लेकिन वह एक शब्द वाक्य के मतलब को पूरी तरह से बदल देता है। स्वचालित मूल्यांकनों की इसे पिछले उदाहरण की तुलना में अधिक चिह्नित करने की संभावना है। मानव अनुवादकों की त्रुटि पकड़ने की संभावना होती है, लेकिन कुछ इसे सही मान सकते हैं।

और ऐसा इसलिए है क्योंकि भाषा व्यक्तिपरक हो सकती है। यहां तक कि मानव मूल्यांकनकर्ता के निर्णयों भी अलग-अलग हो सकते हैं कि कोई अनुवाद अच्छा है या नहीं।

मानव मूल्यांकन: स्वर्ण मानक

अब जब हम मूल बातें देख चुके हैं, तो आइए मानव मूल्यांकन से शुरु करते हुए, दो प्रकार के MT मूल्यांकन को गहराई से देखें।

सबसे बुनियादी स्तर पर, मशीनी अनुवाद का लक्ष्य स्रोत भाषा के टेक्स्ट का लक्षित भाषा में मनुष्य द्वारा समझे जा सकने वाले स्तर पर अनुवाद करना है। इस प्रकार, मनुष्य मशीनी अनुवाद की गुणवत्ता का मूल्यांकन करने के लिए सबसे अच्छे संदर्भ बिंदु हैं।

मानव मूल्यांकन के प्रकार

मानव मूल्यांकन करने के कई अलग-अलग तरीके हैं, जिन को हम अभी देखेंगे:

प्रत्यक्ष मूल्यांकन

यह मानव मूल्यांकन का सबसे आम प्रकार है। मशीन अनुवाद के आउटपुट को वाक्य स्तर पर स्कोर दिया जाता है।

प्रत्यक्ष मूल्यांकन के साथ चुनौती यह होती है कि अलग-अलग जज अपने स्कोर देने के तरीके में व्यापक रूप से भिन्न होंगे। कुछ लोग अनुवादों को या तो बहुत खराब या बहुत अच्छा चिन्हित करते हुए स्कोरिंग के मामले में चरम सीमाओं तक जा सकते हैं। अन्य लोग समान वाक्यों को बीच के करीब के स्कोरों के साथ चिह्नित करते हुए इसे अधिक रूढ़िवादी तरीके से कर सकते हैं।

एक और चुनौती, फिर से, व्यक्तिपरकता हैं। यह निर्णय करने में कि वाक्य खराब अनुवाद है या नहीं, मूल्यांकनकर्ताओं को अस्पष्ट भाषा पर निर्णय लेने की आवश्यकता होती है। उदाहरण वाले वाक्य पर वापस जाते हुए:

तेज भूरी लोमड़ी आलसी जंगली के ऊपर से कूद गई।

यहाँ, जंगली जरूरी नहीं कि गलत हो, लेकिन यह सबसे उचित भी नहीं है। कुछ मूल्यांकनकर्ता इसे काफी अच्छा मान सकते हैं, जबकि अन्य इसे पूरी तरह से गलत बता सकते हैं। उदाहरण के लिए, यदि स्कोरिंग 5-अंक के पैमाने पर की जाती है, तो कुछ अनुवादक इसे 4 चिह्नित कर सकते हैं, जबकि अन्य इसे केवल 2 दे सकते हैं।

मूल्यांकनकर्ताओं के एक बड़े समूह को नियुक्त करके इन चुनौतियों को दूर किया जा सकता है, जो स्कोर को सांख्यिकीय शब्दों में सामान्य बना देगा।

रैंकिंग

मानव मूल्यांकन के जरिए मशीन अनुवाद प्रणालियों का आकलन करने का एक और तरीका रैंकिंग है।

इस मामले में, मूल्यांकनकर्ता वाक्यों के लिए अलग-अलग स्कोर नहीं देते हैं, बल्कि इसके बजाय विभिन्न MT प्रणालियों के अनुवादों के बीच तुलना करते हैं। फिर वे निर्णय लेते हैं कि सबसे अच्छा अनुवाद कौन सा है, दूसरा सबसे अच्छा अनुवाद कौन सा है, इत्यादि।

प्रत्यक्ष मूल्यांकन पर इस विधि का लाभ यह है कि यह विभिन्न परीक्षणों में और संभवतः अलग-अलग मूल्यांकनकर्ताओं द्वारा दिए अंकों की तुलना करने के विपरीत, तुरंत प्रत्यक्ष तुलना करता है।

हालाँकि, यह अभी भी व्यक्तिपरकता की चुनौती से ग्रस्त है। अलग-अलग MT प्रणालियों में अलग-अलग त्रुटियां आने की संभावना होती है। उदाहरण के लिए:

तेज हरी लोमड़ी आलसी कुत्ते के ऊपर से कूद गई।

तेज भूरे लोमड़ी आलसी कुत्ते के ऊपर से कूद गई।

तेज भूरी लोमड़ी आलसी कुत्ते के ऊपर से कूदती है।

प्रत्येक वाक्य में एक आम त्रुटि है। पहले वाले का अनुवाद गलत है। दूसरा आर्टिकल्स को छोड़ देता है। तीसरे में क्रिया काल नहीं है।

मूल्यांकनकर्ताओं को अब यह तय करना होगा कि कौन सी त्रुटि दूसरे की तुलना में अधिक महत्वपूर्ण है, और फिर, मूल्यांकनकर्ताओं की इस मामले पर अलग-अलग राय हो सकती है।

बाद के संपादन का प्रयास

यदि उपयोगकर्ता का MT प्रणाली से उद्देश्य बाद के संपादन के लिए दस्तावेज़ तैयार करना है, तो बाद के संपादन में लगने वाले प्रयासों की मात्रा के अनुसार इसका मूल्यांकन करने के भी तरीके हैं।

बाद के संपादन का मूल उद्देश्य किसी अनुवादक को टेक्स्ट का शुरुआत से अनुवाद करने की तुलना में तेज़ी से काम करने देना है। इस प्रकार, बाद के संपादन के लिए MT प्रणाली का आकलन करने का सबसे सरल तरीका अनुवादक द्वारा मशीन के द्वारा अनुवाद की गई आउटपुट को ठीक करने में लगने वाले समय को मापना है।

बाद के संपादन के प्रयास को मापने का एक और तरीका है कीबोर्ड पर स्ट्रोक्स की संख्या को सारणीबद्ध करना है जो मशीन के द्वारा अनुवादित टेक्स्ट को मानव संदर्भ अनुवाद में बदलने के लिए आवश्यक होगा। यह समय की रोक से स्वतंत्र है, लेकिन एकाधिक सही अनुवादों की संभावना को भी ध्यान में नहीं रखता है।

कार्य-आधारित मूल्यांकन

इसके बाद कार्य-आधारित मूल्यांकन आता है, जैसा कि नाम से पता चलता है, यह MT प्रणाली का आकलन इस आधार पर करता है कि यह हाथ वाले काम के लिए कितना उपयुक्त है। उदाहरण के लिए, यदि इसका इस्तेमाल बहुभाषी वेबिनार सेटिंग में किया जाता है, तो प्रतिभागियों को मशीन के द्वारा अनुवाद की गई ट्रांसक्रिप्ट के साथ अपने अनुभव का मूल्यांकन करने के लिए कहा जा सकता है। इसका मतलब है कि वे समग्र रूप से MT प्रणाली की सफलता का मूल्यांकन कर रहे हैं।

इस दृष्टिकोण के साथ समस्या यह है कि यह ऐसे अन्य अनियंत्रित तत्वों को पेश करने के लिए बहुत खुला है जो मूल्यांकनकर्ताओं द्वारा दी जाने वाली रेटिंग को प्रभावित कर सकते हैं। इस प्रकार, कार्य-आधारित मूल्यांकन का इस्तेमाल बहुत ही स्थितिजन्य है।

मानव मूल्यांकन में आम चुनौतियां

जैसा कि आप देख सकते हैं, MT के विभिन्न प्रकार के मानव मूल्यांकन अपनी-अपनी चुनौतियों के साथ आते हैं। कुछ चुनौतियां ऐसी भी हैं जिन्हें वे व्यापक रूप से साझा करते हैं, और इनका संबंध निरंतरता या समझौते से है।

इंटर-एनोटेटर समझौता

यह विभिन्न मूल्यांकनकर्ताओं के बीच स्कोर की निरंतरता को संदर्भित करता है। जैसा कि हमने पहले बताया है, अलग-अलग मूल्यांकनकर्ताओं की टेक्स्ट के समान खंडों को स्कोर करने के तरीके में अलग-अलग प्रवृत्तियां होंगी। कुछ उन्हें चरम सीमाओं पर या मध्य की ओर स्कोर दे सकते हैं। अलग-अलग MT इंजनों की रैंकिंग करते समय, उनकी राय भी अलग-अलग हो सकती है। इसी कारण से कई मूल्यांकनकर्ताओं का होना महत्वपूर्ण है, ताकि स्कोर का वितरण सामान्य हो सके।

इंट्रा-एनोटेटर समझौता

किसी एकल मूल्यांकनकर्ता के टेक्स्ट को स्कोर देने का तरीका भी वैधता का एक पैमाना है। एक मूल्यांकनकर्ता वाक्य को पहली बार अच्छे या बुरे के रूप में स्कोर दे सकता है, लेकिन वे उसी जाँच को दोहराने पर अपना विचार बदल सकते हैं। इंट्रा-एनोटेटर समझौते का उच्च माप होना यह सुनिश्चित करता है कि चुने गए मूल्यांकनकर्ता को सुसंगत और विश्वसनीय माना जा सकता है।

स्वचालित मूल्यांकन: मापनीय विकल्प

जब मशीन अनुवाद की गुणवत्ता का मूल्यांकन करने की बात आती है तो मानव के मूल्यांकन को स्वर्ण मानक माना जाता है। हालांकि, यह प्रयास और समय के मामले में एक महंगा प्रयास है। इसी कारण से क्षेत्र के शोधकर्ताओं ने स्वचालित प्रक्रियाओं के जरिए MT गुणवत्ता का मूल्यांकन करने के विभिन्न साधन तैयार किए हैं।

इन प्रक्रियाओं को यह अनुमान लगाने के लिए तैयार किया गया है कि मनुष्य MT प्रणाली का मूल्यांकन कैसे करेंगे। बेशक, वे इसमें बिल्कुल सही से दूर हैं, लेकिन स्वचालित मूल्यांकन में अभी भी बहुत महत्वपूर्ण उपयोग मामले हैं।

मानव मूल्यांकन की तुलना में स्वचालित मूल्यांकन का मुख्य लाभ इसकी मापनीयता है। मानव मूल्यांकन के केवल एक दौर की तुलना में स्वचालित मूल्यांकन के सैकड़ों उदाहरणों को चलाना काफी तेज़ होता है। यह MT प्रणाली में बदलाव या अनुकूलन करते समय इसे एक आदर्श समाधान बनाता है, जिसके लिए त्वरित परिणामों की आवश्यकता होती है।

स्वचालित मूल्यांकन की चुनौतियां

मनुष्यों के विपरीत, मशीनें भाषा के उपयोग की विभिन्न बारीकियों को संभालने के लिए सुसज्जित नहीं होती हैं। स्वचालित मूल्यांकन प्रणालियां संदर्भ टेक्स्ट के साथ सटीक मिलान वाले MT पर आधारित होती है, और मामूली अंतरों का अंतिम स्कोर पर प्रभाव पड़ सकता है। इन अंतरों में आकृति विज्ञान में विचलन, समानार्थी शब्दों के इस्तेमाल और व्याकरणिक क्रम शामिल हो सकते हैं।

मानव मूल्यांकनकर्ता द्वारा तकनीकी रूप से या अधिक या कम सही माना जा सकने वाला स्वचालित मूल्यांकन में दंडित किया जा सकता है। फिर भी, विशेष रूप से टेक्स्ट के बड़े नमूने पर विचार करते समय सटीक मिलानों की संख्या स्वचालित मूल्यांकन को इस्तेमाल के लिए संभव बनाने के लिए अक्सर काफी होती है।

स्वचालित मूल्यांकन मेट्रिक्स

आज कई अलग-अलग प्रकार के स्वचालित मूल्यांकन मेट्रिक्स उपलब्ध हैं। यहाँ उपयोग वाले लोगों के कुछ उदाहरण दिए गए हैं:

● BLEU (बिलिंगुअल इवैल्यूएशन अंडरस्टडी)

● NIST (नेशनल इंस्टीट्यूट ऑफ स्टैंडर्ड्स एंड टेक्नोलॉजी से)

● METEOR (स्पष्ट क्रम के साथ अनुवाद के मूल्यांकन के लिए मेट्रिक)

● LEPOR (लंबाई-पेनल्टी, प्रिसिज़न, एन-ग्राम पोजीशन डिफरेंस पेनल्टी और रिकॉल)

● COMET

● PRIS

● TER (अनुवाद त्रुटि दर)

प्रत्येक मेट्रिक अलग-अलग एल्गोरिदम्स पर काम करता है और इस तरह स्वचालित मूल्यांकन की प्रक्रिया को अलग तरीके से संभालता है। इसका मतलब यह है कि उनकी अलग-अलग ताकतें और कमजोरियां हैं, और वे इस बात से भिन्न हैं कि वे किस प्रकार की त्रुटियों को उच्च या निम्न दंड देते हैं।

BLEU, सबसे लोकप्रिय मेट्रिक

ऊपर सूचीबद्ध सभी मेट्रिक्स में से BLEU सबसे अधिक उपयोग किया जाता है। यह मानव मूल्यांकन के साथ उच्च स्तर के सहसंबंध को पाने वाले पहले मैट्रिक्स में से एक था, और यह कई अलग-अलग बदलाव लाया है।

यह इस तरीके से काम करता है कि उच्च गुणवत्ता वाले संदर्भ अनुवादों के एक सेट के खिलाफ अलग-अलग वाक्यों को स्कोर दिए जाते हैं। फिर इन स्कोर का औसत निकाला जाता है, और परिणामी संख्या उस MT प्रणाली के लिए अंतिम BLEU स्कोर होती है। यह स्कोर दर्शाता है कि MT प्रणाली का आउटपुट मानव संदर्भ अनुवाद से कितनी निकटता से मेल खाता है, जो गुणवत्ता का मार्कर है।

स्कोर की गणना एन-ग्राम नामक इकाइयों का इस्तेमाल करके की जाती है, जो लगातार टेक्स्ट के खंडों को संदर्भित करते हैं। उदाहरण के लिए, पहले वाले नमूना वाक्य पर वापस जाना:

तेज भूरी लोमड़ी आलसी कुत्ते के ऊपर से कूद गई।

इसे अलग-अलग लंबाई के एन-ग्राग्स में विभाजित किया जा सकता है। उदाहरण के लिए, 2-ग्राम, “तेज”, “तेज भूरी” या “भूरी लोमड़ी” होगा। 3-ग्राम “तेज भूरी” या “तेज भूरी लोमड़ी” होगा। 4-ग्राम “तेज भूरी लोमड़ी” होगा। और इसी तरह।

यह एक जटिल गणितीय प्रक्रिया है, लेकिन मूल शब्दों में BLEU का एल्गोरिदम n-ग्राम्स के बीच ओवरलैप्स की संख्या की जाँच करके स्कोर की गणना करता है। परिकलित स्कोर 0 और 1 के बीच होगा, जिसमें 1 संदर्भ और आउटपुट वाक्य के बीच पूरी तरह से समान मिलान को दर्शाता है। अब नमूना वाक्य पर निम्नलिखित बदलाव करें:

तेज भूरी लोमड़ी आलसी कुत्ते के ऊपर से कूद गई।

“तेज़” शब्द वाले को छोड़कर सभी एन-ग्राम्स मेल खाएंगे। एक और उदाहरण:

तेज भूरी लोमड़ी कुत्ते के ऊपर से कूद गई।

इस उदाहरण में, “आलसी” शब्द गायब है, तो यह भी ओवरलैप पर नकारात्मक प्रभाव डालता है। दोनों ही मामलों में, BLEU स्कोर अभी भी उच्च होगा, लेकिन 1 से कम होगा।

अभ्यास में, कई वाक्य इस उच्च स्तर के सहसंबंध को नहीं दिखाएंगे। इस प्रकार, BLEU स्कोर सांख्यिकीय रूप से केवल तभी महत्वपूर्ण हो जाते हैं जब टेक्स्ट, या कॉर्पोरा के एक बड़े नमूने के संदर्भ में लिए जाते हैं।

बेशक, ऐसे अन्य कारक हैं जो BLEU स्कोर की गणना में आते हैं, जैसे कि अतिरिक्त शब्दों या बहुत छोटे वाक्य के लिए दंड। अन्य डेरिवेटिव स्कोरिंग प्रणालियां इसकी कमियों की भरपाई के लिए तैयार की गई हैं, लेकिन BLEU उच्च श्रेणी का बना हुआ है और आज भी सबसे अधिक इस्तेमाल किया जाने वाला MT मूल्यांकन प्रणाली बना हुआ है।

MT मूल्यांकन पर अंतिम शब्द

और यह मशीन अनुवाद के मूल्यांकन की मूल बातें शामिल करता हैं। जैसा कि हमने दिखाया है, MT प्रणाली का आकलन मानव मूल्यांकन या स्वचालित मूल्यांकन के जरिए किया जा सकता है। दोनों प्रक्रियाओं के अपने-अपने फायदे और नुकसान हैं।

गुणवत्ता के मामले में मानव मूल्यांकन स्वर्ण मानक का है, लेकिन महंगा और समय लेने वाला होता है। स्वचालित अनुवाद उतना सटीक नहीं होता है, लेकिन यह तेज़ और मापनीय होता है। इस प्रकार, दोनों प्रकारों के अपने विशिष्ट उपयोग मामले हैं जहां वे अच्छा काम करते हैं।