May 10, 2024
ধরা যাক আপনার ব্যবসার জন্য মেশিন ট্রান্সলেশন সিস্টেমে বিনিয়োগ করার সিদ্ধান্ত নিয়েছেন। আপনি কিছু মৌলিক গবেষণা করেছেন এবং খুঁজে পেয়েছেন যে, বেছে নেওয়ার জন্য অনেক বিকল্প রয়েছে। নির্দিষ্ট মাপকাঠির উপর ভিত্তি করে প্রতিটির স্কোর ভিন্ন, কিন্তু আপনি জানেন না যে এর মানে আসলে কী। আপনি কীভাবে জানবেন যে কোনটি আপনার জন্য সবচেয়ে উপযুক্ত?
আপনাকে বুঝতে হবে কীভাবে মেশিন ট্রান্সলেশনের মূল্যায়ন কাজ করে।
এই নিবন্ধটিতে মেশিন ট্রান্সলেশনের মূল্যায়নের বিস্তারিত তথ্য পাবেন। এটি পড়ে আপনি বুঝতে পারবেন এটি কী, কেন আপনার এটির প্রয়োজন এবং বিভিন্ন ধরনের মূল্যায়ন, বিনিয়োগের জন্য একটি MT সিস্টেম বেছে নেওয়ার সময় আপনাকে বুঝে শুনে সিদ্ধান্ত নিতে সাহায্য করবে।
মেশিন ট্রান্সলেশনের মূল্যায়ন মানে মেশিন ট্রান্সলেশন সিস্টেমের কার্যকারিতা পরিমাপের বিভিন্ন প্রক্রিয়াকে বোঝায়।
এটি MT এর গুণমান মূল্যায়ন করার একটি উপায়, যেখানে সিস্টেমটি কতটা ভাল তা জানা সম্ভব এবং বিভিন্ন MT সিস্টেম কতটা কার্যকর তা তুলনা করার জন্য একটি শক্ত ভিত্তি রয়েছে। এটি করার জন্য, মেশিন ট্রান্সলেশনের মূল্যায়নে পরিমাপযোগ্য মাপকাঠি ব্যবহার করা হয়।
কোনো MT সিস্টেমের কর্মক্ষমতা মূল্যায়ন করার জন্য দুটি প্রধান কারণ রয়েছে। প্রথমটি হল বাস্তবে প্রয়োগের জন্য এটি যথেষ্ট ভালো কিনা তা পরীক্ষা করা। দ্বিতীয়টি হ'ল গবেষণা এবং উন্নতির গাইড হিসাবে কাজ করা।
প্রথমত, MT সিস্টেম এমন একটি স্তরে কাজ করে যা বাস্তবে ব্যবহারের জন্য যথেষ্ট ভাল তা নির্ধারণ করা। সেই কারণে ব্যবহারকারীদের সঙ্গে এটি সরাসরি প্রাসঙ্গিক। যদি মেশিন ট্রান্সলেশন সিস্টেম খারাপভাবে কাজ করে, তাহলে ব্যবহারকারীদের কাছে অন্য কিছু বেছে নেওয়ার সম্ভাবনা বেশি থাকে।
MT ব্যবহার করে এমন শিল্প খাতগুলোও MT সিস্টেম কী পেতে হবে তা নির্ধারণের জন্য উপযুক্ত মাপকাথি চায়বে। সর্বোপরি, MT হল একটি বিনিয়োগ এবং সংস্থাগুলোও তাদের অর্থের বিনিময়ে সেরা পেতে চায়বে।
যেমন, MT ডেভেলপারদের মূল্যায়ন করতে হবে যে মেশিন ট্রান্সলেশন সিস্টেমের মান ক্লায়েন্টদের কাছে পাঠানোর জন্য যথেষ্ট ভালো কিনা।
MT সিস্টেম, একটি স্থির সত্তা নয়। MT-এর প্রযুক্তি সময়ের সাথে সাথে ক্রমাগত উন্নতি করছে। তাই, MT সিস্টেমেরও উন্নতি হবে এমন আশা করা উচিত।
এখানেই গবেষণা আসে এবং গবেষকদেরও কিছু গাইড থাকা দরকার। পরিমাপযোগ্য মাপকাঠি গবেষকদের একটি নির্দিষ্ট পদ্ধতি অন্যটির চেয়ে ভাল কিনা তা তুলনা করার সুযোগ প্রদান করে, তাদেরকে সিস্টেমকে আরও উন্নত করতে সাহায্য করে।
বিশেষত, সিস্টেম ধারাবাহিক অনুবাদ ত্রুটি কীভাবে সামলায় তা দেখার জন্য এটি ভালো। পরিমাপযোগ্য মাপকাঠি থাকলে তা আরও নিয়ন্ত্রিতভাবে দেখা যেতে পারে যে কোনো নির্দিষ্ট পদ্ধতি এই ধরনের ত্রুটি মোকাবেলা করতে সক্ষম কিনা।
MT সিস্টেম কতটা ভাল কাজ করে তা নির্ধারণ করার দুটি ভিন্ন উপায় রয়েছে। মানুষের দ্বারা মূল্যায়নের ক্ষেত্রে বিশেষজ্ঞদের দ্বারা করা হয়, অন্যদিকে স্বয়ংক্রিয় মূল্যায়নের ক্ষেত্রে AI-ভিত্তিক মাপকাঠি ব্যবহার করা হয় যা বিশেষভাবে মানুষের হস্তক্ষেপ ছাড়াই অনুবাদের গুণমান নির্ধারণের জন্য তৈরি। প্রতিটির নিজস্ব সুবিধা এবং অসুবিধা রয়েছে। আমরা এই নিবন্ধের পরবর্তী বিভাগে উভয় ধরণের MT মূল্যায়ন সম্পর্কে আরও বিশদে জানব, তবে প্রথমে, এখানে দুই ধরনের মেশিন ট্রান্সলেশনের মূল্যায়ন এবং সেইসাথে MT মূল্যায়নের পদ্ধতির একটি দ্রুত সংক্ষিপ্তসার রয়েছে।
মেশিন ট্রান্সলেশনের মানুষের দ্বারা মূল্যায়ন মানে অনুবাদের গুণমানের মূল্যায়ন পেশাদার অনুবাদকদের দ্বারা করা হয়। মেশিন অনুবাদের গুণমান বাক্যের স্তর পর্যন্ত নির্ধারণ করার ক্ষেত্রে এটি সবচেয়ে কার্যকরী বিকল্প। কিন্তু মানুষের মূল্যায়ন, মানুষের অনুবাদের মতো, প্রকৃতিগতভাবে আরও ব্যয়বহুল এবং সময় সাপেক্ষ।
অন্যদিকে, স্বয়ংক্রিয় মূল্যায়নে বিভিন্ন পদ্ধতি অনুসারে মেশিন ট্রান্সলেশনের গুণমান মূল্যায়নের জন্য বিশেষভাবে নির্মিত প্রোগ্রামগুলি ব্যবহার করা হয়। এটি বাক্য গঠনের ক্ষেত্রে মানুষের মূল্যায়নের মতো নির্ভরযোগ্য নয়, তবে একাধিক ডকুমেন্ট অনুবাদের সামগ্রিক গুণমান মূল্যায়ন করার সময় এটি একটি ভালো মাপযোগ্য বিকল্প।
মেশিন দ্বারা অনুবাদ মূল্যায়নের ক্ষেত্রে দৃষ্টিভঙ্গি পুঙ্খানুপুঙ্খভাবে ধারণা ভিত্তিক। অর্থাৎ, যে ভিন্ন ভিন্ন স্তরে স্কোরিং তাৎপর্যপূর্ণ বলে বিবেচিত হতে পারে।
বাক্য-ভিত্তিক পদ্ধতি। এই পদ্ধতির অধীনে, প্রতিটি বাক্যের অনুবাদ ভালো (1) বা ভালো নয় (0) হিসাবে স্কোর দেওযা হয় এবং মোট একটি গড় স্কোর দেওয়া হয়। এটি সাধারণত মানুষের দ্বারা মূল্যায়নের ক্ষেত্রে করা হয়।
ডকুমেন্ট-ভিত্তিক পদ্ধতি। কর্পাস-ভিত্তিক পদ্ধতি হিসাবেও পরিচিত, বাক্যগুলির জন্যও স্কোর দেওয়া হয়, তবে উল্লেখযোগ্য স্কোর হল ডকুমেন্টের একটি বড় সেটের মধ্যে মোট বা গড় স্কোর। এটি সবচেয়ে ছোট স্তর যেখানে স্বয়ংক্রিয় MT মূল্যায়ন তাৎপর্যপূর্ণভাবে বিবেচনা করা যেতে পারে, কারণ এটি একটি বিস্তৃত ডেটাসেট থেকে পরিসংখ্যানের উপর অনেক বেশি নির্ভর করে।
প্রসঙ্গ-ভিত্তিক পদ্ধতি। এই পদ্ধতিটি আগেরগুলির থেকে আলাদা কারণ, এই ক্ষেত্রে সামগ্রিক MT টাস্কটির বাক্যগুলির উপর ভিত্তি করে গড় স্কোরের পরিবর্তে যে প্রসঙ্গে এটি রাখা হয়েছে তার জন্য কতটা উপযুক্ত তার উপর জোর দেওয়া হয়। এটি MT মূল্যায়নের জন্য একটি সামগ্রিক পদ্ধতি হিসাবে বিবেচিত হতে পারে।
মেশিন ট্রান্সলেশনের মূল্যায়ন একটি কঠিন প্রক্রিয়া। এর কারণ ভাষা একটি অত্যন্ত জটিল বিষয়।
একের জন্য, একাধিক সঠিক অনুবাদ হতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত বাক্যটি দেখুন:
The quick brown fox jumped over the lazy dog.
MT সিস্টেম নিম্নলিখিত অনুবাদ তৈরি করতে পারে:
দ্রুত বাদামী শিয়াল অলস কুকুরের উপর ঝাঁপিয়ে পড়ল।
এটি প্রযুক্তিগতভাবে সঠিক অনুবাদ এবং মানুষের মূল্যায়নে এটি সাধারণত এই হিসাবে চিহ্নিত করা হবে। কিন্তু স্বয়ংক্রিয় মূল্যায়নে, এটি ভুল হিসাবে চিহ্নিত করা হবে।
ছোট বিবরণ একটি বাক্যের অর্থ সম্পূর্ণরূপে পরিবর্তন করতে পারে।
The quick brown fox jumped on the lazy dog.
এখানে, শুধুমাত্র একটি শব্দ পরিবর্তন করা হয়েছে। কিন্তু সেই একটি শব্দ বাক্যটির অর্থ সম্পূর্ণরূপে বদলে দিচ্ছে। স্বয়ংক্রিয় মূল্যায়ন এটিকে আগের উদাহরণের চেয়ে বেশি চিহ্নিত করতে পারে। অনুবাদকরা এই ভুল ধরে নিতে পারেন, তবে কেউ কেউ এটিকে সঠিক বলে মনে করতে পারেন।
এবং যে কারণে ভাষার মানে সবসময় একই নাও হতে পারে। এমনকি মানব মূল্যায়নকারীদেরও মধ্যেও অনুবাদ ভালো কিনা সেই নিয়ে মতামত ভিন্ন হতে পারে।
এখন যেহেতু আমরা মৌলিক বিষয় নিয়ে আলোচনা করছি, তাই আসুন মানব মূল্যায়নের সঙ্গে শুরু করে দুটি ধরণের MT মূল্যায়নের উপর গভীরভাবে নজর দেওয়া যাক।
সবচেয়ে মৌলিক স্তরে, মেশিনের দ্বারা অনুবাদের লক্ষ্য হলো যে ভাষা থেকে অনুবাদ করা হচ্ছে সেই ভাষার পাঠ্য এমনভাবে যে ভাষায় অনুবাদ করতে হবে সেই ভাষায় অনুবাদ করা যাতে মানুষ বুঝতে পারেন। যেমন, মানুষ মেশিন ট্রান্সলেশনের গুণমান মূল্যায়নের জন্য সেরা বিকল্প।
মানুষের মূল্যায়নের বিভিন্ন উপায় রয়েছে, যা আমরা এখনই জানব:
এটি মানুষের মূল্যায়নের সবচেয়ে প্রচলিত ধরন। মেশিন ট্রান্সলেশনের ক্ষেত্রে বাক্য স্তরে স্কোর করা হয়।
সরাসরি মূল্যায়নের ক্ষেত্রে চ্যালেঞ্জ হল যে বিভিন্ন মূল্যায়নকারীদের স্কোর করার পদ্ধতি ভিন্ন। কেউ কেউ স্কোরিংয়ের ক্ষেত্রে একপেশে পন্থা অবলম্বন করতে পারেন, অনুবাদগুলিকে হয় খুব খারাপ বা খুব ভালো হিসাবে চিহ্নিত করেন। অন্যরা এটিকে আরও রক্ষণশীলভাবে মূল্যায়ন করতে পারেন, একই বাক্যগুলিকে মোটামুটি স্কোর দিয়ে মূল্যায়ন করেন।
আরেকটি চ্যালেঞ্জ হলো, প্রাসঙ্গিক দৃষ্টিভঙ্গী। কোনো বাক্যের অনুবাদ খারাপ কিনা তা বিচার করার জন্য, মূল্যায়নকারীদেরকে ভাষাটি অস্পষ্ট কিনা সেই সম্পর্কে সিদ্ধান্ত নিতে হবে। চলুন উদাহরণের বাক্যে ফিরে যাই:
The quick brown fox jumped over the lazy canine।
এখানে, ক্যানাইন ভুল নয়, তবে এটি সবথেকে প্রাসঙ্গিকও নয়। কিছু মূল্যায়নকারী এটিকে ভালো মনে করতে পারেন, অন্যরা এটিকে সম্পূর্ণ ভুল হিসাবে চিহ্নিত করতে পারেন। উদাহরণস্বরূপ, যদি স্কোরিংয়ের স্কেল 5-পয়েন্ট ভিত্তিক হয়, তবে কিছু অনুবাদক এটিকে 4 দিতে পারেন, অন্যরা এটিকে শুধুমাত্র 2 দিতে পারেন।
এইসব চ্যালেঞ্জ একাধিক মূল্যায়নকারী নিয়োগ করে করতে দেওয়া যেতে পারে, এখানে পরিসংখ্যানের ভিত্তিতে স্কোর করা যেতে পারে।
মানুষের মূল্যায়নের ক্ষেত্রে মেশিন ট্রান্সলেশন সিস্টেমের মূল্যায়ন করার আরেকটি উপায় হল র্যাঙ্কিং।
এই ক্ষেত্রে, মূল্যায়নকারীরা বাক্যের জন্য পৃথক স্কোর প্রদান করে না, বরং বিভিন্ন MT সিস্টেমের অনুবাদের মধ্যে তুলনা করে। তারপর তারা সিদ্ধান্ত নেন কোনটি সেরা অনুবাদ, কোনটি দ্বিতীয় ইত্যাদি।
সরাসরি মূল্যায়ন এবং বিভিন্ন পরীক্ষায় ও সম্ভবত বিভিন্ন মূল্যায়নকারীদের দ্বারা প্রদত্ত স্কোরের তুলনা করার বিপরীতে এই পদ্ধতির সুবিধা হলো যে এটিতে অবিলম্বে সরাসরি তুলনা করা যায়।
তবে, এটিতে এখনও প্রাসঙ্গিক সংক্রান্ত সমস্যায় রয়েছে। বিভিন্ন MT সিস্টেমে বিভিন্ন ত্রুটি থাকতে পারে। উদাহরণস্বরূপ:
The quick green fox jumped over the lazy dog.
Quick brown fox jumped over lazy dog.
The quick brown fox jump over the lazy dog.
প্রতিটি বাক্যে একটি সাধারণ ত্রুটি রয়েছে। প্রথমটি ভুল অনুবাদ। দ্বিতীয়টিতে আর্টিকেল নেই। তৃতীয়টিতে ক্রিয়ার কাল নেই।
মূল্যায়নকারীদের এখন দেখতে হবে কোন ত্রুটিটি অন্যের থেকে বেশি গুরুত্বপূর্ণ এবং আবার, মূল্যায়নকারীদের এই বিষয়ে ভিন্ন মতামত থাকতে পারে।
যদি MT সিস্টেমের ব্যবহারকারীর উদ্দেশ্য পোস্ট-এডিটিংয়ের জন্য ডকুমেন্ট প্রস্তুত করা হয়, তবে পোস্ট-এডিটে যে পরিমাণ প্রচেষ্টা লাগে সেই অনুযায়ী এটি মূল্যায়ন করার উপায়ও রয়েছে।
পোস্ট-এডিটিং এর মৌলিক উদ্দেশ্য হলো একজন অনুবাদককে শুরু থেকে অনুবাদ করার চেয়ে দ্রুত অনুবাদ করতে সাহায্য করা। যেমন, পোস্ট-এডিটিংয়ের জন্য MT সিস্টেমের মূল্যায়ন করার সবচেয়ে সহজ উপায় হল মেশিন ট্রান্সলেশন আউটপুট সংশোধন করতে অনুবাদকের সময় বাঁচানো।
পোস্ট-এডিটিং প্রচেষ্টা পরিমাপ করার আরেকটি উপায় হল মেশিন দ্বারা অনূদিত পাঠ্যকে মানুষের দ্বারা অনুবাদের সাথে প্রতিস্থাপন করতে কীবোর্ডে স্ট্রোকের সংখ্যার সারণী করা। এটি সময় সীমাবদ্ধতা থেকে স্বাধীন, তবে একাধিক সঠিক অনুবাদের সম্ভাবনাকেও বিবেচনা করে না।
এরপর আসে টাস্ক-ভিত্তিক মূল্যায়ন, এতে নামের মতোই এটি হাতে থাকা টাস্কের জন্য কতটা উপযুক্ত তার উপর ভিত্তি করে একটি MT সিস্টেম মূল্যায়ন করা হয়। উদাহরণস্বরূপ, যদি এটি একটি বহুভাষিক ওয়েবিনারে ব্যবহার করা হয়, তাহলে অংশগ্রহণকারীদের মেশিন দ্বারা অনূদিত ট্রান্সক্রিপ্ট দিয়ে তাদের অভিজ্ঞতার মূল্যায়ন করতে বলা যেতে পারে। এর মানে হল যে তারা সামগ্রিকভাবে MT সিস্টেমের সাফল্যকে রেটিং দিচ্ছেন।
এই পদ্ধতির সমস্যা হলো এটি অন্যান্য অনিয়ন্ত্রিত উপাদানের জন্য খুব উন্মুক্ত, যা রেটিং মূল্যায়নকারীদের প্রভাবিত করতে পারে। যেমন, টাস্ক-ভিত্তিক মূল্যায়নের ব্যবহার খুবই পরিস্থিতি সম্পর্কিত।
আপনি হয়তো দেখতে পাচ্ছেন, MT এর বিভিন্ন ধরনের মানুষের দ্বারা মূল্যায়নের ভিন্ন চ্যালেঞ্জ আছে। কিছু চ্যালেঞ্জও রয়েছে যেগুলো একই এবং এগুলোকে ধারাবাহিকতা বা সহমতের মাধ্যমে স্থির করা হয়।
এটি দিয়ে বিভিন্ন মূল্যায়নকারীদের মধ্যে স্কোরের ধারাবাহিকতা বোঝানো হয়। আমরা আগে যেমন উল্লেখ করেছি, বিভিন্ন মূল্যায়নকারীদের পাঠ্যের একই অংশে স্কোর করার পদ্ধতিতে ভিন্নতা থাকবে। কেউ কেউ তাদের খুব খারাপ/ভালো বা মাঝারি স্কোর দিতে পারেন। বিভিন্ন MT ইঞ্জিনের র্যাঙ্কিং করার সময়, তাদের মতামতও ভিন্ন হতে পারে। এই কারণেই একাধিক মূল্যায়নকারী থাকা গুরুত্বপূর্ণ, যাতে স্কোর বিতরণ স্বাভাবিক হয়।
যেভাবে একজন মূল্যায়নকারী পাঠ্য স্কোর করে সেটিও বৈধতার একটি পরিমাপ। একজন মূল্যায়নকারী প্রথমবার ভাল বা খারাপ হিসাবে একটি বাক্যের স্কোর করতে পারেন, কিন্তু তারা একই পরীক্ষার পুনরাবৃত্তি করার পরে তাদের সিদ্ধান্ত পরিবর্তন হতে পারে। ইন্ট্রা-অ্যানোনেটর সহমতের পরিমাপ উচ্চ হলে এর মানে হলো যে নির্বাচিত মূল্যায়নকারীকে সামঞ্জস্যপূর্ণ এবং নির্ভরযোগ্য হিসাবে বিবেচনা করা যেতে পারে।
মেশিন ট্রান্সলেশনের গুণমান মূল্যায়নের ক্ষেত্রে মানুষের মাধ্যমে মূল্যায়ন সেরা মানক হিসাবে বিবেচনা করা হয়। তবে, সময়ের পরিপ্রেক্ষিতে এটি একটি ব্যয়বহুল প্রচেষ্টা। এই কারণেই গবেষকরা স্বয়ংক্রিয় প্রক্রিয়ার মাধ্যমে MT গুণমান মূল্যায়নের ভিন্ন উপায় তৈরি করেছেন।
এইসব প্রক্রিয়া কীভাবে মানুষ MT সিস্টেমকে মূল্যায়ন করবে তা অনুমান করে সেই মতো আনুমানিকভাবে ডিজাইন করা হয়েছে। অবশ্যই, এটি নিখুঁত থেকে অনেক দূরে, তবে স্বয়ংক্রিয় মূল্যায়নের এখনও ব্যবহারের ক্ষেত্রে খুব গুরুত্বপূর্ণ।
মানুষ দ্বারা মূল্যায়নের তুলনায় স্বয়ংক্রিয় মূল্যায়নের প্রধান সুবিধা হল এর পরিমাপযোগ্যতা। মানুষের দ্বারা এক রাউন্ড মূল্যায়নের করতে যে সময় লাগে স্বয়ংক্রিয় মূল্যায়ন একই সময়ে আরও বেশি মূল্যায়ন করতে সক্ষম। যখন দ্রুত অল্প পরিবর্তন করার বা MT সিস্টেম অপ্টিমাইজ করার দরকার হয়, তখন এটি আদর্শ সমাধান।
মানুষ ছাড়া, মেশিন ভাষার বিভিন্ন ব্যবহার পরিচালনা করার জন্য সজ্জিত নয়। স্বয়ংক্রিয় মূল্যায়ন সিস্টেমগুলি একটি রেফারেন্স টেক্সটের সাথে সঠিক মিল থাকা MT ভিত্তিক এবং এর ফলে ছোটখাটো পার্থক্য চূড়ান্ত স্কোরের উপর প্রভাব ফেলতে পারে। এইসব পার্থর্কে মধ্যে মোরফোলজি, প্রতিশব্দের ব্যবহার এবং ব্যাকরণগত ক্রম অন্তর্ভুক্ত।
মানুষ্য মূল্যায়নকারীর দ্বারা প্রযুক্তিগতভাবে বা কম বা বেশি সঠিক বলে বিবেচিত যেকোনো কিছু স্বয়ংক্রিয় মূল্যায়নে ভুল বলে চিহ্নিত হতে পারে। তবুও, সঠিক মিলের সংখ্যা, বিশেষ করে যখন পাঠ্যের একটি বড় নমুনা বিবেচনা করা হয়, তখন স্বয়ংক্রিয় মূল্যায়ন ব্যবহার করার জন্য যথেষ্ট।
বর্তমানে উপলভ্য বিভিন্ন স্বয়ংক্রিয় মূল্যায়নের ক্ষেত্রে মাপকাঠি আছে। এখানে ব্যবহার করা জন্য কিছু উদাহরণ আছে:
· BLEU (বাইলিঙ্গুয়াল এভালিউশন আন্ডারস্টাডি)
· NIST (ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি থেকে)
· METEOR (স্পষ্ট ক্রম সহ অনুবাদের মূল্যায়নের জন্য মাপকাঠি)
· LEPOR (দৈর্ঘ্য-পেনাল্টি, যথার্থতা, n-gram পজিশন পেনাল্টি এবং রিকল)
· COMET
· PRIS
· TER (ট্রান্সলেশন এরর রেট)
প্রতিটি মাপকাঠি বিভিন্ন অ্যালগরিদমে কাজ করে এবং স্বয়ংক্রিয় মূল্যায়নের প্রক্রিয়াকে ভিন্নভাবে পরিচালনা করে। এর মানে হল যে সেগুলোর ভিন্ন শক্তি ও দুর্বলতা রয়েছে এবং সেগুলো কোন ধরনের ত্রুটির জন্য বেশি বা কম পেনাল্টি নির্ধারণ করে তা ভিন্ন।
উপরে তালিকাভুক্ত সমস্ত মাপকাঠিগুলির মধ্যে BLEU সবচেয়ে বেশি ব্যবহৃত হয়। এটি ছিল মানুষের দ্বারা মূল্যায়নের সঙ্গে উচ্চ স্তরের পারস্পরিক সম্পর্ক অর্জনের প্রথম মাপকাঠিগুলির মধ্যে একটি এবং অনেক ভিন্নতা তৈরি করেছে।
এতে প্রতিটি বাক্যের ক্ষেত্রে উচ্চ মানের রেফারেন্স অনুবাদের সঙ্গে তুলনা করে স্কোর দেওয়া হয়। তারপরে এই স্কোরগুলির গড় করা হয় এবং ফলস্বরূপ যে সংখ্যা পাওয়া যায় তা হল সেই MT সিস্টেমের জন্য চূড়ান্ত BLEU স্কোর। এই স্কোর থেকে জানা যায় MT সিস্টেমের আউটপুট মানুষের রেফারেন্স অনুবাদের সঙ্গে কতটা নিবিড়ভাবে মেলে। এটি হল গুণমানের জন্য মার্কার।
স্কোরগুলো n-grams নামক একক ব্যবহার করে গণনা করা হয়, যা ধারাবাহিক পাঠ্যের অংশগুলিকে নির্দেশ করে। আগের নমুনা বাক্যে ফিরে যাওয়া যাক, উদাহরণস্বরূপ:
The quick brown fox jumped over the lazy dog.
একে বিভিন্ন দৈর্ঘ্যের n-grams-এ ভাগ করা যায়। একটি n-gram, উদাহরণস্বরূপ, "দ্রুত", "দ্রুত বাদামী" বা "বাদামী শিয়াল" হবে। একটি 3-gram হবে "দ্রুত বাদামী" বা "দ্রুত বাদামী শিয়াল"। একটি 4-gram হবে "দ্রুত বাদামী শিয়াল"। ইত্যাদি।
এটি একটি জটিল গাণিতিক প্রক্রিয়া, কিন্তু মৌলিক শর্তে BLEU এর অ্যালগরিদম n-grams-এর মধ্যে ওভারল্যাপের সংখ্যা পরীক্ষা করে স্কোর গণনা করে। গণনা করা স্কোর হবে 0 এবং 1 এর মধ্যে, 1 রেফারেন্স এবং আউটপুট বাক্যের মধ্যে সম্পূর্ণ অভিন্ন মিল নির্দেশ করে। এখন নমুনা বাক্যে নিম্নলিখিত বৈচিত্রটি দেখুন:
দ্রুত বাদামী শিয়াল অলস কুকুরের উপর দিয়ে ঝাঁপিয়ে পড়ল।
"দ্রুত" শব্দটি ব্যতীত সমস্ত n-grams মিলবে। আরেকটি উদাহরণ:
দ্রুত বাদামী শিয়াল কুকুরের উপর দিয়ে ঝাঁপিয়ে পড়ল।
এই উদাহরণে, "অলস" শব্দটি অনুপস্থিত, তাই এটি ওভারল্যাপকে নেতিবাচকভাবে প্রভাবিত করে। উভয় ক্ষেত্রে, BLEU স্কোর এখনও উচ্চ হবে, কিন্তু 1 এর কম।
অনুশীলনে, অনেক বাক্য এই উচ্চ স্তরের পারস্পরিক সম্পর্ক দেখাবে না। যেমন, BLEU স্কোর পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হয়ে ওঠে শুধুমাত্র যখন পাঠ্যের একটি বড় নমুনা বা কর্পোরার প্রেক্ষাপটে ব্যবহার করা হয়।
অবশ্যই, BLEU স্কোর গণনা করার ক্ষেত্রে অন্যান্য কারণ রয়েছে, যেমন অতিরিক্ত শব্দ বা খুব ছোট বাক্যের জন্য পেনাল্টি। অন্যান্য ডেরিভেটিভ স্কোরিং সিস্টেমগুলির ত্রুটির জন্য ব্যবস্থা করা হয়েছে, কিন্তু BLEU রেটিং উচ্চ মানের এবং আজকে MT মূল্যায়নের ক্ষেত্রে সবচেয়ে ব্যাপকভাবে ব্যবহৃত হচ্ছে।
এবং সেখানে মেশিন ট্রান্সলেশনের মূল্যায়নের মৌলিক বিষয়গুলি বলা হয়েছে। যেমন আমরা দেখিয়েছি, MT সিস্টেমের মূল্যায়ন মানুষের দ্বারা মূল্যায়ন বা স্বয়ংক্রিয় মূল্যায়নের মাধ্যমে করা যেতে পারে। উভয় প্রক্রিয়ারই সুবিধা এবং অসুবিধা আছে।
মানুষের মূল্যায়ন হল মানের দিক থেকে সেরা মানের, কিন্তু ব্যয়বহুল এবং সময়সাপেক্ষ। স্বয়ংক্রিয় অনুবাদ ততটা সঠিক নয়, তবে এটি দ্রুত এবং পরিমাপযোগ্য। যেমন, উভয় প্রকারেরই তাদের নির্দিষ্ট ব্যবহারের ক্ষেত্র রয়েছে যেখানে সেগুলো ঠিকঠাক কাজ করে।