May 10, 2024

মেশিন ট্রান্সলেশনের মূল্যায়ন: চূড়ান্ত গাইড

ধরা যাক আপনার ব্যবসার জন্য মেশিন ট্রান্সলেশন সিস্টেমে বিনিয়োগ করার সিদ্ধান্ত নিয়েছেন। আপনি কিছু মৌলিক গবেষণা করেছেন এবং খুঁজে পেয়েছেন যে, বেছে নেওয়ার জন্য অনেক বিকল্প রয়েছে। নির্দিষ্ট মাপকাঠির উপর ভিত্তি করে প্রতিটির স্কোর ভিন্ন, কিন্তু আপনি জানেন না যে এর মানে আসলে কী। আপনি কীভাবে জানবেন যে কোনটি আপনার জন্য সবচেয়ে উপযুক্ত?

আপনাকে বুঝতে হবে কীভাবে মেশিন ট্রান্সলেশনের মূল্যায়ন কাজ করে।

এই নিবন্ধটিতে মেশিন ট্রান্সলেশনের মূল্যায়নের বিস্তারিত তথ্য পাবেন। এটি পড়ে আপনি বুঝতে পারবেন এটি কী, কেন আপনার এটির প্রয়োজন এবং বিভিন্ন ধরনের মূল্যায়ন, বিনিয়োগের জন্য একটি MT সিস্টেম বেছে নেওয়ার সময় আপনাকে বুঝে শুনে সিদ্ধান্ত নিতে সাহায্য করবে।

ভূমিকা: মেশিন ট্রান্সলেশনের মূল্যায়ন কী?

মেশিন ট্রান্সলেশনের মূল্যায়ন মানে মেশিন ট্রান্সলেশন সিস্টেমের কার্যকারিতা পরিমাপের বিভিন্ন প্রক্রিয়াকে বোঝায়।

এটি MT এর গুণমান মূল্যায়ন করার একটি উপায়, যেখানে সিস্টেমটি কতটা ভাল তা জানা সম্ভব এবং বিভিন্ন MT সিস্টেম কতটা কার্যকর তা তুলনা করার জন্য একটি শক্ত ভিত্তি রয়েছে। এটি করার জন্য, মেশিন ট্রান্সলেশনের মূল্যায়নে পরিমাপযোগ্য মাপকাঠি ব্যবহার করা হয়।

মেশিন ট্রান্সলেশনের মূল্যায়নের মাপকাঠি গুরুত্বপূর্ণ?

কোনো MT সিস্টেমের কর্মক্ষমতা মূল্যায়ন করার জন্য দুটি প্রধান কারণ রয়েছে। প্রথমটি হল বাস্তবে প্রয়োগের জন্য এটি যথেষ্ট ভালো কিনা তা পরীক্ষা করা। দ্বিতীয়টি হ'ল গবেষণা এবং উন্নতির গাইড হিসাবে কাজ করা।

বাস্তবে প্রয়োগের জন্য এটি যথেষ্ট ভালো কিনা তা পরীক্ষা করা।

প্রথমত, MT সিস্টেম এমন একটি স্তরে কাজ করে যা বাস্তবে ব্যবহারের জন্য যথেষ্ট ভাল তা নির্ধারণ করা। সেই কারণে ব্যবহারকারীদের সঙ্গে এটি সরাসরি প্রাসঙ্গিক। যদি মেশিন ট্রান্সলেশন সিস্টেম খারাপভাবে কাজ করে, তাহলে ব্যবহারকারীদের কাছে অন্য কিছু বেছে নেওয়ার সম্ভাবনা বেশি থাকে।

MT ব্যবহার করে এমন শিল্প খাতগুলোও MT সিস্টেম কী পেতে হবে তা নির্ধারণের জন্য উপযুক্ত মাপকাথি চায়বে। সর্বোপরি, MT হল একটি বিনিয়োগ এবং সংস্থাগুলোও তাদের অর্থের বিনিময়ে সেরা পেতে চায়বে।

যেমন, MT ডেভেলপারদের মূল্যায়ন করতে হবে যে মেশিন ট্রান্সলেশন সিস্টেমের মান ক্লায়েন্টদের কাছে পাঠানোর জন্য যথেষ্ট ভালো কিনা।

গবেষণা এবং উন্নতির গাইড হিসাবে কাজ করা।

MT সিস্টেম, একটি স্থির সত্তা নয়। MT-এর প্রযুক্তি সময়ের সাথে সাথে ক্রমাগত উন্নতি করছে। তাই, MT সিস্টেমেরও উন্নতি হবে এমন আশা করা উচিত।

এখানেই গবেষণা আসে এবং গবেষকদেরও কিছু গাইড থাকা দরকার। পরিমাপযোগ্য মাপকাঠি গবেষকদের একটি নির্দিষ্ট পদ্ধতি অন্যটির চেয়ে ভাল কিনা তা তুলনা করার সুযোগ প্রদান করে, তাদেরকে সিস্টেমকে আরও উন্নত করতে সাহায্য করে।

বিশেষত, সিস্টেম ধারাবাহিক অনুবাদ ত্রুটি কীভাবে সামলায় তা দেখার জন্য এটি ভালো। পরিমাপযোগ্য মাপকাঠি থাকলে তা আরও নিয়ন্ত্রিতভাবে দেখা যেতে পারে যে কোনো নির্দিষ্ট পদ্ধতি এই ধরনের ত্রুটি মোকাবেলা করতে সক্ষম কিনা।

মেশিন ট্রান্সলেশনের সাফল্যকে আপনি কীভাবে মূল্যায়ন করবেন?

MT সিস্টেম কতটা ভাল কাজ করে তা নির্ধারণ করার দুটি ভিন্ন উপায় রয়েছে। মানুষের দ্বারা মূল্যায়নের ক্ষেত্রে বিশেষজ্ঞদের দ্বারা করা হয়, অন্যদিকে স্বয়ংক্রিয় মূল্যায়নের ক্ষেত্রে AI-ভিত্তিক মাপকাঠি ব্যবহার করা হয় যা বিশেষভাবে মানুষের হস্তক্ষেপ ছাড়াই অনুবাদের গুণমান নির্ধারণের জন্য তৈরি। প্রতিটির নিজস্ব সুবিধা এবং অসুবিধা রয়েছে। আমরা এই নিবন্ধের পরবর্তী বিভাগে উভয় ধরণের MT মূল্যায়ন সম্পর্কে আরও বিশদে জানব, তবে প্রথমে, এখানে দুই ধরনের মেশিন ট্রান্সলেশনের মূল্যায়ন এবং সেইসাথে MT মূল্যায়নের পদ্ধতির একটি দ্রুত সংক্ষিপ্তসার রয়েছে।

মানব মূল্যায়ন বনাম স্বয়ংক্রিয় মূল্যায়ন

মেশিন ট্রান্সলেশনের মানুষের দ্বারা মূল্যায়ন মানে অনুবাদের গুণমানের মূল্যায়ন পেশাদার অনুবাদকদের দ্বারা করা হয়। মেশিন অনুবাদের গুণমান বাক্যের স্তর পর্যন্ত নির্ধারণ করার ক্ষেত্রে এটি সবচেয়ে কার্যকরী বিকল্প। কিন্তু মানুষের মূল্যায়ন, মানুষের অনুবাদের মতো, প্রকৃতিগতভাবে আরও ব্যয়বহুল এবং সময় সাপেক্ষ।

অন্যদিকে, স্বয়ংক্রিয় মূল্যায়নে বিভিন্ন পদ্ধতি অনুসারে মেশিন ট্রান্সলেশনের গুণমান মূল্যায়নের জন্য বিশেষভাবে নির্মিত প্রোগ্রামগুলি ব্যবহার করা হয়। এটি বাক্য গঠনের ক্ষেত্রে মানুষের মূল্যায়নের মতো নির্ভরযোগ্য নয়, তবে একাধিক ডকুমেন্ট অনুবাদের সামগ্রিক গুণমান মূল্যায়ন করার সময় এটি একটি ভালো মাপযোগ্য বিকল্প।

MT মূল্যায়নের ক্ষেত্রে দৃষ্টিভঙ্গি

মেশিন দ্বারা অনুবাদ মূল্যায়নের ক্ষেত্রে দৃষ্টিভঙ্গি পুঙ্খানুপুঙ্খভাবে ধারণা ভিত্তিক। অর্থাৎ, যে ভিন্ন ভিন্ন স্তরে স্কোরিং তাৎপর্যপূর্ণ বলে বিবেচিত হতে পারে।

বাক্য-ভিত্তিক পদ্ধতি। এই পদ্ধতির অধীনে, প্রতিটি বাক্যের অনুবাদ ভালো (1) বা ভালো নয় (0) হিসাবে স্কোর দেওযা হয় এবং মোট একটি গড় স্কোর দেওয়া হয়। এটি সাধারণত মানুষের দ্বারা মূল্যায়নের ক্ষেত্রে করা হয়।

ডকুমেন্ট-ভিত্তিক পদ্ধতি। কর্পাস-ভিত্তিক পদ্ধতি হিসাবেও পরিচিত, বাক্যগুলির জন্যও স্কোর দেওয়া হয়, তবে উল্লেখযোগ্য স্কোর হল ডকুমেন্টের একটি বড় সেটের মধ্যে মোট বা গড় স্কোর। এটি সবচেয়ে ছোট স্তর যেখানে স্বয়ংক্রিয় MT মূল্যায়ন তাৎপর্যপূর্ণভাবে বিবেচনা করা যেতে পারে, কারণ এটি একটি বিস্তৃত ডেটাসেট থেকে পরিসংখ্যানের উপর অনেক বেশি নির্ভর করে।

প্রসঙ্গ-ভিত্তিক পদ্ধতি। এই পদ্ধতিটি আগেরগুলির থেকে আলাদা কারণ, এই ক্ষেত্রে সামগ্রিক MT টাস্কটির বাক্যগুলির উপর ভিত্তি করে গড় স্কোরের পরিবর্তে যে প্রসঙ্গে এটি রাখা হয়েছে তার জন্য কতটা উপযুক্ত তার উপর জোর দেওয়া হয়। এটি MT মূল্যায়নের জন্য একটি সামগ্রিক পদ্ধতি হিসাবে বিবেচিত হতে পারে।

মেশিন ট্রান্সলেশনের মূল্যায়নে চ্যালেঞ্জ

মেশিন ট্রান্সলেশনের মূল্যায়ন একটি কঠিন প্রক্রিয়া। এর কারণ ভাষা একটি অত্যন্ত জটিল বিষয়।

একের জন্য, একাধিক সঠিক অনুবাদ হতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত বাক্যটি দেখুন:

The quick brown fox jumped over the lazy dog.

MT সিস্টেম নিম্নলিখিত অনুবাদ তৈরি করতে পারে:

দ্রুত বাদামী শিয়াল অলস কুকুরের উপর ঝাঁপিয়ে পড়ল।

এটি প্রযুক্তিগতভাবে সঠিক অনুবাদ এবং মানুষের মূল্যায়নে এটি সাধারণত এই হিসাবে চিহ্নিত করা হবে। কিন্তু স্বয়ংক্রিয় মূল্যায়নে, এটি ভুল হিসাবে চিহ্নিত করা হবে।

ছোট বিবরণ একটি বাক্যের অর্থ সম্পূর্ণরূপে পরিবর্তন করতে পারে।

The quick brown fox jumped on the lazy dog.

এখানে, শুধুমাত্র একটি শব্দ পরিবর্তন করা হয়েছে। কিন্তু সেই একটি শব্দ বাক্যটির অর্থ সম্পূর্ণরূপে বদলে দিচ্ছে। স্বয়ংক্রিয় মূল্যায়ন এটিকে আগের উদাহরণের চেয়ে বেশি চিহ্নিত করতে পারে। অনুবাদকরা এই ভুল ধরে নিতে পারেন, তবে কেউ কেউ এটিকে সঠিক বলে মনে করতে পারেন।

এবং যে কারণে ভাষার মানে সবসময় একই নাও হতে পারে। এমনকি মানব মূল্যায়নকারীদেরও মধ্যেও অনুবাদ ভালো কিনা সেই নিয়ে মতামত ভিন্ন হতে পারে।

মানুষের মূল্যায়ন: সোনার মান

এখন যেহেতু আমরা মৌলিক বিষয় নিয়ে আলোচনা করছি, তাই আসুন মানব মূল্যায়নের সঙ্গে শুরু করে দুটি ধরণের MT মূল্যায়নের উপর গভীরভাবে নজর দেওয়া যাক।

সবচেয়ে মৌলিক স্তরে, মেশিনের দ্বারা অনুবাদের লক্ষ্য হলো যে ভাষা থেকে অনুবাদ করা হচ্ছে সেই ভাষার পাঠ্য এমনভাবে যে ভাষায় অনুবাদ করতে হবে সেই ভাষায় অনুবাদ করা যাতে মানুষ বুঝতে পারেন। যেমন, মানুষ মেশিন ট্রান্সলেশনের গুণমান মূল্যায়নের জন্য সেরা বিকল্প।

মানুষের মূল্যায়নের ধরন

মানুষের মূল্যায়নের বিভিন্ন উপায় রয়েছে, যা আমরা এখনই জানব:

সরাসরি মূল্যায়ন

এটি মানুষের মূল্যায়নের সবচেয়ে প্রচলিত ধরন। মেশিন ট্রান্সলেশনের ক্ষেত্রে বাক্য স্তরে স্কোর করা হয়।

সরাসরি মূল্যায়নের ক্ষেত্রে চ্যালেঞ্জ হল যে বিভিন্ন মূল্যায়নকারীদের স্কোর করার পদ্ধতি ভিন্ন। কেউ কেউ স্কোরিংয়ের ক্ষেত্রে একপেশে পন্থা অবলম্বন করতে পারেন, অনুবাদগুলিকে হয় খুব খারাপ বা খুব ভালো হিসাবে চিহ্নিত করেন। অন্যরা এটিকে আরও রক্ষণশীলভাবে মূল্যায়ন করতে পারেন, একই বাক্যগুলিকে মোটামুটি স্কোর দিয়ে মূল্যায়ন করেন।

আরেকটি চ্যালেঞ্জ হলো, প্রাসঙ্গিক দৃষ্টিভঙ্গী। কোনো বাক্যের অনুবাদ খারাপ কিনা তা বিচার করার জন্য, মূল্যায়নকারীদেরকে ভাষাটি অস্পষ্ট কিনা সেই সম্পর্কে সিদ্ধান্ত নিতে হবে। চলুন উদাহরণের বাক্যে ফিরে যাই:

The quick brown fox jumped over the lazy canine।

এখানে, ক্যানাইন ভুল নয়, তবে এটি সবথেকে প্রাসঙ্গিকও নয়। কিছু মূল্যায়নকারী এটিকে ভালো মনে করতে পারেন, অন্যরা এটিকে সম্পূর্ণ ভুল হিসাবে চিহ্নিত করতে পারেন। উদাহরণস্বরূপ, যদি স্কোরিংয়ের স্কেল 5-পয়েন্ট ভিত্তিক হয়, তবে কিছু অনুবাদক এটিকে 4 দিতে পারেন, অন্যরা এটিকে শুধুমাত্র 2 দিতে পারেন।

এইসব চ্যালেঞ্জ একাধিক মূল্যায়নকারী নিয়োগ করে করতে দেওয়া যেতে পারে, এখানে পরিসংখ্যানের ভিত্তিতে স্কোর করা যেতে পারে।

র‍্যাঙ্কিং

মানুষের মূল্যায়নের ক্ষেত্রে মেশিন ট্রান্সলেশন সিস্টেমের মূল্যায়ন করার আরেকটি উপায় হল র‌্যাঙ্কিং।

এই ক্ষেত্রে, মূল্যায়নকারীরা বাক্যের জন্য পৃথক স্কোর প্রদান করে না, বরং বিভিন্ন MT সিস্টেমের অনুবাদের মধ্যে তুলনা করে। তারপর তারা সিদ্ধান্ত নেন কোনটি সেরা অনুবাদ, কোনটি দ্বিতীয় ইত্যাদি।

সরাসরি মূল্যায়ন এবং বিভিন্ন পরীক্ষায় ও সম্ভবত বিভিন্ন মূল্যায়নকারীদের দ্বারা প্রদত্ত স্কোরের তুলনা করার বিপরীতে এই পদ্ধতির সুবিধা হলো যে এটিতে অবিলম্বে সরাসরি তুলনা করা যায়।

তবে, এটিতে এখনও প্রাসঙ্গিক সংক্রান্ত সমস্যায় রয়েছে। বিভিন্ন MT সিস্টেমে বিভিন্ন ত্রুটি থাকতে পারে। উদাহরণস্বরূপ:

The quick green fox jumped over the lazy dog.

Quick brown fox jumped over lazy dog.

The quick brown fox jump over the lazy dog.

প্রতিটি বাক্যে একটি সাধারণ ত্রুটি রয়েছে। প্রথমটি ভুল অনুবাদ। দ্বিতীয়টিতে আর্টিকেল নেই। তৃতীয়টিতে ক্রিয়ার কাল নেই।

মূল্যায়নকারীদের এখন দেখতে হবে কোন ত্রুটিটি অন্যের থেকে বেশি গুরুত্বপূর্ণ এবং আবার, মূল্যায়নকারীদের এই বিষয়ে ভিন্ন মতামত থাকতে পারে।

পোস্ট-এডিটিং প্রচেষ্টা

যদি MT সিস্টেমের ব্যবহারকারীর উদ্দেশ্য পোস্ট-এডিটিংয়ের জন্য ডকুমেন্ট প্রস্তুত করা হয়, তবে পোস্ট-এডিটে যে পরিমাণ প্রচেষ্টা লাগে সেই অনুযায়ী এটি মূল্যায়ন করার উপায়ও রয়েছে।

পোস্ট-এডিটিং এর মৌলিক উদ্দেশ্য হলো একজন অনুবাদককে শুরু থেকে অনুবাদ করার চেয়ে দ্রুত অনুবাদ করতে সাহায্য করা। যেমন, পোস্ট-এডিটিংয়ের জন্য MT সিস্টেমের মূল্যায়ন করার সবচেয়ে সহজ উপায় হল মেশিন ট্রান্সলেশন আউটপুট সংশোধন করতে অনুবাদকের সময় বাঁচানো।

পোস্ট-এডিটিং প্রচেষ্টা পরিমাপ করার আরেকটি উপায় হল মেশিন দ্বারা অনূদিত পাঠ্যকে মানুষের দ্বারা অনুবাদের সাথে প্রতিস্থাপন করতে কীবোর্ডে স্ট্রোকের সংখ্যার সারণী করা। এটি সময় সীমাবদ্ধতা থেকে স্বাধীন, তবে একাধিক সঠিক অনুবাদের সম্ভাবনাকেও বিবেচনা করে না।

টাস্ক-ভিত্তিক মূল্যায়ন

এরপর আসে টাস্ক-ভিত্তিক মূল্যায়ন, এতে নামের মতোই এটি হাতে থাকা টাস্কের জন্য কতটা উপযুক্ত তার উপর ভিত্তি করে একটি MT সিস্টেম মূল্যায়ন করা হয়। উদাহরণস্বরূপ, যদি এটি একটি বহুভাষিক ওয়েবিনারে ব্যবহার করা হয়, তাহলে অংশগ্রহণকারীদের মেশিন দ্বারা অনূদিত ট্রান্সক্রিপ্ট দিয়ে তাদের অভিজ্ঞতার মূল্যায়ন করতে বলা যেতে পারে। এর মানে হল যে তারা সামগ্রিকভাবে MT সিস্টেমের সাফল্যকে রেটিং দিচ্ছেন।

এই পদ্ধতির সমস্যা হলো এটি অন্যান্য অনিয়ন্ত্রিত উপাদানের জন্য খুব উন্মুক্ত, যা রেটিং মূল্যায়নকারীদের প্রভাবিত করতে পারে। যেমন, টাস্ক-ভিত্তিক মূল্যায়নের ব্যবহার খুবই পরিস্থিতি সম্পর্কিত।

মানুষের মূল্যায়নের ক্ষেত্রে সাধারণ চ্যালেঞ্জ

আপনি হয়তো দেখতে পাচ্ছেন, MT এর বিভিন্ন ধরনের মানুষের দ্বারা মূল্যায়নের ভিন্ন চ্যালেঞ্জ আছে। কিছু চ্যালেঞ্জও রয়েছে যেগুলো একই এবং এগুলোকে ধারাবাহিকতা বা সহমতের মাধ্যমে স্থির করা হয়।

ইন্টার-অ্যানোনেটর সহমত

এটি দিয়ে বিভিন্ন মূল্যায়নকারীদের মধ্যে স্কোরের ধারাবাহিকতা বোঝানো হয়। আমরা আগে যেমন উল্লেখ করেছি, বিভিন্ন মূল্যায়নকারীদের পাঠ্যের একই অংশে স্কোর করার পদ্ধতিতে ভিন্নতা থাকবে। কেউ কেউ তাদের খুব খারাপ/ভালো বা মাঝারি স্কোর দিতে পারেন। বিভিন্ন MT ইঞ্জিনের র‍্যাঙ্কিং করার সময়, তাদের মতামতও ভিন্ন হতে পারে। এই কারণেই একাধিক মূল্যায়নকারী থাকা গুরুত্বপূর্ণ, যাতে স্কোর বিতরণ স্বাভাবিক হয়।

ইন্ট্রা-অ্যানোনেটর সহমত

যেভাবে একজন মূল্যায়নকারী পাঠ্য স্কোর করে সেটিও বৈধতার একটি পরিমাপ। একজন মূল্যায়নকারী প্রথমবার ভাল বা খারাপ হিসাবে একটি বাক্যের স্কোর করতে পারেন, কিন্তু তারা একই পরীক্ষার পুনরাবৃত্তি করার পরে তাদের সিদ্ধান্ত পরিবর্তন হতে পারে। ইন্ট্রা-অ্যানোনেটর সহমতের পরিমাপ উচ্চ হলে এর মানে হলো যে নির্বাচিত মূল্যায়নকারীকে সামঞ্জস্যপূর্ণ এবং নির্ভরযোগ্য হিসাবে বিবেচনা করা যেতে পারে।

স্বয়ংক্রিয় মূল্যায়ন: পরিমাপযোগ্য বিকল্প

মেশিন ট্রান্সলেশনের গুণমান মূল্যায়নের ক্ষেত্রে মানুষের মাধ্যমে মূল্যায়ন সেরা মানক হিসাবে বিবেচনা করা হয়। তবে, সময়ের পরিপ্রেক্ষিতে এটি একটি ব্যয়বহুল প্রচেষ্টা। এই কারণেই গবেষকরা স্বয়ংক্রিয় প্রক্রিয়ার মাধ্যমে MT গুণমান মূল্যায়নের ভিন্ন উপায় তৈরি করেছেন।

এইসব প্রক্রিয়া কীভাবে মানুষ MT সিস্টেমকে মূল্যায়ন করবে তা অনুমান করে সেই মতো আনুমানিকভাবে ডিজাইন করা হয়েছে। অবশ্যই, এটি নিখুঁত থেকে অনেক দূরে, তবে স্বয়ংক্রিয় মূল্যায়নের এখনও ব্যবহারের ক্ষেত্রে খুব গুরুত্বপূর্ণ।

মানুষ দ্বারা মূল্যায়নের তুলনায় স্বয়ংক্রিয় মূল্যায়নের প্রধান সুবিধা হল এর পরিমাপযোগ্যতা। মানুষের দ্বারা এক রাউন্ড মূল্যায়নের করতে যে সময় লাগে স্বয়ংক্রিয় মূল্যায়ন একই সময়ে আরও বেশি মূল্যায়ন করতে সক্ষম। যখন দ্রুত অল্প পরিবর্তন করার বা MT সিস্টেম অপ্টিমাইজ করার দরকার হয়, তখন এটি আদর্শ সমাধান।

স্বয়ংক্রিয় মূল্যায়নের চ্যালেঞ্জ

মানুষ ছাড়া, মেশিন ভাষার বিভিন্ন ব্যবহার পরিচালনা করার জন্য সজ্জিত নয়। স্বয়ংক্রিয় মূল্যায়ন সিস্টেমগুলি একটি রেফারেন্স টেক্সটের সাথে সঠিক মিল থাকা MT ভিত্তিক এবং এর ফলে ছোটখাটো পার্থক্য চূড়ান্ত স্কোরের উপর প্রভাব ফেলতে পারে। এইসব পার্থর্কে মধ্যে মোরফোলজি, প্রতিশব্দের ব্যবহার এবং ব্যাকরণগত ক্রম অন্তর্ভুক্ত।

মানুষ্য মূল্যায়নকারীর দ্বারা প্রযুক্তিগতভাবে বা কম বা বেশি সঠিক বলে বিবেচিত যেকোনো কিছু স্বয়ংক্রিয় মূল্যায়নে ভুল বলে চিহ্নিত হতে পারে। তবুও, সঠিক মিলের সংখ্যা, বিশেষ করে যখন পাঠ্যের একটি বড় নমুনা বিবেচনা করা হয়, তখন স্বয়ংক্রিয় মূল্যায়ন ব্যবহার করার জন্য যথেষ্ট।

স্বয়ংক্রিয় মূল্যায়নের মাপকাঠি

বর্তমানে উপলভ্য বিভিন্ন স্বয়ংক্রিয় মূল্যায়নের ক্ষেত্রে মাপকাঠি আছে। এখানে ব্যবহার করা জন্য কিছু উদাহরণ আছে:

· BLEU (বাইলিঙ্গুয়াল এভালিউশন আন্ডারস্টাডি)

· NIST (ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি থেকে)

· METEOR (স্পষ্ট ক্রম সহ অনুবাদের মূল্যায়নের জন্য মাপকাঠি)

· LEPOR (দৈর্ঘ্য-পেনাল্টি, যথার্থতা, n-gram পজিশন পেনাল্টি এবং রিকল)

· COMET

· PRIS

· TER (ট্রান্সলেশন এরর রেট)

প্রতিটি মাপকাঠি বিভিন্ন অ্যালগরিদমে কাজ করে এবং স্বয়ংক্রিয় মূল্যায়নের প্রক্রিয়াকে ভিন্নভাবে পরিচালনা করে। এর মানে হল যে সেগুলোর ভিন্ন শক্তি ও দুর্বলতা রয়েছে এবং সেগুলো কোন ধরনের ত্রুটির জন্য বেশি বা কম পেনাল্টি নির্ধারণ করে তা ভিন্ন।

BLEU, সবচেয়ে জনপ্রিয় মাপকাঠি

উপরে তালিকাভুক্ত সমস্ত মাপকাঠিগুলির মধ্যে BLEU সবচেয়ে বেশি ব্যবহৃত হয়। এটি ছিল মানুষের দ্বারা মূল্যায়নের সঙ্গে উচ্চ স্তরের পারস্পরিক সম্পর্ক অর্জনের প্রথম মাপকাঠিগুলির মধ্যে একটি এবং অনেক ভিন্নতা তৈরি করেছে।

এতে প্রতিটি বাক্যের ক্ষেত্রে উচ্চ মানের রেফারেন্স অনুবাদের সঙ্গে তুলনা করে স্কোর দেওয়া হয়। তারপরে এই স্কোরগুলির গড় করা হয় এবং ফলস্বরূপ যে সংখ্যা পাওয়া যায় তা হল সেই MT সিস্টেমের জন্য চূড়ান্ত BLEU স্কোর। এই স্কোর থেকে জানা যায় MT সিস্টেমের আউটপুট মানুষের রেফারেন্স অনুবাদের সঙ্গে কতটা নিবিড়ভাবে মেলে। এটি হল গুণমানের জন্য মার্কার।

স্কোরগুলো n-grams নামক একক ব্যবহার করে গণনা করা হয়, যা ধারাবাহিক পাঠ্যের অংশগুলিকে নির্দেশ করে। আগের নমুনা বাক্যে ফিরে যাওয়া যাক, উদাহরণস্বরূপ:

The quick brown fox jumped over the lazy dog.

একে বিভিন্ন দৈর্ঘ্যের n-grams-এ ভাগ করা যায়। একটি n-gram, উদাহরণস্বরূপ, "দ্রুত", "দ্রুত বাদামী" বা "বাদামী শিয়াল" হবে। একটি 3-gram হবে "দ্রুত বাদামী" বা "দ্রুত বাদামী শিয়াল"। একটি 4-gram হবে "দ্রুত বাদামী শিয়াল"। ইত্যাদি।

এটি একটি জটিল গাণিতিক প্রক্রিয়া, কিন্তু মৌলিক শর্তে BLEU এর অ্যালগরিদম n-grams-এর মধ্যে ওভারল্যাপের সংখ্যা পরীক্ষা করে স্কোর গণনা করে। গণনা করা স্কোর হবে 0 এবং 1 এর মধ্যে, 1 রেফারেন্স এবং আউটপুট বাক্যের মধ্যে সম্পূর্ণ অভিন্ন মিল নির্দেশ করে। এখন নমুনা বাক্যে নিম্নলিখিত বৈচিত্রটি দেখুন:

দ্রুত বাদামী শিয়াল অলস কুকুরের উপর দিয়ে ঝাঁপিয়ে পড়ল।

"দ্রুত" শব্দটি ব্যতীত সমস্ত n-grams মিলবে। আরেকটি উদাহরণ:

দ্রুত বাদামী শিয়াল কুকুরের উপর দিয়ে ঝাঁপিয়ে পড়ল।

এই উদাহরণে, "অলস" শব্দটি অনুপস্থিত, তাই এটি ওভারল্যাপকে নেতিবাচকভাবে প্রভাবিত করে। উভয় ক্ষেত্রে, BLEU স্কোর এখনও উচ্চ হবে, কিন্তু 1 এর কম।

অনুশীলনে, অনেক বাক্য এই উচ্চ স্তরের পারস্পরিক সম্পর্ক দেখাবে না। যেমন, BLEU স্কোর পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হয়ে ওঠে শুধুমাত্র যখন পাঠ্যের একটি বড় নমুনা বা কর্পোরার প্রেক্ষাপটে ব্যবহার করা হয়।

অবশ্যই, BLEU স্কোর গণনা করার ক্ষেত্রে অন্যান্য কারণ রয়েছে, যেমন অতিরিক্ত শব্দ বা খুব ছোট বাক্যের জন্য পেনাল্টি। অন্যান্য ডেরিভেটিভ স্কোরিং সিস্টেমগুলির ত্রুটির জন্য ব্যবস্থা করা হয়েছে, কিন্তু BLEU রেটিং উচ্চ মানের এবং আজকে MT মূল্যায়নের ক্ষেত্রে সবচেয়ে ব্যাপকভাবে ব্যবহৃত হচ্ছে।

MT মূল্যায়নের চূড়ান্ত সিদ্ধান্ত

এবং সেখানে মেশিন ট্রান্সলেশনের মূল্যায়নের মৌলিক বিষয়গুলি বলা হয়েছে। যেমন আমরা দেখিয়েছি, MT সিস্টেমের মূল্যায়ন মানুষের দ্বারা মূল্যায়ন বা স্বয়ংক্রিয় মূল্যায়নের মাধ্যমে করা যেতে পারে। উভয় প্রক্রিয়ারই সুবিধা এবং অসুবিধা আছে।

মানুষের মূল্যায়ন হল মানের দিক থেকে সেরা মানের, কিন্তু ব্যয়বহুল এবং সময়সাপেক্ষ। স্বয়ংক্রিয় অনুবাদ ততটা সঠিক নয়, তবে এটি দ্রুত এবং পরিমাপযোগ্য। যেমন, উভয় প্রকারেরই তাদের নির্দিষ্ট ব্যবহারের ক্ষেত্র রয়েছে যেখানে সেগুলো ঠিকঠাক কাজ করে।