logo

বিশ্বব্যাপী লক্ষ লক্ষ ব্যবহারকারীর বিশ্বস্ততার ভিত্তিতে, MachineTranslation.com ইতিমধ্যেই ভাষা এবং ফর্ম্যাট জুড়ে কোটি কোটি উচ্চ-মানের অনুবাদ সরবরাহ করেছে। MachineTranslation.com হল একটি বিনামূল্যের AI অনুবাদক যা Tomedes দ্বারা নির্মিত যা সকলের জন্য AI অনুবাদ অ্যাক্সেসযোগ্য, নির্ভুল এবং নিরাপদ করে তোলে। এই প্ল্যাটফর্মটি টেক্সট এবং বৃহৎ নথি উভয়কেই অনুবাদ করে, একই সাথে তাদের মূল বিন্যাস অক্ষত রাখে। এটি ব্যবহার করে SMART ২২টি এআই মডেলের ফলাফল তুলনা করে এবং অধিকাংশ এআই-এর মতামতের ভিত্তিতে সংস্করণটি স্বয়ংক্রিয়ভাবে নির্বাচন করার মাধ্যমে সবচেয়ে নির্ভরযোগ্য অনুবাদ প্রদান করা।

কোম্পানির

আমাদের সম্পর্কে
যোগাযোগ করুন
প্রবেশ করুন
নিবন্ধন করুন

তালিকা

FAQsমূল্য নির্ধারণAPIব্লগভাষা

চাহিদাযুক্ত ভাষা

ইংরেজি to বাংলা
আরবি to বাংলা
বাংলা to আরবি
বাংলা to ইংরেজি
ইতালীয় to বাংলা
বাংলা to চীনা (সরলীকৃত)

কোম্পানির

আমাদের সম্পর্কে
যোগাযোগ করুন
প্রবেশ করুন
নিবন্ধন করুন

তালিকা

FAQsমূল্য নির্ধারণAPIব্লগভাষা

চাহিদাযুক্ত ভাষা

ইংরেজি to বাংলা
আরবি to বাংলা
বাংলা to আরবি
বাংলা to ইংরেজি
ইতালীয় to বাংলা
বাংলা to চীনা (সরলীকৃত)
g2iso_certificate_1iso_certificate_2
google_playapple_app
phone_icon
US: +1 985 239 0142 | UK: +44 1615 096140
mail_iconcontact@machinetranslation.com
social iconsocial iconsocial iconsocial icon
Globearrow
search-icon
  • Afrikaans
  • Albanian (Shqip)
  • Amharic (አማርኛ)
  • Arabic (العربية)
  • Belarusian (Беларуская)
  • Bengali (বাংলা)
  • Bosnian (Bosanski)
  • Bulgarian (Български)
  • Burmese (မြန်မာစာ)
  • Catalan (Català)
  • Central Atlas Tamazight (Tamaziɣt)
  • Chinese-Simplified (简体中文)
  • Chinese-Traditional (繁體中文)
  • Croatian (Hrvatski)
  • Czech (Čeština)
  • Danish (Dansk)
  • Dutch (Nederlands)
  • English
  • Esperanto
  • Estonian (Eesti)
  • Filipino (Tagalog)
  • Finnish (Suomi)
  • French (Français)
  • French-Canada (Français-Canada)
  • Galician (Galego)
  • Georgian (ქართული)
  • German (Deutsch)
  • Greek (Ελληνικά)
  • Guarani (Avañe'ẽ)
  • Haitian Creole (Kreyòl Ayisyen)
  • Hausa
  • Hebrew (עברית)
  • Hindi (हिन्दी)
  • Hungarian (Magyar)
  • Icelandic (Íslenska)
  • Igbo
  • Indonesian (Bahasa Indonesia)
  • Italian (Italiano)
  • Japanese (日本語)
  • Khmer (ខ្មែរ)
  • Korean (한국어)
  • Latvian (Latviešu)
  • Lingala (Lingála)
  • Lithuanian (Lietuvių)
  • Malagasy
  • Malay (Bahasa Melayu)
  • Maltese (Malti)
  • Norwegian-Bokmål (Norsk-Bokmål)
  • Oromo (Afaan Oromoo)
  • Polish (Polski)
  • Portuguese-Brazil (Português-Brasil)
  • Portuguese-Portugal (Português-Portugal)
  • Quechua (Runa Simi)
  • Romanian (Română)
  • Russian (Русский)
  • Serbian (Српски)
  • Slovak (Slovenčina)
  • Slovenian (Slovenščina)
  • Somali (Soomaaliga)
  • Spanish (Español)
  • Swahili (Kiswahili)
  • Swedish (Svenska)
  • Tamil (தமிழ்)
  • Thai (ไทย)
  • Tigrinya (ትግርኛ)
  • Tswana (Setswana)
  • Turkish (Türkçe)
  • Ukrainian (Українська)
  • Urdu (اردو)
  • Vietnamese (Tiếng Việt)
  • Wolof
  • Xhosa (IsiXhosa)
  • Yoruba (Yorùbá)
  • Zulu (IsiZulu)

2026 MachineTranslation.com by Tomedes

আইনি নীতিকুকি নীতি

May 10, 2024

মেশিন ট্রান্সলেশনের মূল্যায়ন: চূড়ান্ত গাইড

ধরা যাক আপনার ব্যবসার জন্য মেশিন ট্রান্সলেশন সিস্টেমে বিনিয়োগ করার সিদ্ধান্ত নিয়েছেন। আপনি কিছু মৌলিক গবেষণা করেছেন এবং খুঁজে পেয়েছেন যে, বেছে নেওয়ার জন্য অনেক বিকল্প রয়েছে। নির্দিষ্ট মাপকাঠির উপর ভিত্তি করে প্রতিটির স্কোর ভিন্ন, কিন্তু আপনি জানেন না যে এর মানে আসলে কী। আপনি কীভাবে জানবেন যে কোনটি আপনার জন্য সবচেয়ে উপযুক্ত?

আপনাকে বুঝতে হবে কীভাবে মেশিন ট্রান্সলেশনের মূল্যায়ন কাজ করে।

এই নিবন্ধটিতে মেশিন ট্রান্সলেশনের মূল্যায়নের বিস্তারিত তথ্য পাবেন। এটি পড়ে আপনি বুঝতে পারবেন এটি কী, কেন আপনার এটির প্রয়োজন এবং বিভিন্ন ধরনের মূল্যায়ন, বিনিয়োগের জন্য একটি MT সিস্টেম বেছে নেওয়ার সময় আপনাকে বুঝে শুনে সিদ্ধান্ত নিতে সাহায্য করবে।

ভূমিকা: মেশিন ট্রান্সলেশনের মূল্যায়ন কী?

মেশিন ট্রান্সলেশনের মূল্যায়ন মানে মেশিন ট্রান্সলেশন সিস্টেমের কার্যকারিতা পরিমাপের বিভিন্ন প্রক্রিয়াকে বোঝায়।

এটি MT এর গুণমান মূল্যায়ন করার একটি উপায়, যেখানে সিস্টেমটি কতটা ভাল তা জানা সম্ভব এবং বিভিন্ন MT সিস্টেম কতটা কার্যকর তা তুলনা করার জন্য একটি শক্ত ভিত্তি রয়েছে। এটি করার জন্য, মেশিন ট্রান্সলেশনের মূল্যায়নে পরিমাপযোগ্য মাপকাঠি ব্যবহার করা হয়।

মেশিন ট্রান্সলেশনের মূল্যায়নের মাপকাঠি গুরুত্বপূর্ণ?

কোনো MT সিস্টেমের কর্মক্ষমতা মূল্যায়ন করার জন্য দুটি প্রধান কারণ রয়েছে। প্রথমটি হল বাস্তবে প্রয়োগের জন্য এটি যথেষ্ট ভালো কিনা তা পরীক্ষা করা। দ্বিতীয়টি হ'ল গবেষণা এবং উন্নতির গাইড হিসাবে কাজ করা।

বাস্তবে প্রয়োগের জন্য এটি যথেষ্ট ভালো কিনা তা পরীক্ষা করা।

প্রথমত, MT সিস্টেম এমন একটি স্তরে কাজ করে যা বাস্তবে ব্যবহারের জন্য যথেষ্ট ভাল তা নির্ধারণ করা। সেই কারণে ব্যবহারকারীদের সঙ্গে এটি সরাসরি প্রাসঙ্গিক। যদি মেশিন ট্রান্সলেশন সিস্টেম খারাপভাবে কাজ করে, তাহলে ব্যবহারকারীদের কাছে অন্য কিছু বেছে নেওয়ার সম্ভাবনা বেশি থাকে।

MT ব্যবহার করে এমন শিল্প খাতগুলোও MT সিস্টেম কী পেতে হবে তা নির্ধারণের জন্য উপযুক্ত মাপকাথি চায়বে। সর্বোপরি, MT হল একটি বিনিয়োগ এবং সংস্থাগুলোও তাদের অর্থের বিনিময়ে সেরা পেতে চায়বে।

যেমন, MT ডেভেলপারদের মূল্যায়ন করতে হবে যে মেশিন ট্রান্সলেশন সিস্টেমের মান ক্লায়েন্টদের কাছে পাঠানোর জন্য যথেষ্ট ভালো কিনা।

গবেষণা এবং উন্নতির গাইড হিসাবে কাজ করা।

MT সিস্টেম, একটি স্থির সত্তা নয়। MT-এর প্রযুক্তি সময়ের সাথে সাথে ক্রমাগত উন্নতি করছে। তাই, MT সিস্টেমেরও উন্নতি হবে এমন আশা করা উচিত।

এখানেই গবেষণা আসে এবং গবেষকদেরও কিছু গাইড থাকা দরকার। পরিমাপযোগ্য মাপকাঠি গবেষকদের একটি নির্দিষ্ট পদ্ধতি অন্যটির চেয়ে ভাল কিনা তা তুলনা করার সুযোগ প্রদান করে, তাদেরকে সিস্টেমকে আরও উন্নত করতে সাহায্য করে।

বিশেষত, সিস্টেম ধারাবাহিক অনুবাদ ত্রুটি কীভাবে সামলায় তা দেখার জন্য এটি ভালো। পরিমাপযোগ্য মাপকাঠি থাকলে তা আরও নিয়ন্ত্রিতভাবে দেখা যেতে পারে যে কোনো নির্দিষ্ট পদ্ধতি এই ধরনের ত্রুটি মোকাবেলা করতে সক্ষম কিনা।

মেশিন ট্রান্সলেশনের সাফল্যকে আপনি কীভাবে মূল্যায়ন করবেন?

MT সিস্টেম কতটা ভাল কাজ করে তা নির্ধারণ করার দুটি ভিন্ন উপায় রয়েছে। মানুষের দ্বারা মূল্যায়নের ক্ষেত্রে বিশেষজ্ঞদের দ্বারা করা হয়, অন্যদিকে স্বয়ংক্রিয় মূল্যায়নের ক্ষেত্রে AI-ভিত্তিক মাপকাঠি ব্যবহার করা হয় যা বিশেষভাবে মানুষের হস্তক্ষেপ ছাড়াই অনুবাদের গুণমান নির্ধারণের জন্য তৈরি। প্রতিটির নিজস্ব সুবিধা এবং অসুবিধা রয়েছে। আমরা এই নিবন্ধের পরবর্তী বিভাগে উভয় ধরণের MT মূল্যায়ন সম্পর্কে আরও বিশদে জানব, তবে প্রথমে, এখানে দুই ধরনের মেশিন ট্রান্সলেশনের মূল্যায়ন এবং সেইসাথে MT মূল্যায়নের পদ্ধতির একটি দ্রুত সংক্ষিপ্তসার রয়েছে।

মানব মূল্যায়ন বনাম স্বয়ংক্রিয় মূল্যায়ন

মেশিন ট্রান্সলেশনের মানুষের দ্বারা মূল্যায়ন মানে অনুবাদের গুণমানের মূল্যায়ন পেশাদার অনুবাদকদের দ্বারা করা হয়। মেশিন অনুবাদের গুণমান বাক্যের স্তর পর্যন্ত নির্ধারণ করার ক্ষেত্রে এটি সবচেয়ে কার্যকরী বিকল্প। কিন্তু মানুষের মূল্যায়ন, মানুষের অনুবাদের মতো, প্রকৃতিগতভাবে আরও ব্যয়বহুল এবং সময় সাপেক্ষ।

অন্যদিকে, স্বয়ংক্রিয় মূল্যায়নে বিভিন্ন পদ্ধতি অনুসারে মেশিন ট্রান্সলেশনের গুণমান মূল্যায়নের জন্য বিশেষভাবে নির্মিত প্রোগ্রামগুলি ব্যবহার করা হয়। এটি বাক্য গঠনের ক্ষেত্রে মানুষের মূল্যায়নের মতো নির্ভরযোগ্য নয়, তবে একাধিক ডকুমেন্ট অনুবাদের সামগ্রিক গুণমান মূল্যায়ন করার সময় এটি একটি ভালো মাপযোগ্য বিকল্প।

MT মূল্যায়নের ক্ষেত্রে দৃষ্টিভঙ্গি

মেশিন দ্বারা অনুবাদ মূল্যায়নের ক্ষেত্রে দৃষ্টিভঙ্গি পুঙ্খানুপুঙ্খভাবে ধারণা ভিত্তিক। অর্থাৎ, যে ভিন্ন ভিন্ন স্তরে স্কোরিং তাৎপর্যপূর্ণ বলে বিবেচিত হতে পারে।

বাক্য-ভিত্তিক পদ্ধতি। এই পদ্ধতির অধীনে, প্রতিটি বাক্যের অনুবাদ ভালো (1) বা ভালো নয় (0) হিসাবে স্কোর দেওযা হয় এবং মোট একটি গড় স্কোর দেওয়া হয়। এটি সাধারণত মানুষের দ্বারা মূল্যায়নের ক্ষেত্রে করা হয়।

ডকুমেন্ট-ভিত্তিক পদ্ধতি। কর্পাস-ভিত্তিক পদ্ধতি হিসাবেও পরিচিত, বাক্যগুলির জন্যও স্কোর দেওয়া হয়, তবে উল্লেখযোগ্য স্কোর হল ডকুমেন্টের একটি বড় সেটের মধ্যে মোট বা গড় স্কোর। এটি সবচেয়ে ছোট স্তর যেখানে স্বয়ংক্রিয় MT মূল্যায়ন তাৎপর্যপূর্ণভাবে বিবেচনা করা যেতে পারে, কারণ এটি একটি বিস্তৃত ডেটাসেট থেকে পরিসংখ্যানের উপর অনেক বেশি নির্ভর করে।

প্রসঙ্গ-ভিত্তিক পদ্ধতি। এই পদ্ধতিটি আগেরগুলির থেকে আলাদা কারণ, এই ক্ষেত্রে সামগ্রিক MT টাস্কটির বাক্যগুলির উপর ভিত্তি করে গড় স্কোরের পরিবর্তে যে প্রসঙ্গে এটি রাখা হয়েছে তার জন্য কতটা উপযুক্ত তার উপর জোর দেওয়া হয়। এটি MT মূল্যায়নের জন্য একটি সামগ্রিক পদ্ধতি হিসাবে বিবেচিত হতে পারে।

মেশিন ট্রান্সলেশনের মূল্যায়নে চ্যালেঞ্জ

মেশিন ট্রান্সলেশনের মূল্যায়ন একটি কঠিন প্রক্রিয়া। এর কারণ ভাষা একটি অত্যন্ত জটিল বিষয়।

একের জন্য, একাধিক সঠিক অনুবাদ হতে পারে। উদাহরণস্বরূপ, নিম্নলিখিত বাক্যটি দেখুন:

The quick brown fox jumped over the lazy dog.

MT সিস্টেম নিম্নলিখিত অনুবাদ তৈরি করতে পারে:

দ্রুত বাদামী শিয়াল অলস কুকুরের উপর ঝাঁপিয়ে পড়ল।

এটি প্রযুক্তিগতভাবে সঠিক অনুবাদ এবং মানুষের মূল্যায়নে এটি সাধারণত এই হিসাবে চিহ্নিত করা হবে। কিন্তু স্বয়ংক্রিয় মূল্যায়নে, এটি ভুল হিসাবে চিহ্নিত করা হবে।

ছোট বিবরণ একটি বাক্যের অর্থ সম্পূর্ণরূপে পরিবর্তন করতে পারে।

The quick brown fox jumped on the lazy dog.

এখানে, শুধুমাত্র একটি শব্দ পরিবর্তন করা হয়েছে। কিন্তু সেই একটি শব্দ বাক্যটির অর্থ সম্পূর্ণরূপে বদলে দিচ্ছে। স্বয়ংক্রিয় মূল্যায়ন এটিকে আগের উদাহরণের চেয়ে বেশি চিহ্নিত করতে পারে। অনুবাদকরা এই ভুল ধরে নিতে পারেন, তবে কেউ কেউ এটিকে সঠিক বলে মনে করতে পারেন।

এবং যে কারণে ভাষার মানে সবসময় একই নাও হতে পারে। এমনকি মানব মূল্যায়নকারীদেরও মধ্যেও অনুবাদ ভালো কিনা সেই নিয়ে মতামত ভিন্ন হতে পারে।

মানুষের মূল্যায়ন: সোনার মান

এখন যেহেতু আমরা মৌলিক বিষয় নিয়ে আলোচনা করছি, তাই আসুন মানব মূল্যায়নের সঙ্গে শুরু করে দুটি ধরণের MT মূল্যায়নের উপর গভীরভাবে নজর দেওয়া যাক।

সবচেয়ে মৌলিক স্তরে, মেশিনের দ্বারা অনুবাদের লক্ষ্য হলো যে ভাষা থেকে অনুবাদ করা হচ্ছে সেই ভাষার পাঠ্য এমনভাবে যে ভাষায় অনুবাদ করতে হবে সেই ভাষায় অনুবাদ করা যাতে মানুষ বুঝতে পারেন। যেমন, মানুষ মেশিন ট্রান্সলেশনের গুণমান মূল্যায়নের জন্য সেরা বিকল্প।

মানুষের মূল্যায়নের ধরন

মানুষের মূল্যায়নের বিভিন্ন উপায় রয়েছে, যা আমরা এখনই জানব:

সরাসরি মূল্যায়ন

এটি মানুষের মূল্যায়নের সবচেয়ে প্রচলিত ধরন। মেশিন ট্রান্সলেশনের ক্ষেত্রে বাক্য স্তরে স্কোর করা হয়।

সরাসরি মূল্যায়নের ক্ষেত্রে চ্যালেঞ্জ হল যে বিভিন্ন মূল্যায়নকারীদের স্কোর করার পদ্ধতি ভিন্ন। কেউ কেউ স্কোরিংয়ের ক্ষেত্রে একপেশে পন্থা অবলম্বন করতে পারেন, অনুবাদগুলিকে হয় খুব খারাপ বা খুব ভালো হিসাবে চিহ্নিত করেন। অন্যরা এটিকে আরও রক্ষণশীলভাবে মূল্যায়ন করতে পারেন, একই বাক্যগুলিকে মোটামুটি স্কোর দিয়ে মূল্যায়ন করেন।

আরেকটি চ্যালেঞ্জ হলো, প্রাসঙ্গিক দৃষ্টিভঙ্গী। কোনো বাক্যের অনুবাদ খারাপ কিনা তা বিচার করার জন্য, মূল্যায়নকারীদেরকে ভাষাটি অস্পষ্ট কিনা সেই সম্পর্কে সিদ্ধান্ত নিতে হবে। চলুন উদাহরণের বাক্যে ফিরে যাই:

The quick brown fox jumped over the lazy canine।

এখানে, ক্যানাইন ভুল নয়, তবে এটি সবথেকে প্রাসঙ্গিকও নয়। কিছু মূল্যায়নকারী এটিকে ভালো মনে করতে পারেন, অন্যরা এটিকে সম্পূর্ণ ভুল হিসাবে চিহ্নিত করতে পারেন। উদাহরণস্বরূপ, যদি স্কোরিংয়ের স্কেল 5-পয়েন্ট ভিত্তিক হয়, তবে কিছু অনুবাদক এটিকে 4 দিতে পারেন, অন্যরা এটিকে শুধুমাত্র 2 দিতে পারেন।

এইসব চ্যালেঞ্জ একাধিক মূল্যায়নকারী নিয়োগ করে করতে দেওয়া যেতে পারে, এখানে পরিসংখ্যানের ভিত্তিতে স্কোর করা যেতে পারে।

র‍্যাঙ্কিং

মানুষের মূল্যায়নের ক্ষেত্রে মেশিন ট্রান্সলেশন সিস্টেমের মূল্যায়ন করার আরেকটি উপায় হল র‌্যাঙ্কিং।

এই ক্ষেত্রে, মূল্যায়নকারীরা বাক্যের জন্য পৃথক স্কোর প্রদান করে না, বরং বিভিন্ন MT সিস্টেমের অনুবাদের মধ্যে তুলনা করে। তারপর তারা সিদ্ধান্ত নেন কোনটি সেরা অনুবাদ, কোনটি দ্বিতীয় ইত্যাদি।

সরাসরি মূল্যায়ন এবং বিভিন্ন পরীক্ষায় ও সম্ভবত বিভিন্ন মূল্যায়নকারীদের দ্বারা প্রদত্ত স্কোরের তুলনা করার বিপরীতে এই পদ্ধতির সুবিধা হলো যে এটিতে অবিলম্বে সরাসরি তুলনা করা যায়।

তবে, এটিতে এখনও প্রাসঙ্গিক সংক্রান্ত সমস্যায় রয়েছে। বিভিন্ন MT সিস্টেমে বিভিন্ন ত্রুটি থাকতে পারে। উদাহরণস্বরূপ:

The quick green fox jumped over the lazy dog.

Quick brown fox jumped over lazy dog.

The quick brown fox jump over the lazy dog.

প্রতিটি বাক্যে একটি সাধারণ ত্রুটি রয়েছে। প্রথমটি ভুল অনুবাদ। দ্বিতীয়টিতে আর্টিকেল নেই। তৃতীয়টিতে ক্রিয়ার কাল নেই।

মূল্যায়নকারীদের এখন দেখতে হবে কোন ত্রুটিটি অন্যের থেকে বেশি গুরুত্বপূর্ণ এবং আবার, মূল্যায়নকারীদের এই বিষয়ে ভিন্ন মতামত থাকতে পারে।

পোস্ট-এডিটিং প্রচেষ্টা

যদি MT সিস্টেমের ব্যবহারকারীর উদ্দেশ্য পোস্ট-এডিটিংয়ের জন্য ডকুমেন্ট প্রস্তুত করা হয়, তবে পোস্ট-এডিটে যে পরিমাণ প্রচেষ্টা লাগে সেই অনুযায়ী এটি মূল্যায়ন করার উপায়ও রয়েছে।

পোস্ট-এডিটিং এর মৌলিক উদ্দেশ্য হলো একজন অনুবাদককে শুরু থেকে অনুবাদ করার চেয়ে দ্রুত অনুবাদ করতে সাহায্য করা। যেমন, পোস্ট-এডিটিংয়ের জন্য MT সিস্টেমের মূল্যায়ন করার সবচেয়ে সহজ উপায় হল মেশিন ট্রান্সলেশন আউটপুট সংশোধন করতে অনুবাদকের সময় বাঁচানো।

পোস্ট-এডিটিং প্রচেষ্টা পরিমাপ করার আরেকটি উপায় হল মেশিন দ্বারা অনূদিত পাঠ্যকে মানুষের দ্বারা অনুবাদের সাথে প্রতিস্থাপন করতে কীবোর্ডে স্ট্রোকের সংখ্যার সারণী করা। এটি সময় সীমাবদ্ধতা থেকে স্বাধীন, তবে একাধিক সঠিক অনুবাদের সম্ভাবনাকেও বিবেচনা করে না।

টাস্ক-ভিত্তিক মূল্যায়ন

এরপর আসে টাস্ক-ভিত্তিক মূল্যায়ন, এতে নামের মতোই এটি হাতে থাকা টাস্কের জন্য কতটা উপযুক্ত তার উপর ভিত্তি করে একটি MT সিস্টেম মূল্যায়ন করা হয়। উদাহরণস্বরূপ, যদি এটি একটি বহুভাষিক ওয়েবিনারে ব্যবহার করা হয়, তাহলে অংশগ্রহণকারীদের মেশিন দ্বারা অনূদিত ট্রান্সক্রিপ্ট দিয়ে তাদের অভিজ্ঞতার মূল্যায়ন করতে বলা যেতে পারে। এর মানে হল যে তারা সামগ্রিকভাবে MT সিস্টেমের সাফল্যকে রেটিং দিচ্ছেন।

এই পদ্ধতির সমস্যা হলো এটি অন্যান্য অনিয়ন্ত্রিত উপাদানের জন্য খুব উন্মুক্ত, যা রেটিং মূল্যায়নকারীদের প্রভাবিত করতে পারে। যেমন, টাস্ক-ভিত্তিক মূল্যায়নের ব্যবহার খুবই পরিস্থিতি সম্পর্কিত।

মানুষের মূল্যায়নের ক্ষেত্রে সাধারণ চ্যালেঞ্জ

আপনি হয়তো দেখতে পাচ্ছেন, MT এর বিভিন্ন ধরনের মানুষের দ্বারা মূল্যায়নের ভিন্ন চ্যালেঞ্জ আছে। কিছু চ্যালেঞ্জও রয়েছে যেগুলো একই এবং এগুলোকে ধারাবাহিকতা বা সহমতের মাধ্যমে স্থির করা হয়।

ইন্টার-অ্যানোনেটর সহমত

এটি দিয়ে বিভিন্ন মূল্যায়নকারীদের মধ্যে স্কোরের ধারাবাহিকতা বোঝানো হয়। আমরা আগে যেমন উল্লেখ করেছি, বিভিন্ন মূল্যায়নকারীদের পাঠ্যের একই অংশে স্কোর করার পদ্ধতিতে ভিন্নতা থাকবে। কেউ কেউ তাদের খুব খারাপ/ভালো বা মাঝারি স্কোর দিতে পারেন। বিভিন্ন MT ইঞ্জিনের র‍্যাঙ্কিং করার সময়, তাদের মতামতও ভিন্ন হতে পারে। এই কারণেই একাধিক মূল্যায়নকারী থাকা গুরুত্বপূর্ণ, যাতে স্কোর বিতরণ স্বাভাবিক হয়।

ইন্ট্রা-অ্যানোনেটর সহমত

যেভাবে একজন মূল্যায়নকারী পাঠ্য স্কোর করে সেটিও বৈধতার একটি পরিমাপ। একজন মূল্যায়নকারী প্রথমবার ভাল বা খারাপ হিসাবে একটি বাক্যের স্কোর করতে পারেন, কিন্তু তারা একই পরীক্ষার পুনরাবৃত্তি করার পরে তাদের সিদ্ধান্ত পরিবর্তন হতে পারে। ইন্ট্রা-অ্যানোনেটর সহমতের পরিমাপ উচ্চ হলে এর মানে হলো যে নির্বাচিত মূল্যায়নকারীকে সামঞ্জস্যপূর্ণ এবং নির্ভরযোগ্য হিসাবে বিবেচনা করা যেতে পারে।

স্বয়ংক্রিয় মূল্যায়ন: পরিমাপযোগ্য বিকল্প

মেশিন ট্রান্সলেশনের গুণমান মূল্যায়নের ক্ষেত্রে মানুষের মাধ্যমে মূল্যায়ন সেরা মানক হিসাবে বিবেচনা করা হয়। তবে, সময়ের পরিপ্রেক্ষিতে এটি একটি ব্যয়বহুল প্রচেষ্টা। এই কারণেই গবেষকরা স্বয়ংক্রিয় প্রক্রিয়ার মাধ্যমে MT গুণমান মূল্যায়নের ভিন্ন উপায় তৈরি করেছেন।

এইসব প্রক্রিয়া কীভাবে মানুষ MT সিস্টেমকে মূল্যায়ন করবে তা অনুমান করে সেই মতো আনুমানিকভাবে ডিজাইন করা হয়েছে। অবশ্যই, এটি নিখুঁত থেকে অনেক দূরে, তবে স্বয়ংক্রিয় মূল্যায়নের এখনও ব্যবহারের ক্ষেত্রে খুব গুরুত্বপূর্ণ।

মানুষ দ্বারা মূল্যায়নের তুলনায় স্বয়ংক্রিয় মূল্যায়নের প্রধান সুবিধা হল এর পরিমাপযোগ্যতা। মানুষের দ্বারা এক রাউন্ড মূল্যায়নের করতে যে সময় লাগে স্বয়ংক্রিয় মূল্যায়ন একই সময়ে আরও বেশি মূল্যায়ন করতে সক্ষম। যখন দ্রুত অল্প পরিবর্তন করার বা MT সিস্টেম অপ্টিমাইজ করার  দরকার হয়, তখন এটি আদর্শ সমাধান।

স্বয়ংক্রিয় মূল্যায়নের চ্যালেঞ্জ

মানুষ ছাড়া, মেশিন ভাষার বিভিন্ন ব্যবহার পরিচালনা করার জন্য সজ্জিত নয়। স্বয়ংক্রিয় মূল্যায়ন সিস্টেমগুলি একটি রেফারেন্স টেক্সটের সাথে সঠিক মিল থাকা MT ভিত্তিক এবং এর ফলে ছোটখাটো পার্থক্য চূড়ান্ত স্কোরের উপর প্রভাব ফেলতে পারে। এইসব পার্থর্কে মধ্যে মোরফোলজি, প্রতিশব্দের ব্যবহার এবং ব্যাকরণগত ক্রম অন্তর্ভুক্ত।

মানুষ্য মূল্যায়নকারীর দ্বারা প্রযুক্তিগতভাবে বা কম বা বেশি সঠিক বলে বিবেচিত যেকোনো কিছু স্বয়ংক্রিয় মূল্যায়নে ভুল বলে চিহ্নিত হতে পারে। তবুও, সঠিক মিলের সংখ্যা, বিশেষ করে যখন পাঠ্যের একটি বড় নমুনা বিবেচনা করা হয়, তখন স্বয়ংক্রিয় মূল্যায়ন ব্যবহার করার জন্য যথেষ্ট।

স্বয়ংক্রিয় মূল্যায়নের মাপকাঠি

বর্তমানে উপলভ্য বিভিন্ন স্বয়ংক্রিয় মূল্যায়নের ক্ষেত্রে মাপকাঠি আছে। এখানে ব্যবহার করা জন্য কিছু উদাহরণ আছে:

 

·         BLEU (বাইলিঙ্গুয়াল এভালিউশন আন্ডারস্টাডি)

·         NIST (ন্যাশনাল ইনস্টিটিউট অফ স্ট্যান্ডার্ডস অ্যান্ড টেকনোলজি থেকে)

·         METEOR (স্পষ্ট ক্রম সহ অনুবাদের মূল্যায়নের জন্য মাপকাঠি)

·         LEPOR (দৈর্ঘ্য-পেনাল্টি, যথার্থতা, n-gram পজিশন পেনাল্টি এবং রিকল)

·         COMET

·         PRIS

·         TER (ট্রান্সলেশন এরর রেট)

 

প্রতিটি মাপকাঠি বিভিন্ন অ্যালগরিদমে কাজ করে এবং স্বয়ংক্রিয় মূল্যায়নের প্রক্রিয়াকে ভিন্নভাবে পরিচালনা করে। এর মানে হল যে সেগুলোর ভিন্ন শক্তি ও দুর্বলতা রয়েছে এবং সেগুলো কোন ধরনের ত্রুটির জন্য বেশি বা কম পেনাল্টি নির্ধারণ করে তা ভিন্ন।

BLEU, সবচেয়ে জনপ্রিয় মাপকাঠি

উপরে তালিকাভুক্ত সমস্ত মাপকাঠিগুলির মধ্যে BLEU সবচেয়ে বেশি ব্যবহৃত হয়। এটি ছিল মানুষের দ্বারা মূল্যায়নের সঙ্গে উচ্চ স্তরের পারস্পরিক সম্পর্ক অর্জনের প্রথম মাপকাঠিগুলির মধ্যে একটি এবং অনেক ভিন্নতা তৈরি করেছে।

এতে প্রতিটি বাক্যের ক্ষেত্রে উচ্চ মানের রেফারেন্স অনুবাদের সঙ্গে তুলনা করে স্কোর দেওয়া হয়। তারপরে এই স্কোরগুলির গড় করা হয় এবং ফলস্বরূপ যে সংখ্যা পাওয়া যায় তা হল সেই MT সিস্টেমের জন্য চূড়ান্ত BLEU স্কোর। এই স্কোর থেকে জানা যায় MT সিস্টেমের আউটপুট মানুষের রেফারেন্স অনুবাদের সঙ্গে কতটা নিবিড়ভাবে মেলে। এটি হল গুণমানের জন্য মার্কার।

স্কোরগুলো n-grams নামক একক ব্যবহার করে গণনা করা হয়, যা ধারাবাহিক পাঠ্যের অংশগুলিকে নির্দেশ করে। আগের নমুনা বাক্যে ফিরে যাওয়া যাক, উদাহরণস্বরূপ:

The quick brown fox jumped over the lazy dog.

একে বিভিন্ন দৈর্ঘ্যের n-grams-এ ভাগ করা যায়। একটি n-gram, উদাহরণস্বরূপ, "দ্রুত", "দ্রুত বাদামী" বা "বাদামী শিয়াল" হবে। একটি 3-gram হবে "দ্রুত বাদামী" বা "দ্রুত বাদামী শিয়াল"। একটি 4-gram হবে "দ্রুত বাদামী শিয়াল"। ইত্যাদি।

এটি একটি জটিল গাণিতিক প্রক্রিয়া, কিন্তু মৌলিক শর্তে BLEU এর অ্যালগরিদম n-grams-এর মধ্যে ওভারল্যাপের সংখ্যা পরীক্ষা করে স্কোর গণনা করে। গণনা করা স্কোর হবে 0 এবং 1 এর মধ্যে, 1 রেফারেন্স এবং আউটপুট বাক্যের মধ্যে সম্পূর্ণ অভিন্ন মিল নির্দেশ করে। এখন নমুনা বাক্যে নিম্নলিখিত বৈচিত্রটি দেখুন:

দ্রুত বাদামী শিয়াল অলস কুকুরের উপর দিয়ে ঝাঁপিয়ে পড়ল।

"দ্রুত" শব্দটি ব্যতীত সমস্ত n-grams মিলবে। আরেকটি উদাহরণ:

দ্রুত বাদামী শিয়াল কুকুরের উপর দিয়ে ঝাঁপিয়ে পড়ল।

এই উদাহরণে, "অলস" শব্দটি অনুপস্থিত, তাই এটি ওভারল্যাপকে নেতিবাচকভাবে প্রভাবিত করে। উভয় ক্ষেত্রে, BLEU স্কোর এখনও উচ্চ হবে, কিন্তু 1 এর কম।

অনুশীলনে, অনেক বাক্য এই উচ্চ স্তরের পারস্পরিক সম্পর্ক দেখাবে না। যেমন, BLEU স্কোর পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হয়ে ওঠে শুধুমাত্র যখন পাঠ্যের একটি বড় নমুনা বা কর্পোরার প্রেক্ষাপটে ব্যবহার করা হয়।

অবশ্যই, BLEU স্কোর গণনা করার ক্ষেত্রে অন্যান্য কারণ রয়েছে, যেমন অতিরিক্ত শব্দ বা খুব ছোট বাক্যের জন্য পেনাল্টি। অন্যান্য ডেরিভেটিভ স্কোরিং সিস্টেমগুলির ত্রুটির জন্য ব্যবস্থা করা হয়েছে, কিন্তু BLEU রেটিং উচ্চ মানের এবং আজকে MT মূল্যায়নের ক্ষেত্রে সবচেয়ে ব্যাপকভাবে ব্যবহৃত হচ্ছে।

MT মূল্যায়নের চূড়ান্ত সিদ্ধান্ত

এবং সেখানে মেশিন ট্রান্সলেশনের মূল্যায়নের মৌলিক বিষয়গুলি বলা হয়েছে। যেমন আমরা দেখিয়েছি, MT সিস্টেমের মূল্যায়ন মানুষের দ্বারা মূল্যায়ন বা স্বয়ংক্রিয় মূল্যায়নের মাধ্যমে করা যেতে পারে। উভয় প্রক্রিয়ারই সুবিধা এবং অসুবিধা আছে।

মানুষের মূল্যায়ন হল মানের দিক থেকে সেরা মানের, কিন্তু ব্যয়বহুল এবং সময়সাপেক্ষ। স্বয়ংক্রিয় অনুবাদ ততটা সঠিক নয়, তবে এটি দ্রুত এবং পরিমাপযোগ্য। যেমন, উভয় প্রকারেরই তাদের নির্দিষ্ট ব্যবহারের ক্ষেত্র রয়েছে যেখানে সেগুলো ঠিকঠাক কাজ করে।