logo

MachineTranslation.com ได้รับความไว้วางใจจากผู้ใช้นับล้านทั่วโลก และได้ส่งมอบงานแปลคุณภาพสูงไปแล้วหลายพันล้านชิ้นในหลากหลายภาษาและรูปแบบ MachineTranslation.com เป็นโปรแกรมแปลภาษาด้วย AI ฟรีที่สร้างโดย Tomedes เพื่อให้การแปลภาษาด้วย AI เข้าถึงได้ง่าย แม่นยำ และปลอดภัยสำหรับทุกคน แพลตฟอร์มนี้สามารถแปลทั้งข้อความและเอกสารขนาดใหญ่ โดยคงรูปแบบดั้งเดิมไว้ได้ มันใช้ SMART เพื่อให้ได้งานแปลที่น่าเชื่อถือที่สุด โดยการเปรียบเทียบผลลัพธ์จากโมเดล AI ทั้ง 22 โมเดล และเลือกเวอร์ชันที่ AI ส่วนใหญ่เห็นพ้องต้องกันโดยอัตโนมัติ

บริษัท

เกี่ยวกับเรา
ติดต่อเรา
เข้าสู่ระบบ
ลงชื่อ

เมนู

คำถามที่พบบ่อยราคาเอพีไอบล็อกภาษา

ภาษาที่เป็นที่ต้องการ

จีน (ตัวย่อ) เป็น ไทย
ไทย เป็น จีน (ดั้งเดิม)
ไทย เป็น จีน (ตัวย่อ)
ญี่ปุ่น เป็น ไทย
เยอรมัน เป็น ไทย
ไทย เป็น ญี่ปุ่น

บริษัท

เกี่ยวกับเรา
ติดต่อเรา
เข้าสู่ระบบ
ลงชื่อ

เมนู

คำถามที่พบบ่อยราคาเอพีไอบล็อกภาษา

ภาษาที่เป็นที่ต้องการ

จีน (ตัวย่อ) เป็น ไทย
ไทย เป็น จีน (ดั้งเดิม)
ไทย เป็น จีน (ตัวย่อ)
ญี่ปุ่น เป็น ไทย
เยอรมัน เป็น ไทย
ไทย เป็น ญี่ปุ่น
g2iso_certificate_1iso_certificate_2
google_playapple_app
phone_icon
US: +1 985 239 0142 | UK: +44 1615 096140
mail_iconcontact@machinetranslation.com
social iconsocial iconsocial iconsocial icon
Globearrow
search-icon
  • Afrikaans
  • Albanian (Shqip)
  • Amharic (አማርኛ)
  • Arabic (العربية)
  • Belarusian (Беларуская)
  • Bengali (বাংলা)
  • Bosnian (Bosanski)
  • Bulgarian (Български)
  • Burmese (မြန်မာစာ)
  • Catalan (Català)
  • Central Atlas Tamazight (Tamaziɣt)
  • Chinese-Simplified (简体中文)
  • Chinese-Traditional (繁體中文)
  • Croatian (Hrvatski)
  • Czech (Čeština)
  • Danish (Dansk)
  • Dutch (Nederlands)
  • English
  • Esperanto
  • Estonian (Eesti)
  • Filipino (Tagalog)
  • Finnish (Suomi)
  • French (Français)
  • French-Canada (Français-Canada)
  • Galician (Galego)
  • Georgian (ქართული)
  • German (Deutsch)
  • Greek (Ελληνικά)
  • Guarani (Avañe'ẽ)
  • Haitian Creole (Kreyòl Ayisyen)
  • Hausa
  • Hebrew (עברית)
  • Hindi (हिन्दी)
  • Hungarian (Magyar)
  • Icelandic (Íslenska)
  • Igbo
  • Indonesian (Bahasa Indonesia)
  • Italian (Italiano)
  • Japanese (日本語)
  • Khmer (ខ្មែរ)
  • Korean (한국어)
  • Latvian (Latviešu)
  • Lingala (Lingála)
  • Lithuanian (Lietuvių)
  • Malagasy
  • Malay (Bahasa Melayu)
  • Maltese (Malti)
  • Norwegian-Bokmål (Norsk-Bokmål)
  • Oromo (Afaan Oromoo)
  • Polish (Polski)
  • Portuguese-Brazil (Português-Brasil)
  • Portuguese-Portugal (Português-Portugal)
  • Quechua (Runa Simi)
  • Romanian (Română)
  • Russian (Русский)
  • Serbian (Српски)
  • Slovak (Slovenčina)
  • Slovenian (Slovenščina)
  • Somali (Soomaaliga)
  • Spanish (Español)
  • Swahili (Kiswahili)
  • Swedish (Svenska)
  • Tamil (தமிழ்)
  • Thai (ไทย)
  • Tigrinya (ትግርኛ)
  • Tswana (Setswana)
  • Turkish (Türkçe)
  • Ukrainian (Українська)
  • Urdu (اردو)
  • Vietnamese (Tiếng Việt)
  • Wolof
  • Xhosa (IsiXhosa)
  • Yoruba (Yorùbá)
  • Zulu (IsiZulu)

2026 MachineTranslation.com by Tomedes

นโยบายทางกฎหมายนโยบายคุกกี้

May 13, 2024

การประเมินประสิทธิภาพการแปลด้วยเครื่อง: สุดยอดคู่มือ

สมมุติว่าคุณเป็นธุรกิจที่ตัดสินใจลงทุนในระบบการแปลด้วยเครื่อง คุณได้ทำการศึกษาเบื้องต้นมาแล้วและพบว่ามีตัวเลือกมากมายให้เลือก แต่ละคนอ้างว่าได้คะแนนจำนวนหนึ่งตามตัวชี้วัดบางอย่าง แต่คุณไม่รู้ว่าตัวเลขหมายถึงอะไรจริงๆ คุณจะรู้ได้อย่างไรว่าอันไหนเหมาะกับคุณที่สุด?

คุณต้องเข้าใจว่าการประเมินการแปลด้วยเครื่องแปลภาษาทำงานอย่างไร

บทความนี้จะอธิบายเชิงลึกเกี่ยวกับหัวข้อการประเมินการแปลด้วยเครื่องแปลภาษา ซึ่งจะช่วยให้คุณเข้าใจว่ามันคืออะไร ทำไมคุณถึงต้องการ และการประเมินประเภทต่างๆ เพื่อช่วยให้คุณตัดสินใจได้อย่างมีข้อมูลที่ครบถ้วน เมื่อต้องเลือกระบบ MT ที่จะลงทุน

คำแนะนำ: การประเมินการแปลด้วยเครื่องแปลภาษาคืออะไร

การประเมินการแปลด้วยเครื่องแปลภาษาหมายถึงกระบวนการต่างๆ ในการวัดประสิทธิภาพของระบบการแปลด้วยเครื่องแปลภาษา

เป็นวิธีในการให้คะแนนคุณภาพของ MT เพื่อให้ทราบว่า ระบบดีแค่ไหน และมีพื้นฐานที่ชัดเจนในการเปรียบเทียบระบบ MT ที่แตกต่างกัน มีประสิทธิภาพมากน้อยเพียงใด ในการทำเช่นนี้ การประเมินการแปลด้วยเครื่องแปลภาษาจะใช้การวัดผลเชิงปริมาณ

ทำไมการวัดผลการประเมินการแปลด้วยเครื่องแปลภาษาจึงมีความสำคัญ?

มีเหตุผลหลักสองประการว่าทำไมต้องทำการประเมินประสิทธิภาพของระบบ MT ประการแรกคือตรวจสอบว่าดีพอสำหรับการใช้งานในโลกแห่งความเป็นจริงหรือไม่ ประการที่สองคือทำหน้าที่เป็นแนวทางในการวิจัยและพัฒนา

เพื่อตรวจสอบว่าดีพอสำหรับการใช้งานในโลกแห่งความเป็นจริงหรือไม่

ประการแรก แน่นอนว่าคือการพิจารณาว่าระบบ MT ทำงานในระดับที่ดีพอสำหรับการใช้งานจริงหรือไม่ นี่คือเหตุผลที่มีความเกี่ยวข้องโดยตรงกับผู้ใช้ปลายทางมากที่สุด หากระบบการแปลด้วยเครื่องทำงานได้ไม่ดี ผู้ใช้มีแนวโน้มที่จะเลือกสิ่งอื่นมากขึ้น

ภาคอุตสาหกรรมที่ใช้ MT ยังต้องการตัวชี้วัดที่เป็นรูปธรรมสำหรับการตัดสินใจเลือกใช้ระบบ MTท้ายที่สุด MT คือการลงทุน และธุรกิจจำเป็นต้องได้รับความคุ้มค่าสูงสุดจากเงินที่เสียไป

ดังนั้น นักพัฒนา MT จึงต้องประเมินว่าคุณภาพของระบบการแปลด้วยเครื่องแปลภาษานั้นดีพอที่จะส่งไปยังลูกค้าหรือไม่

เพื่อเป็นแนวทางในการวิจัยและพัฒนา

ตามหลักการแล้วระบบ MT ไม่ใช่เอนทิตีแบบคงที่ เทคโนโลยีสำหรับ MT กำลังปรับปรุงอย่างต่อเนื่องเมื่อเวลาผ่านไป มันสมเหตุสมผลแล้วที่ระบบ MT ควรถูกคาดหวังให้ปรับปรุงคุณภาพเช่นกัน

นี่คือที่มาของการวิจัย และนักวิจัยจำเป็นต้องมีคำแนะนำเกี่ยวกับสิ่งที่ควรมองหา ตัวชี้วัดได้ช่วยให้นักวิจัยสามารถเปรียบเทียบได้ว่าแนวทางใดแนวทางหนึ่งดีกว่าวิธีอื่นหรือไม่ ซึ่งช่วยให้พวกเขาปรับแต่งระบบได้อย่างละเอียด

สิ่งนี้เป็นสิ่งที่ดีอย่างยิ่งสำหรับการดูว่าระบบจัดการกับข้อผิดพลาดในการแปลที่สอดคล้องกันอย่างไร การมีเมตริกที่วัดได้สามารถแสดงให้เห็นในการตั้งค่าที่ควบคุมได้มากขึ้นว่าวิธีการใดวิธีหนึ่งสามารถจัดการกับข้อผิดพลาดประเภทนี้ได้หรือไม่

คุณประเมินความสำเร็จของการแปลด้วยเครื่องแปลภาษาอย่างไร

มีสองวิธีที่แตกต่างกันในการตรวจสอบว่าระบบ MT ทำงานได้ดีเพียงใด การประเมินด้วยมนุษย์ทำโดยผู้เชี่ยวชาญที่เป็นมนุษย์ที่ทำการประเมินด้วยตนเอง ในขณะที่การประเมินอัตโนมัติใช้ตัวชี้วัด AI ที่พัฒนาขึ้นเป็นพิเศษสำหรับการประเมินคุณภาพการแปลโดยไม่ต้องมีการแทรกแซงจากมนุษย์ แต่ละอย่างมีข้อดีและข้อเสียเราจะดูรายละเอียดเพิ่มเติมเกี่ยวกับการประเมิน MT ทั้งสองประเภทในส่วนต่อมาของบทความนี้ แต่ก่อนอื่น นี่คือภาพรวมโดยย่อของการประเมินการแปลด้วยเครื่องแปลภาษาทั้งสองประเภท รวมถึงแนวทางในการประเมิน MT ที่ใช้ประโยชน์การจาการประเมินนั้น

การประเมินด้วยมนุษย์เปรียบเทียบกับการประเมินอัตโนมัติ

การประเมินการแปลด้วยเครื่องแปลภาษาด้วยมนุษย์หมายถึงการประเมินคุณภาพการแปลโดยนักแปลมืออาชีพที่เป็นมนุษย์์ นี่เป็นตัวเลือกที่มีประสิทธิภาพมากที่สุดเมื่อพูดถึงการกำหนดคุณภาพของการแปลด้วยเครื่องแปลภาษาจนถึงระดับประโยค แต่การประเมินของมนุษย์ก็เหมือนกับการแปลโดยมนุษย์ โดยปกติแล้วจะมีราคาแพงกว่าและใช้เวลานานกว่า

ในทางกลับกันการประเมินอัตโนมัติจะใช้โปรแกรมที่สร้างขึ้นโดยเฉพาะเพื่อประเมินคุณภาพของการแปลด้วยเครื่องแปลภาษาตามวิธีการต่างๆ ซึ่งไม่น่าเชื่อถือเท่ากับการประเมินด้วยมนุษย์ในระดับประโยค แต่เป็นตัวเลือกสำหรับปริมาณงานจำนวนมากเมื่อต้องประเมินคุณภาพโดยรวมของการแปลในเอกสารหลายฉบับ

แนวทางในการประเมิน MT

แนวทางในการประเมินการแปลด้วยเครื่องแปลภาษานั้นขึ้นอยู่กับแนวคิดของรายละเอียด นั่นคือระดับต่างๆ ที่การให้คะแนนอาจถือว่ามีนัยสำคัญ

แนวทางตามประโยค ภายใต้แนวทางนี้ แต่ละประโยคจะได้รับคะแนนบอกว่าการแปลนั้นดี (1) หรือไม่ดี (0) และรวมเป็นค่าเฉลี่ย โดยทั่วไปมักทำในการประเมินด้วยมนุษย์

แนวทางตามเอกสาร หรือที่เรียกว่าแนวทางการใช้คลังข้อมูล ประโยคต่างๆ จะได้รับคะแนนเช่นกัน แต่คะแนนที่มีนัยสำคัญคือคะแนนรวมหรือค่าเฉลี่ยของเอกสารชุดใหญ่ นี่เป็นระดับที่เล็กที่สุดที่การประเมิน MT แบบอัตโนมัติถือได้ว่ามีความสำคัญเนื่องจากขึ้นอยู่กับสถิติจากชุดข้อมูลจำนวนมาก

แนวทางตามบริบท แนวทางนี้แตกต่างจากแนวทางก่อนหน้านี้ เนื่องจากสิ่งที่ต้องคำนึงถึงคืองาน MT โดยรวมนั้นเหมาะกับวัตถุประสงค์ที่นำไปใช้ได้ดีเพียงใด แทนที่จะใช้คะแนนเฉลี่ยตามประโยค ดังนั้น จึงอาจถือเป็นแนวทางแบบองค์รวมในการประเมิน MT

ความท้าทายในการประเมินการแปลเครื่องแปลภาษา

การประเมินการแปลด้วยเครื่องแปลภาษาเป็นกระบวนการที่ยากลำบาก เนื่องจากภาษาเป็นสิ่งที่ซับซ้อนมาก

ประการแรก สามารถมีคำแปลที่ถูกต้องได้หลายคำแปล ยกตัวอย่างเช่นประโยคต่อไปนี้:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

ระบบ MT อาจสร้างการแปลต่อไปนี้แทน:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโจนเข้าหาสุนัขที่เกียจคร้าน

นี่เป็นการแปลที่ถูกต้องทางเทคนิค และในการประเมินด้วยมนุษย์โดยปกติแล้วจะมีการทำเครื่องหมายไว้เช่นนั้นแต่ในการประเมินอัตโนมัต ิมันจะถูกทำเครื่องหมายว่าไม่ถูกต้อง

รายละเอียดเล็กๆ น้อยๆ สามารถเปลี่ยนความหมายของประโยคได้อย่างสมบูรณ์

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดขึ้นมาบนสุนัขที่เกียจคร้าน

มีเพียงคำเดียวที่เปลี่ยนไปแต่คำเดียวนั้นเปลี่ยนความหมายของประโยคอย่างสมบูรณ์ การประเมินอัตโนมัติมีแนวโน้มที่จะทำเครื่องหมายได้สูงกว่าตัวอย่างก่อนหน้า นักแปลที่เป็นมนุษย์มีแนวโน้มที่จะตรวจพบข้อผิดพลาด แต่บางคนอาจคิดว่าถูกต้องแล้ว

และนั่นเป็นเพราะภาษาอาจเป็นเรื่องของแต่ละบุคคลได้ แม้แต่ผู้ประเมินที่เป็นมนุษย์ก็สามารถตัดสินว่าการแปลนั้นดีหรือไม่ได้แตกต่างกัน

การประเมินด้วยมนุษย์: มาตรฐานทองคำ

ตอนนี้เราได้อธิบายพื้นฐานไปแล้ว เรามาดูการประเมิน MT สองประเภทในเชิงลึกกันดีกว่า โดยเริ่มจากการประเมินด้วยมนุษย์

ในระดับพื้นฐานที่สุด เป้าหมายของการแปลด้วยเครื่องแปลภาษา คือการแปลข้อความจากภาษาต้นฉบับเป็นภาษาเป้าหมายในระดับที่มนุษย์สามารถเข้าใจได้ ด้วยเหตุนี้ มนุษย์จึงเป็นจุดอ้างอิงที่ดีที่สุดสำหรับการประเมินคุณภาพของการแปลด้วยเครื่องแปลภาษา

ประเภทของการประเมินด้วยมนุษย์

การประเมินของมนุษย์มีหลายวิธีที่แตกต่างกันซึ่งเราจะพิจารณาตอนนี้:

การประเมินโดยตรง

นี่คือการประเมินด้วยมนุษย์ที่ง่ายที่สุด ผลลัพธ์การแปลด้วยเครื่องแปลภาษาจะถูกให้คะแนนในระดับประโยค

ความท้าทายในการประเมินโดยตรงคือผู้ประเมินจะใช้วิจารณาณในการให้คะแนนที่แตกต่างกันอย่างมากบางคนอาจมีแนวโน้มในการใช้เกณฑ์ที่เข้มงวดในการให้คะแนน โดยทำเครื่องหมายการแปลว่าแย่มากหรือดีมาก คนอื่นๆ อาจใช้แบบอนุรักษ์นิยมมากขึ้น โดยทำเครื่องหมายประโยคเดียวกันด้วยคะแนนใกล้กับตรงกลาง

ความท้าทายอีกประการหนึ่งคือเรื่องของแต่ละบุคคลในการตัดสินว่าประโยคนั้นเป็นการแปลที่แย่หรือไม่ ผู้ประเมินจำเป็นต้องตัดสินใจเกี่ยวกับภาษาที่คลุมเครือ กลับไปที่ประโยคตัวอย่าง:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามหมาที่เกียจคร้าน

ในที่นี้ หมาไม่จำเป็นต้องผิด แต่ก็ไม่เหมาะสมที่สุดเช่นกัน ผู้ประเมินบางคนอาจคิดว่าการแปลนี้ดีแล้ว ในขณะที่บางคนอาจระบุว่าผิดโดยสิ้นเชิง ตัวอย่างเช่น หากการให้คะแนนเป็น 5 คะแนน นักแปลบางคนอาจให้ 4 คะแนน ในขณะที่อีกคนอาจให้เพียงแค่ 2 คะแนน

ความท้าทายเหล่านี้สามารถชดเชยได้ด้วยการจ้างกลุ่มผู้ประเมินจำนวนมากขึ้น ซึ่งจะช่วยให้คะแนนได้รับการปรับให้เป็นมาตรฐานตามเงื่อนไขทางสถิติ

การจัดอันดับ

อีกวิธีหนึ่งในการประเมินระบบการแปลด้วยเครื่องแปลภาษาผ่านการประเมินด้วยมนุษย์คือการจัดอันดับ

ในกรณีนี้ ผู้ประเมินไม่ได้ให้คะแนนเป็นรายประโยค แต่จะเปรียบเทียบระหว่างการแปลจากระบบ MT ที่แตกต่างกันแทน จากนั้นพวกเขาจะตัดสินใจว่าการแปลแบบไหนดีที่สุด แบบไหนดีเป็นอันดับสอง และอื่นๆ

ข้อดีของวิธีนี้ที่เหนือกว่าการประเมินโดยตรง คือให้การเปรียบเทียบโดยตรงในทันที ซึ่งตรงกันข้ามกับการเปรียบเทียบคะแนนที่สร้างขึ้นจากการทดลองที่แตกต่างกันและอาจเป็นไปได้โดยผู้ประเมินที่แตกต่างกัน

อย่างไรก็ตาม ยังคงประสบปัญหาจากความท้าทายในเรื่องของแต่ละบุคคล ระบบ MT ที่แตกต่างกันมีแนวโน้มที่จะเกิดข้อผิดพลาดที่แตกต่างกัน ตัวอย่างเช่น

จิ้งจอกสีเขียวที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

จิ้งจอกน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดเหนือสุนัขที่เกียจคร้าน

แต่ละประโยคมีข้อผิดพลาดง่ายๆ ข้อแรกคือการแปลผิด ข้อที่สองคือละเว้นคำข้อที่สามคือคำกริยาเรื่องกาลเวลาขาดหายไป

ตอนนี้ผู้ประเมินต้องตัดสินใจว่าข้อผิดพลาดใดมีความสำคัญกว่าข้อผิดพลาดอื่น และอีกครั้งผู้ประเมินอาจมีความคิดเห็นที่แตกต่างกันในเรื่องนี้

ความพยายามในการแก้ไขการแปลด้วยมนุษย์

หากวัตถุประสงค์ของผู้ใช้ระบบ MT คือการเตรียมเอกสารสำหรับการแก้ไขการแปลด้วยมนุษย์ ยังมีวิธีการประเมินตามปริมาณความพยายามที่ต้องใช้ในการแก้ไขการแปลด้วยมนุษย์

วัตถุประสงค์พื้นฐานของการแก้ไขการแปลด้วยมนุษย์คือเพื่อให้นักแปลสามารถทำงานได้เร็วกว่าการแปลข้อความตั้งแต่เริ่มต้น ด้วยเหตุนี้ วิธีที่ง่ายที่สุดในการประเมินระบบ MT สำหรับการแก้ไขการแปลด้วยมนุษย์ คือการวัดเวลาที่นักแปลใช้ในการแก้ไขผลลัพธ์ที่แปลด้วยเครื่องแปลภาษา

อีกวิธีในการวัดความพยายามการแก้ไขการแปลด้วยมนุษย์คือการรวบรวมจำนวนจังหวะบนแป้นพิมพ์ที่ต้องใช้ในการแทนที่ข้อความที่แปลด้วยเครื่องแปลภาษาด้วยการแปลโดยอ้างอิงการแปลของมนุษย์ สิ่งนี้เป็นอิสระจากข้อจำกัดด้านเวลา แต่ยังไม่คำนึงถึงความเป็นไปได้ของการแปลที่ถูกต้องหลายรายการ

การประเมินตามงาน

จากนั้นจะมีการประเมินตามงาน ซึ่งตามชื่อ จะมีการประเมินระบบ MT ตามความเหมาะสมกับงานที่มีอยู่ตัวอย่างเช่น หากมีการใช้ในการตั้งค่าการสัมมนาผ่านเว็บหลายภาษา ผู้เข้าร่วมอาจถูกขอให้คะแนนประสบการณ์ของพวกเขาเกี่ยวกับข้อความถอดเสียงที่แปลด้วยเครื่องแปลภาษา ซึ่งหมายความว่าพวกเขากำลังประเมินความสำเร็จของระบบ MT โดยรวม

ปัญหาเกี่ยวกับแนวทางนี้คือเปิดให้มีการนำองค์ประกอบอื่นๆ ที่ไม่สามารถควบคุมได้มาใช้ ซึ่งอาจส่งผลต่อคะแนนที่ผู้ประเมินให้คะแนน ด้วยเหตุนี้ การใช้การประเมินตามงานจึงขึ้นอยู่กับสถานการณ์

ความท้าทายทั่วไปในการประเมินด้วยมนุษย์

อย่างที่คุณอาจเห็น การประเมิน MT ด้วยมนุษย์ประเภทต่างๆ มาพร้อมกับความท้าทายในตัวเอง นอกจากนี้ยังมีความท้าทายบางอย่างที่พวกเขาแบ่งปันในวงกว้าง และเกี่ยวข้องกับความสอดคล้องหรือข้อตกลง

ข้อตกลงระหว่างคำอธิบายประกอบ

นี่หมายถึงความสอดคล้องของคะแนนระหว่างผู้ประเมินที่แตกต่างกัน ดังที่เราได้กล่าวไว้ก่อนหน้านี้ ผู้ประเมินที่แตกต่างกันจะมีแนวโน้มที่แตกต่างกันในวิธีที่พวกเขาให้คะแนนข้อความเดียวกัน บางคนอาจให้คะแนนที่สุดขั้วหรือไปทางสายกลาง เมื่อจัดอันดับเครื่องแปลภาษา MT ที่แตกต่างกัน ความคิดเห็นของพวกเขาอาจแตกต่างกันไปด้วยเช่นกัน นี่คือสาเหตุว่าทำไมการมีผู้ประเมินหลายคนจึงเป็นเรื่องสำคัญ เพื่อให้การกระจายคะแนนเป็นมาตรฐาน

ข้อตกลงภายในผู้อธิบายประกอบ

วิธีที่ผู้ประเมินคนเดียวให้คะแนนข้อความก็เป็นตัววัดความถูกต้องเช่นกัน ผู้ประเมินอาจให้คะแนนประโยคดีหรือไม่ดีในครั้งแรก แต่พวกเขาอาจเปลี่ยนใจเมื่อทำการทดสอบเดิมซ้ำอีกรอบ การมีข้อตกลงภายในผู้อธิบายประกอบที่มีการวัดผลสูงทำให้มั่นใจได้ว่าผู้ประเมินที่เลือกสามารถจะถือว่ามีความสอดคล้องและเชื่อถือได้

การประเมินอัตโนมัติ: ตัวเลือกที่เหมาะกับปริมาณงานจำนวนมาก

การประเมินด้วยมนุษย์ถือเป็นมาตรฐานทองคำเมื่อพูดถึงการประเมินคุณภาพของการแปลด้วยเครื่องแปลภาษา อย่างไรก็ตาม มันเป็นความพยายามที่มีค่าใช้จ่ายสูงทั้งในด้านของความพยายามและเวลา นี่คือเหตุผลที่นักวิจัยในสาขานี้ได้พัฒนาวิธีการต่างๆ ในการประเมินคุณภาพ MT ผ่านกระบวนการอัตโนมัติ

กระบวนการเหล่านี้ได้รับการออกแบบมาเพื่อประมาณวิธีที่มนุษย์จะประเมินระบบ MTแน่นอนว่ายังห่างไกลจากความสมบูรณ์แบบในเรื่องนี้ แต่การประเมินอัตโนมัติยังคงมีกรณีการใช้งานที่สำคัญมาก

ข้อได้เปรียบหลักของการประเมินอัตโนมัติที่เหนือกว่าการประเมินของมนุษย์คือความสามารถในการทำงานในปริมาณงานจำนวนมาก การประเมินอัตโนมัติทีละหลายร้อยตัวอย่างมีความเร็วกว่าการประเมินด้วยมนุษย์หนึ่งรอบ ซึ่งทำให้การประเมินรูปแบบนี้เป็นโซลูชันในอุดมคติสำหรับการปรับแต่งหรือเพิ่มประสิทธิภาพระบบ MT ซึ่งต้องการผลลัพธ์ที่รวดเร็ว

ความท้าทายในการประเมินอัตโนมัติ

ซึ่งแตกต่างจากการประเมินโดยมนุษย์ เครื่องแปลภาษาไม่ได้ถูกออกแบบมาเพื่อจัดการกับความแตกต่างของการใช้ภาษา ระบบการประเมินอัตโนมัติขึ้นอยู่กับ MT ที่มีการจับคู่กับข้อความอ้างอิงอย่างแน่นอน และความแตกต่างเล็กน้อยอาจส่งผลกระทบต่อคะแนนสุดท้าย ความแตกต่างเหล่านี้อาจรวมถึงการเบี่ยงเบนในสัณฐานวิทยา การใช้คำพ้องความหมาย และลำดับไวยากรณ์

อะไรก็ตามที่การประเมินด้วยมนุษย์ถือว่าถูกต้องทางเทคนิคอาจถูกลงโทษในการประเมินอัตโนมัติไม่มากก็น้อย อย่างไรก็ตาม จำนวนการจับคู่ที่แน่นอน โดยเฉพาะอย่างยิ่งเมื่อพิจารณาตัวอย่างข้อความขนาดใหญ่ มักเพียงพอที่จะทำให้การประเมินอัตโนมัติสามารถนำมาใช้งานได้จริง

เมตริกการประเมินอัตโนมัติ

มีเมตริกการประเมินอัตโนมัติที่แตกต่างกันจำนวนมากในปัจจุบัน นี่คือตัวอย่างของบางเมตริกที่ใช้:

 

●      BLEU (การศึกษาการประเมินสองภาษา)

●      NIST (จากสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ)

●      METEOR (เมตริกสำหรับการประเมินการแปลภาษาด้วยการเรียงลำดับอย่างชัดเจน)

●      LEPOR (บทลงโทษความยาว, ความแม่นยำ, บทลงโทษความแตกต่างของตำแหน่ง n-gram และการเรียกคืน)

●      COMET 

●      PRIS

●      TER (อัตราข้อผิดพลาดในการแปลภาษา)

แต่ละเมตริกทำงานบนอัลกอริทึมที่แตกต่างกันและมีกระบวนการประเมินอัตโนมัติที่แตกต่างกัน นั่นหมายความว่า แต่ละเมตริกมีจุดแข็งและจุดอ่อนที่แตกต่างกัน และมีความแตกต่างกันในแง่ของการให้บทลงโทษที่สูงขึ้นหรือต่ำกว่าสำหรับประเภทของข้อผิดพลาดที่ต่างกันด้วย

BLEU ตัวชี้วัดที่ได้รับความนิยมมากที่สุด

ในบรรดาเมตริกทั้งหมดที่ระบุไว้ข้างต้น BLEU เป็นตัวชี้วัดที่นิยมใช้กันอย่างแพร่หลายเป็นหนึ่งในเมตริกแรกที่สามารถเชื่อมโยงความสัมพันธ์ระดับสูงในการประเมินด้วยมนุษย์ ซึ่งก่อให้เกิดรูปแบบการแปลภาษาที่แตกต่างกันมากมาย

วิธีการทำงานคือ แต่ละประโยคจะได้รับคะแนนเมื่อเทียบกับชุดคำแปลอ้างอิงที่มีคุณภาพสูง จากนั้นคะแนนเหล่านี้จะถูกประเมินเฉลี่ย และจำนวนผลลัพธ์คือคะแนน BLEU สุดท้ายสำหรับระบบ MT นั้นๆคะแนนนี้แสดงถึงผลลัพธ์ของระบบ MT ว่าตรงกับการแปลอ้างอิงของมนุษย์มากน้อยเพียงใด ซึ่งเป็นสิ่งที่บ่งบอกถึงคุณภาพ

คะแนนถูกคำนวณโดยใช้หน่วยที่เรียกว่า n-gram ซึ่งหมายถึงส่วนของข้อความติดต่อกัน กลับไปที่ประโยคตัวอย่างก่อนหน้า ตัวอย่างเช่น:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

ซึ่งสามารถแบ่งออกเป็น n-gram ที่มีความยาวต่างกัน ตัวอย่างเช่น 2-gram จะเป็น “ที่รวดเร็ว”, “สีน้ำตาลที่รวดเร็ว” หรือ “จิ้งจอกสีน้ำตาล” 3-gram จะเป็น “สีน้ำตาลที่รวดเร็ว” หรือ “จิ้งจอกสีน้ำตาลที่รวดเร็ว” 4-gram จะเป็น “จิ้งจอกสีน้ำตาลที่รวดเร็ว” และอื่นๆ

เป็นกระบวนการทางคณิตศาสตร์ที่ซับซ้อน แต่ในแง่พื้นฐาน อัลกอริทึมของ BLEU จะคำนวณคะแนนโดยตรวจสอบจำนวนการทับซ้อนระหว่าง n-grams คะแนนที่คำนวณจะอยู่ระหว่าง 0 ถึง 1 โดยที่ 1 แสดงถึงการจับคู่ที่เหมือนกันอย่างสมบูรณ์ระหว่างประโยคอ้างอิงและประโยคผลลัพธ์การแปลลองใช้รูปแบบต่อไปนี้ในประโยคตัวอย่าง:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

n-grams ทั้งหมดจะตรงกันยกเว้นที่มีคำว่า “รวดเร็ว” อีกตัวอย่างหนึ่ง:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัข

ในตัวอย่างนี้คำว่า “เกียจคร้าน” หายไปดังนั้นจึงส่งผลต่อการทับซ้อนกันในทางลบ ในทั้งสองกรณี คะแนน BLEU จะยังคงสูง แต่ก็ยังน้อยกว่า 1

ในทางปฏิบัติ มักไม่ค่อยมีประโยคจำนวนมากนักที่จะแสดงความสัมพันธ์ในระดับสูงแบบนี้ ดังนั้น คะแนน BLEU จึงมีความสำคัญทางสถิติเฉพาะเมื่อนำมาใช้ในบริบทของตัวอย่างข้อความหรือคลังข้อความขนาดใหญ่เท่านั้น

แน่นอนว่ามีปัจจัยอื่น ๆ ที่ใช้ในการคำนวณคะแนน BLEU เช่นบทลงโทษสำหรับคำพิเศษหรือประโยคที่สั้นมาก ระบบการให้คะแนนแบบอนุพันธ์อื่น ๆ ได้รับการพัฒนาเพื่อชดเชยข้อบกพร่อง แต่ BLEU ยังคงได้รับการประเมินในระดับสูงและยังคงเป็นระบบประเมินผล MT ที่ใช้กันอย่างแพร่หลายที่สุดในปัจจุบัน

คำสุดท้ายของการประเมิน MT

และครอบคลุมพื้นฐานของการประเมินการแปลด้วยเครื่องแปลภาษา ดังที่เราได้แสดงให้เห็นการประเมินระบบ MT สามารถทำได้ผ่านการประเมินด้วยมนุษย์หรือการประเมินอัตโนมัติ กระบวนการทั้งสองมีทั้งข้อดีและข้อเสีย

การประเมินด้วยมนุษย์เป็นมาตรฐานที่ควรยึดถือไว้ในแง่ของคุณภาพ แต่มีราคาแพงและใช้เวลานาน การแปลอัตโนมัติมักไม่ถูกต้อง แต่รวดเร็วและเหมาะกับปริมาณงานจำนวนมากดังนั้นการประเมินทั้งสองประเภทจึงเหมาะสมกับงานที่เฉพาะเจาะจงที่แตกต่างกันเพื่อให้มีประสิทธิภาพการทำงานสูงสุด