May 13, 2024

การประเมินประสิทธิภาพการแปลด้วยเครื่อง: สุดยอดคู่มือ

สมมุติว่าคุณเป็นธุรกิจที่ตัดสินใจลงทุนในระบบการแปลด้วยเครื่อง คุณได้ทำการศึกษาเบื้องต้นมาแล้วและพบว่ามีตัวเลือกมากมายให้เลือก แต่ละคนอ้างว่าได้คะแนนจำนวนหนึ่งตามตัวชี้วัดบางอย่าง แต่คุณไม่รู้ว่าตัวเลขหมายถึงอะไรจริงๆ คุณจะรู้ได้อย่างไรว่าอันไหนเหมาะกับคุณที่สุด?

คุณต้องเข้าใจว่าการประเมินการแปลด้วยเครื่องแปลภาษาทำงานอย่างไร

บทความนี้จะอธิบายเชิงลึกเกี่ยวกับหัวข้อการประเมินการแปลด้วยเครื่องแปลภาษา ซึ่งจะช่วยให้คุณเข้าใจว่ามันคืออะไร ทำไมคุณถึงต้องการ และการประเมินประเภทต่างๆ เพื่อช่วยให้คุณตัดสินใจได้อย่างมีข้อมูลที่ครบถ้วน เมื่อต้องเลือกระบบ MT ที่จะลงทุน

คำแนะนำ: การประเมินการแปลด้วยเครื่องแปลภาษาคืออะไร

การประเมินการแปลด้วยเครื่องแปลภาษาหมายถึงกระบวนการต่างๆ ในการวัดประสิทธิภาพของระบบการแปลด้วยเครื่องแปลภาษา

เป็นวิธีในการให้คะแนนคุณภาพของ MT เพื่อให้ทราบว่า ระบบดีแค่ไหน และมีพื้นฐานที่ชัดเจนในการเปรียบเทียบระบบ MT ที่แตกต่างกัน มีประสิทธิภาพมากน้อยเพียงใด ในการทำเช่นนี้ การประเมินการแปลด้วยเครื่องแปลภาษาจะใช้การวัดผลเชิงปริมาณ

ทำไมการวัดผลการประเมินการแปลด้วยเครื่องแปลภาษาจึงมีความสำคัญ?

มีเหตุผลหลักสองประการว่าทำไมต้องทำการประเมินประสิทธิภาพของระบบ MT ประการแรกคือตรวจสอบว่าดีพอสำหรับการใช้งานในโลกแห่งความเป็นจริงหรือไม่ ประการที่สองคือทำหน้าที่เป็นแนวทางในการวิจัยและพัฒนา

เพื่อตรวจสอบว่าดีพอสำหรับการใช้งานในโลกแห่งความเป็นจริงหรือไม่

ประการแรก แน่นอนว่าคือการพิจารณาว่าระบบ MT ทำงานในระดับที่ดีพอสำหรับการใช้งานจริงหรือไม่ นี่คือเหตุผลที่มีความเกี่ยวข้องโดยตรงกับผู้ใช้ปลายทางมากที่สุด หากระบบการแปลด้วยเครื่องทำงานได้ไม่ดี ผู้ใช้มีแนวโน้มที่จะเลือกสิ่งอื่นมากขึ้น

ภาคอุตสาหกรรมที่ใช้ MT ยังต้องการตัวชี้วัดที่เป็นรูปธรรมสำหรับการตัดสินใจเลือกใช้ระบบ MTท้ายที่สุด MT คือการลงทุน และธุรกิจจำเป็นต้องได้รับความคุ้มค่าสูงสุดจากเงินที่เสียไป

ดังนั้น นักพัฒนา MT จึงต้องประเมินว่าคุณภาพของระบบการแปลด้วยเครื่องแปลภาษานั้นดีพอที่จะส่งไปยังลูกค้าหรือไม่

เพื่อเป็นแนวทางในการวิจัยและพัฒนา

ตามหลักการแล้วระบบ MT ไม่ใช่เอนทิตีแบบคงที่ เทคโนโลยีสำหรับ MT กำลังปรับปรุงอย่างต่อเนื่องเมื่อเวลาผ่านไป มันสมเหตุสมผลแล้วที่ระบบ MT ควรถูกคาดหวังให้ปรับปรุงคุณภาพเช่นกัน

นี่คือที่มาของการวิจัย และนักวิจัยจำเป็นต้องมีคำแนะนำเกี่ยวกับสิ่งที่ควรมองหา ตัวชี้วัดได้ช่วยให้นักวิจัยสามารถเปรียบเทียบได้ว่าแนวทางใดแนวทางหนึ่งดีกว่าวิธีอื่นหรือไม่ ซึ่งช่วยให้พวกเขาปรับแต่งระบบได้อย่างละเอียด

สิ่งนี้เป็นสิ่งที่ดีอย่างยิ่งสำหรับการดูว่าระบบจัดการกับข้อผิดพลาดในการแปลที่สอดคล้องกันอย่างไร การมีเมตริกที่วัดได้สามารถแสดงให้เห็นในการตั้งค่าที่ควบคุมได้มากขึ้นว่าวิธีการใดวิธีหนึ่งสามารถจัดการกับข้อผิดพลาดประเภทนี้ได้หรือไม่

คุณประเมินความสำเร็จของการแปลด้วยเครื่องแปลภาษาอย่างไร

มีสองวิธีที่แตกต่างกันในการตรวจสอบว่าระบบ MT ทำงานได้ดีเพียงใด การประเมินด้วยมนุษย์ทำโดยผู้เชี่ยวชาญที่เป็นมนุษย์ที่ทำการประเมินด้วยตนเอง ในขณะที่การประเมินอัตโนมัติใช้ตัวชี้วัด AI ที่พัฒนาขึ้นเป็นพิเศษสำหรับการประเมินคุณภาพการแปลโดยไม่ต้องมีการแทรกแซงจากมนุษย์ แต่ละอย่างมีข้อดีและข้อเสียเราจะดูรายละเอียดเพิ่มเติมเกี่ยวกับการประเมิน MT ทั้งสองประเภทในส่วนต่อมาของบทความนี้ แต่ก่อนอื่น นี่คือภาพรวมโดยย่อของการประเมินการแปลด้วยเครื่องแปลภาษาทั้งสองประเภท รวมถึงแนวทางในการประเมิน MT ที่ใช้ประโยชน์การจาการประเมินนั้น

การประเมินด้วยมนุษย์เปรียบเทียบกับการประเมินอัตโนมัติ

การประเมินการแปลด้วยเครื่องแปลภาษาด้วยมนุษย์หมายถึงการประเมินคุณภาพการแปลโดยนักแปลมืออาชีพที่เป็นมนุษย์์ นี่เป็นตัวเลือกที่มีประสิทธิภาพมากที่สุดเมื่อพูดถึงการกำหนดคุณภาพของการแปลด้วยเครื่องแปลภาษาจนถึงระดับประโยค แต่การประเมินของมนุษย์ก็เหมือนกับการแปลโดยมนุษย์ โดยปกติแล้วจะมีราคาแพงกว่าและใช้เวลานานกว่า

ในทางกลับกันการประเมินอัตโนมัติจะใช้โปรแกรมที่สร้างขึ้นโดยเฉพาะเพื่อประเมินคุณภาพของการแปลด้วยเครื่องแปลภาษาตามวิธีการต่างๆ ซึ่งไม่น่าเชื่อถือเท่ากับการประเมินด้วยมนุษย์ในระดับประโยค แต่เป็นตัวเลือกสำหรับปริมาณงานจำนวนมากเมื่อต้องประเมินคุณภาพโดยรวมของการแปลในเอกสารหลายฉบับ

แนวทางในการประเมิน MT

แนวทางในการประเมินการแปลด้วยเครื่องแปลภาษานั้นขึ้นอยู่กับแนวคิดของรายละเอียด นั่นคือระดับต่างๆ ที่การให้คะแนนอาจถือว่ามีนัยสำคัญ

แนวทางตามประโยค ภายใต้แนวทางนี้ แต่ละประโยคจะได้รับคะแนนบอกว่าการแปลนั้นดี (1) หรือไม่ดี (0) และรวมเป็นค่าเฉลี่ย โดยทั่วไปมักทำในการประเมินด้วยมนุษย์

แนวทางตามเอกสาร หรือที่เรียกว่าแนวทางการใช้คลังข้อมูล ประโยคต่างๆ จะได้รับคะแนนเช่นกัน แต่คะแนนที่มีนัยสำคัญคือคะแนนรวมหรือค่าเฉลี่ยของเอกสารชุดใหญ่ นี่เป็นระดับที่เล็กที่สุดที่การประเมิน MT แบบอัตโนมัติถือได้ว่ามีความสำคัญเนื่องจากขึ้นอยู่กับสถิติจากชุดข้อมูลจำนวนมาก

แนวทางตามบริบท แนวทางนี้แตกต่างจากแนวทางก่อนหน้านี้ เนื่องจากสิ่งที่ต้องคำนึงถึงคืองาน MT โดยรวมนั้นเหมาะกับวัตถุประสงค์ที่นำไปใช้ได้ดีเพียงใด แทนที่จะใช้คะแนนเฉลี่ยตามประโยค ดังนั้น จึงอาจถือเป็นแนวทางแบบองค์รวมในการประเมิน MT

ความท้าทายในการประเมินการแปลเครื่องแปลภาษา

การประเมินการแปลด้วยเครื่องแปลภาษาเป็นกระบวนการที่ยากลำบาก เนื่องจากภาษาเป็นสิ่งที่ซับซ้อนมาก

ประการแรก สามารถมีคำแปลที่ถูกต้องได้หลายคำแปล ยกตัวอย่างเช่นประโยคต่อไปนี้:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

ระบบ MT อาจสร้างการแปลต่อไปนี้แทน:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโจนเข้าหาสุนัขที่เกียจคร้าน

นี่เป็นการแปลที่ถูกต้องทางเทคนิค และในการประเมินด้วยมนุษย์โดยปกติแล้วจะมีการทำเครื่องหมายไว้เช่นนั้นแต่ในการประเมินอัตโนมัต ิมันจะถูกทำเครื่องหมายว่าไม่ถูกต้อง

รายละเอียดเล็กๆ น้อยๆ สามารถเปลี่ยนความหมายของประโยคได้อย่างสมบูรณ์

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดขึ้นมาบนสุนัขที่เกียจคร้าน

มีเพียงคำเดียวที่เปลี่ยนไปแต่คำเดียวนั้นเปลี่ยนความหมายของประโยคอย่างสมบูรณ์ การประเมินอัตโนมัติมีแนวโน้มที่จะทำเครื่องหมายได้สูงกว่าตัวอย่างก่อนหน้า นักแปลที่เป็นมนุษย์มีแนวโน้มที่จะตรวจพบข้อผิดพลาด แต่บางคนอาจคิดว่าถูกต้องแล้ว

และนั่นเป็นเพราะภาษาอาจเป็นเรื่องของแต่ละบุคคลได้ แม้แต่ผู้ประเมินที่เป็นมนุษย์ก็สามารถตัดสินว่าการแปลนั้นดีหรือไม่ได้แตกต่างกัน

การประเมินด้วยมนุษย์: มาตรฐานทองคำ

ตอนนี้เราได้อธิบายพื้นฐานไปแล้ว เรามาดูการประเมิน MT สองประเภทในเชิงลึกกันดีกว่า โดยเริ่มจากการประเมินด้วยมนุษย์

ในระดับพื้นฐานที่สุด เป้าหมายของการแปลด้วยเครื่องแปลภาษา คือการแปลข้อความจากภาษาต้นฉบับเป็นภาษาเป้าหมายในระดับที่มนุษย์สามารถเข้าใจได้ ด้วยเหตุนี้ มนุษย์จึงเป็นจุดอ้างอิงที่ดีที่สุดสำหรับการประเมินคุณภาพของการแปลด้วยเครื่องแปลภาษา

ประเภทของการประเมินด้วยมนุษย์

การประเมินของมนุษย์มีหลายวิธีที่แตกต่างกันซึ่งเราจะพิจารณาตอนนี้:

การประเมินโดยตรง

นี่คือการประเมินด้วยมนุษย์ที่ง่ายที่สุด ผลลัพธ์การแปลด้วยเครื่องแปลภาษาจะถูกให้คะแนนในระดับประโยค

ความท้าทายในการประเมินโดยตรงคือผู้ประเมินจะใช้วิจารณาณในการให้คะแนนที่แตกต่างกันอย่างมากบางคนอาจมีแนวโน้มในการใช้เกณฑ์ที่เข้มงวดในการให้คะแนน โดยทำเครื่องหมายการแปลว่าแย่มากหรือดีมาก คนอื่นๆ อาจใช้แบบอนุรักษ์นิยมมากขึ้น โดยทำเครื่องหมายประโยคเดียวกันด้วยคะแนนใกล้กับตรงกลาง

ความท้าทายอีกประการหนึ่งคือเรื่องของแต่ละบุคคลในการตัดสินว่าประโยคนั้นเป็นการแปลที่แย่หรือไม่ ผู้ประเมินจำเป็นต้องตัดสินใจเกี่ยวกับภาษาที่คลุมเครือ กลับไปที่ประโยคตัวอย่าง:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามหมาที่เกียจคร้าน

ในที่นี้ หมาไม่จำเป็นต้องผิด แต่ก็ไม่เหมาะสมที่สุดเช่นกัน ผู้ประเมินบางคนอาจคิดว่าการแปลนี้ดีแล้ว ในขณะที่บางคนอาจระบุว่าผิดโดยสิ้นเชิง ตัวอย่างเช่น หากการให้คะแนนเป็น 5 คะแนน นักแปลบางคนอาจให้ 4 คะแนน ในขณะที่อีกคนอาจให้เพียงแค่ 2 คะแนน

ความท้าทายเหล่านี้สามารถชดเชยได้ด้วยการจ้างกลุ่มผู้ประเมินจำนวนมากขึ้น ซึ่งจะช่วยให้คะแนนได้รับการปรับให้เป็นมาตรฐานตามเงื่อนไขทางสถิติ

การจัดอันดับ

อีกวิธีหนึ่งในการประเมินระบบการแปลด้วยเครื่องแปลภาษาผ่านการประเมินด้วยมนุษย์คือการจัดอันดับ

ในกรณีนี้ ผู้ประเมินไม่ได้ให้คะแนนเป็นรายประโยค แต่จะเปรียบเทียบระหว่างการแปลจากระบบ MT ที่แตกต่างกันแทน จากนั้นพวกเขาจะตัดสินใจว่าการแปลแบบไหนดีที่สุด แบบไหนดีเป็นอันดับสอง และอื่นๆ

ข้อดีของวิธีนี้ที่เหนือกว่าการประเมินโดยตรง คือให้การเปรียบเทียบโดยตรงในทันที ซึ่งตรงกันข้ามกับการเปรียบเทียบคะแนนที่สร้างขึ้นจากการทดลองที่แตกต่างกันและอาจเป็นไปได้โดยผู้ประเมินที่แตกต่างกัน

อย่างไรก็ตาม ยังคงประสบปัญหาจากความท้าทายในเรื่องของแต่ละบุคคล ระบบ MT ที่แตกต่างกันมีแนวโน้มที่จะเกิดข้อผิดพลาดที่แตกต่างกัน ตัวอย่างเช่น

จิ้งจอกสีเขียวที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

จิ้งจอกน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดเหนือสุนัขที่เกียจคร้าน

แต่ละประโยคมีข้อผิดพลาดง่ายๆ ข้อแรกคือการแปลผิด ข้อที่สองคือละเว้นคำข้อที่สามคือคำกริยาเรื่องกาลเวลาขาดหายไป

ตอนนี้ผู้ประเมินต้องตัดสินใจว่าข้อผิดพลาดใดมีความสำคัญกว่าข้อผิดพลาดอื่น และอีกครั้งผู้ประเมินอาจมีความคิดเห็นที่แตกต่างกันในเรื่องนี้

ความพยายามในการแก้ไขการแปลด้วยมนุษย์

หากวัตถุประสงค์ของผู้ใช้ระบบ MT คือการเตรียมเอกสารสำหรับการแก้ไขการแปลด้วยมนุษย์ ยังมีวิธีการประเมินตามปริมาณความพยายามที่ต้องใช้ในการแก้ไขการแปลด้วยมนุษย์

วัตถุประสงค์พื้นฐานของการแก้ไขการแปลด้วยมนุษย์คือเพื่อให้นักแปลสามารถทำงานได้เร็วกว่าการแปลข้อความตั้งแต่เริ่มต้น ด้วยเหตุนี้ วิธีที่ง่ายที่สุดในการประเมินระบบ MT สำหรับการแก้ไขการแปลด้วยมนุษย์ คือการวัดเวลาที่นักแปลใช้ในการแก้ไขผลลัพธ์ที่แปลด้วยเครื่องแปลภาษา

อีกวิธีในการวัดความพยายามการแก้ไขการแปลด้วยมนุษย์คือการรวบรวมจำนวนจังหวะบนแป้นพิมพ์ที่ต้องใช้ในการแทนที่ข้อความที่แปลด้วยเครื่องแปลภาษาด้วยการแปลโดยอ้างอิงการแปลของมนุษย์ สิ่งนี้เป็นอิสระจากข้อจำกัดด้านเวลา แต่ยังไม่คำนึงถึงความเป็นไปได้ของการแปลที่ถูกต้องหลายรายการ

การประเมินตามงาน

จากนั้นจะมีการประเมินตามงาน ซึ่งตามชื่อ จะมีการประเมินระบบ MT ตามความเหมาะสมกับงานที่มีอยู่ตัวอย่างเช่น หากมีการใช้ในการตั้งค่าการสัมมนาผ่านเว็บหลายภาษา ผู้เข้าร่วมอาจถูกขอให้คะแนนประสบการณ์ของพวกเขาเกี่ยวกับข้อความถอดเสียงที่แปลด้วยเครื่องแปลภาษา ซึ่งหมายความว่าพวกเขากำลังประเมินความสำเร็จของระบบ MT โดยรวม

ปัญหาเกี่ยวกับแนวทางนี้คือเปิดให้มีการนำองค์ประกอบอื่นๆ ที่ไม่สามารถควบคุมได้มาใช้ ซึ่งอาจส่งผลต่อคะแนนที่ผู้ประเมินให้คะแนน ด้วยเหตุนี้ การใช้การประเมินตามงานจึงขึ้นอยู่กับสถานการณ์

ความท้าทายทั่วไปในการประเมินด้วยมนุษย์

อย่างที่คุณอาจเห็น การประเมิน MT ด้วยมนุษย์ประเภทต่างๆ มาพร้อมกับความท้าทายในตัวเอง นอกจากนี้ยังมีความท้าทายบางอย่างที่พวกเขาแบ่งปันในวงกว้าง และเกี่ยวข้องกับความสอดคล้องหรือข้อตกลง

ข้อตกลงระหว่างคำอธิบายประกอบ

นี่หมายถึงความสอดคล้องของคะแนนระหว่างผู้ประเมินที่แตกต่างกัน ดังที่เราได้กล่าวไว้ก่อนหน้านี้ ผู้ประเมินที่แตกต่างกันจะมีแนวโน้มที่แตกต่างกันในวิธีที่พวกเขาให้คะแนนข้อความเดียวกัน บางคนอาจให้คะแนนที่สุดขั้วหรือไปทางสายกลาง เมื่อจัดอันดับเครื่องแปลภาษา MT ที่แตกต่างกัน ความคิดเห็นของพวกเขาอาจแตกต่างกันไปด้วยเช่นกัน นี่คือสาเหตุว่าทำไมการมีผู้ประเมินหลายคนจึงเป็นเรื่องสำคัญ เพื่อให้การกระจายคะแนนเป็นมาตรฐาน

ข้อตกลงภายในผู้อธิบายประกอบ

วิธีที่ผู้ประเมินคนเดียวให้คะแนนข้อความก็เป็นตัววัดความถูกต้องเช่นกัน ผู้ประเมินอาจให้คะแนนประโยคดีหรือไม่ดีในครั้งแรก แต่พวกเขาอาจเปลี่ยนใจเมื่อทำการทดสอบเดิมซ้ำอีกรอบ การมีข้อตกลงภายในผู้อธิบายประกอบที่มีการวัดผลสูงทำให้มั่นใจได้ว่าผู้ประเมินที่เลือกสามารถจะถือว่ามีความสอดคล้องและเชื่อถือได้

การประเมินอัตโนมัติ: ตัวเลือกที่เหมาะกับปริมาณงานจำนวนมาก

การประเมินด้วยมนุษย์ถือเป็นมาตรฐานทองคำเมื่อพูดถึงการประเมินคุณภาพของการแปลด้วยเครื่องแปลภาษา อย่างไรก็ตาม มันเป็นความพยายามที่มีค่าใช้จ่ายสูงทั้งในด้านของความพยายามและเวลา นี่คือเหตุผลที่นักวิจัยในสาขานี้ได้พัฒนาวิธีการต่างๆ ในการประเมินคุณภาพ MT ผ่านกระบวนการอัตโนมัติ

กระบวนการเหล่านี้ได้รับการออกแบบมาเพื่อประมาณวิธีที่มนุษย์จะประเมินระบบ MTแน่นอนว่ายังห่างไกลจากความสมบูรณ์แบบในเรื่องนี้ แต่การประเมินอัตโนมัติยังคงมีกรณีการใช้งานที่สำคัญมาก

ข้อได้เปรียบหลักของการประเมินอัตโนมัติที่เหนือกว่าการประเมินของมนุษย์คือความสามารถในการทำงานในปริมาณงานจำนวนมาก การประเมินอัตโนมัติทีละหลายร้อยตัวอย่างมีความเร็วกว่าการประเมินด้วยมนุษย์หนึ่งรอบ ซึ่งทำให้การประเมินรูปแบบนี้เป็นโซลูชันในอุดมคติสำหรับการปรับแต่งหรือเพิ่มประสิทธิภาพระบบ MT ซึ่งต้องการผลลัพธ์ที่รวดเร็ว

ความท้าทายในการประเมินอัตโนมัติ

ซึ่งแตกต่างจากการประเมินโดยมนุษย์ เครื่องแปลภาษาไม่ได้ถูกออกแบบมาเพื่อจัดการกับความแตกต่างของการใช้ภาษา ระบบการประเมินอัตโนมัติขึ้นอยู่กับ MT ที่มีการจับคู่กับข้อความอ้างอิงอย่างแน่นอน และความแตกต่างเล็กน้อยอาจส่งผลกระทบต่อคะแนนสุดท้าย ความแตกต่างเหล่านี้อาจรวมถึงการเบี่ยงเบนในสัณฐานวิทยา การใช้คำพ้องความหมาย และลำดับไวยากรณ์

อะไรก็ตามที่การประเมินด้วยมนุษย์ถือว่าถูกต้องทางเทคนิคอาจถูกลงโทษในการประเมินอัตโนมัติไม่มากก็น้อย อย่างไรก็ตาม จำนวนการจับคู่ที่แน่นอน โดยเฉพาะอย่างยิ่งเมื่อพิจารณาตัวอย่างข้อความขนาดใหญ่ มักเพียงพอที่จะทำให้การประเมินอัตโนมัติสามารถนำมาใช้งานได้จริง

เมตริกการประเมินอัตโนมัติ

มีเมตริกการประเมินอัตโนมัติที่แตกต่างกันจำนวนมากในปัจจุบัน นี่คือตัวอย่างของบางเมตริกที่ใช้:

● BLEU (การศึกษาการประเมินสองภาษา)

● NIST (จากสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ)

● METEOR (เมตริกสำหรับการประเมินการแปลภาษาด้วยการเรียงลำดับอย่างชัดเจน)

● LEPOR (บทลงโทษความยาว, ความแม่นยำ, บทลงโทษความแตกต่างของตำแหน่ง n-gram และการเรียกคืน)

● COMET

● PRIS

● TER (อัตราข้อผิดพลาดในการแปลภาษา)

แต่ละเมตริกทำงานบนอัลกอริทึมที่แตกต่างกันและมีกระบวนการประเมินอัตโนมัติที่แตกต่างกัน นั่นหมายความว่า แต่ละเมตริกมีจุดแข็งและจุดอ่อนที่แตกต่างกัน และมีความแตกต่างกันในแง่ของการให้บทลงโทษที่สูงขึ้นหรือต่ำกว่าสำหรับประเภทของข้อผิดพลาดที่ต่างกันด้วย

BLEU ตัวชี้วัดที่ได้รับความนิยมมากที่สุด

ในบรรดาเมตริกทั้งหมดที่ระบุไว้ข้างต้น BLEU เป็นตัวชี้วัดที่นิยมใช้กันอย่างแพร่หลายเป็นหนึ่งในเมตริกแรกที่สามารถเชื่อมโยงความสัมพันธ์ระดับสูงในการประเมินด้วยมนุษย์ ซึ่งก่อให้เกิดรูปแบบการแปลภาษาที่แตกต่างกันมากมาย

วิธีการทำงานคือ แต่ละประโยคจะได้รับคะแนนเมื่อเทียบกับชุดคำแปลอ้างอิงที่มีคุณภาพสูง จากนั้นคะแนนเหล่านี้จะถูกประเมินเฉลี่ย และจำนวนผลลัพธ์คือคะแนน BLEU สุดท้ายสำหรับระบบ MT นั้นๆคะแนนนี้แสดงถึงผลลัพธ์ของระบบ MT ว่าตรงกับการแปลอ้างอิงของมนุษย์มากน้อยเพียงใด ซึ่งเป็นสิ่งที่บ่งบอกถึงคุณภาพ

คะแนนถูกคำนวณโดยใช้หน่วยที่เรียกว่า n-gram ซึ่งหมายถึงส่วนของข้อความติดต่อกัน กลับไปที่ประโยคตัวอย่างก่อนหน้า ตัวอย่างเช่น:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

ซึ่งสามารถแบ่งออกเป็น n-gram ที่มีความยาวต่างกัน ตัวอย่างเช่น 2-gram จะเป็น “ที่รวดเร็ว”, “สีน้ำตาลที่รวดเร็ว” หรือ “จิ้งจอกสีน้ำตาล” 3-gram จะเป็น “สีน้ำตาลที่รวดเร็ว” หรือ “จิ้งจอกสีน้ำตาลที่รวดเร็ว” 4-gram จะเป็น “จิ้งจอกสีน้ำตาลที่รวดเร็ว” และอื่นๆ

เป็นกระบวนการทางคณิตศาสตร์ที่ซับซ้อน แต่ในแง่พื้นฐาน อัลกอริทึมของ BLEU จะคำนวณคะแนนโดยตรวจสอบจำนวนการทับซ้อนระหว่าง n-grams คะแนนที่คำนวณจะอยู่ระหว่าง 0 ถึง 1 โดยที่ 1 แสดงถึงการจับคู่ที่เหมือนกันอย่างสมบูรณ์ระหว่างประโยคอ้างอิงและประโยคผลลัพธ์การแปลลองใช้รูปแบบต่อไปนี้ในประโยคตัวอย่าง:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัขที่เกียจคร้าน

n-grams ทั้งหมดจะตรงกันยกเว้นที่มีคำว่า “รวดเร็ว” อีกตัวอย่างหนึ่ง:

จิ้งจอกสีน้ำตาลที่รวดเร็วกระโดดข้ามสุนัข

ในตัวอย่างนี้คำว่า “เกียจคร้าน” หายไปดังนั้นจึงส่งผลต่อการทับซ้อนกันในทางลบ ในทั้งสองกรณี คะแนน BLEU จะยังคงสูง แต่ก็ยังน้อยกว่า 1

ในทางปฏิบัติ มักไม่ค่อยมีประโยคจำนวนมากนักที่จะแสดงความสัมพันธ์ในระดับสูงแบบนี้ ดังนั้น คะแนน BLEU จึงมีความสำคัญทางสถิติเฉพาะเมื่อนำมาใช้ในบริบทของตัวอย่างข้อความหรือคลังข้อความขนาดใหญ่เท่านั้น

แน่นอนว่ามีปัจจัยอื่น ๆ ที่ใช้ในการคำนวณคะแนน BLEU เช่นบทลงโทษสำหรับคำพิเศษหรือประโยคที่สั้นมาก ระบบการให้คะแนนแบบอนุพันธ์อื่น ๆ ได้รับการพัฒนาเพื่อชดเชยข้อบกพร่อง แต่ BLEU ยังคงได้รับการประเมินในระดับสูงและยังคงเป็นระบบประเมินผล MT ที่ใช้กันอย่างแพร่หลายที่สุดในปัจจุบัน

คำสุดท้ายของการประเมิน MT

และครอบคลุมพื้นฐานของการประเมินการแปลด้วยเครื่องแปลภาษา ดังที่เราได้แสดงให้เห็นการประเมินระบบ MT สามารถทำได้ผ่านการประเมินด้วยมนุษย์หรือการประเมินอัตโนมัติ กระบวนการทั้งสองมีทั้งข้อดีและข้อเสีย

การประเมินด้วยมนุษย์เป็นมาตรฐานที่ควรยึดถือไว้ในแง่ของคุณภาพ แต่มีราคาแพงและใช้เวลานาน การแปลอัตโนมัติมักไม่ถูกต้อง แต่รวดเร็วและเหมาะกับปริมาณงานจำนวนมากดังนั้นการประเมินทั้งสองประเภทจึงเหมาะสมกับงานที่เฉพาะเจาะจงที่แตกต่างกันเพื่อให้มีประสิทธิภาพการทำงานสูงสุด