10/05/2024

Đánh giá dịch máy: Hướng dẫn cơ bản

Giả dụ doanh nghiệp của bạn đang muốn đầu tư vào hệ thống dịch máy. Bạn đã thực hiện một số nghiên cứu cơ bản và thấy rằng có rất nhiều lựa chọn khác nhau. Mỗi lựa chọn đều có điểm số cụ thể dựa trên các số liệu khác nhau, nhưng bạn không biết những con số thực sự có ý nghĩa gì. Làm thế nào để bạn biết hệ thống dịch máy nào phù hợp nhất với nhu cầu của bạn?

Điều cần thiết là phải hiểu cách hoạt động của việc đánh giá bản dịch máy.

Bài viết này sẽ cung cấp cái nhìn sâu sắc về chủ đề đánh giá dịch máy. Nó sẽ giúp giải thích đánh giá dịch máy là gì, tầm quan trọng và các loại đánh giá khác nhau hiện có, nhằm giúp bạn đưa ra quyết định sáng suốt khi lựa chọn hệ thống dịch máy để đầu tư.

Giới thiệu: Đánh giá dịch máy là gì?

Đánh giá dịch máy chỉ việc đánh giá hiệu suất của hệ thống dịch máy thông qua các quy trình khác nhau.

Nó đo lường chất lượng đầu ra MT, cung cấp phương tiện để đánh giá mức độ hiệu quả của hệ thống và cho phép so sánh với các hệ thống dịch máy khác. Đánh giá này dựa trên các số liệu có thể định lượng.

Tại sao số liệu đánh giá dịch máy lại quan trọng?

Đánh giá hiệu suất của hệ thống dịch máy rất quan trọng vì hai lý do chính. Đầu tiên là đánh giá xem hệ thống có phù hợp để ứng dụng trong thế giới thực hay không. Thứ hai là đóng vai trò như mộtđịnh hướng trong việc nghiên cứu và phát triển.

Để đánh giá xem hệ thống dịch máy có phù hợp với ứng dụng thực tế hay không

Đầu tiên, tất nhiên, là phải xác định xem hệ thống có hoạt động ở mức phù hợp để sử dụng trong thực tế hay không. Điều này đặc biệt có liên quan trực tiếp nhất đến người dùng cuối. Nếu hệ thống dịch máy hoạt động kém, người dùng có thể tìm kiếm giải pháp thay thế.

Các lĩnh vực công nghiệp sử dụng dịch máy cũng sẽ yêu cầu các số liệu vững chắc để quyết định nên đầu tư vào hệ thống nào. Xét cho cùng, dịch máy là một khoản đầu tư đáng kể nên các doanh nghiệp phải đảm bảo rằng họ nhận được giá trị tốt nhất cho số tiền bỏ ra.

Do đó, các nhà phát triển phải đánh giá xem chất lượng của hệ thống dịch máy có đáp ứng đủ chuẩn để cung cấp cho khách hàng hay không.

Để có thể đóng vai trò như một định hướng trong việc nghiên cứu và phát triển

Hệ thống dịch máy không được ở trạng thái tĩnh. Công nghê dịch máy sẽ phát triển theo thời gian. Vậy nên, dĩ nhiên các hệ thống dịch máy cũng từ đó mà liên tục được cải thiện.

Nghiên cứu đóng một vai trò quan trọng trong việc hướng dẫn phát triển hệ thống dịch máy. Các nhà nghiên cứu được hưởng lợi từ các số liệu có thể đo lường được, cho phép họ so sánh các phương pháp tiếp cận nào tốt hơn và cải thiện hệ thống.

Điều này cho phép đánh giá cách hệ thống xử lý các lỗi dịch nhất quán. Có các số liệu có thể đo lường được có thể tiết lộ trong một môi trường được kiểm soát nhiều hơn, liệu một phương pháp tiếp cận cụ thể có thể giải quyết được các loại lỗi này hay không.

Làm thế nào để đánh giá mức độ thành công của dịch máy?

Có hai phương pháp chính để xác định hiệu suất của hệ thống dịch máy. Hình thức con người tự đánh giá chỉ việc các chuyên gia đánh giá bản dịch theo cách thủ công, trong khi đó, đánh giá tự động sử dụng các số liệu dựa trên AI để đánh giá chất lượng bản dịch mà không cần sự tham gia của con người. Mỗi phương pháp đều có ưu điểm và nhược điểm riêng. Chúng ta sẽ thảo luận chi tiết về cả hai loại đánh giá dịch máy ở phần sau của bài viết này, nhưng trước tiên, dưới đây cái nhìn tổng quan ngắn gọn về hai phương pháp đánh giá dịch máy và các phương pháp sử dụng chúng.

Con người tự đánh giá so với Đánh giá tự động

Hình thức con người tự đánh giá bản dịch máy có nghĩa là việc đánh giá chất lượng dịch thuật được thực hiện bởi các biên dịch viên chuyên nghiệp. Đây là phương pháp hiệu quả nhất để đánh giá bản dịch máy ở cấp độ câu. Tuy nhiên, việc con người tự đánh giá, tương tự với dịch thuật thủ công, có thể tốn kém và tốn thời gian hơn.

Ngược lại, đánh giá tự động sử dụng các chương trình chuyên dụng để đánh giá chất lượng dịch máy theo nhiều phương pháp khác nhau. Mặc dù nó có thể không đáng tin cậy như việc con người tự đánh giá ở cấp độ câu, nhưng nó cung cấp một giải pháp có thể mở rộng để đánh giá chất lượng tổng thể của bản dịch trên nhiều tài liệu.

Phương pháp tiếp cận đánh giá dịch máy

Các phương pháp đánh giá dịch máy dựa trên khái niệm về mức độ chi tiết. Điều này đòi hỏi phải đánh giá chất lượng dịch thuật ở nhiều mức độ quan trọng khác nhau.

Cách tiếp cận dựa trên câu. Theo cách tiếp cận này, mỗi câu được cho điểm tốt (1) hoặc không tốt (0) và điểm trung bình được tính từ tổng điểm. Phương pháp này được sử dụng phổ biến nhất trong hình thức con người tự đánh giá.

Cách tiếp cận dựa trên tài liệu. Còn được gọi là phương pháp tiếp cận dựa trên kho ngữ liệu, phương pháp này liên quan đến việc gán điểm cho từng câu, nhưng điểm đáng kể là tổng hoặc điểm trung bình trên một tập hợp tài liệu lớn hơn. Đây là cấp độ nhỏ nhất mà tại đó việc đánh giá dịch máy tự động có thể được coi là có ý nghĩa, vì nó phụ thuộc rất nhiều vào số liệu thống kê từ một tập dữ liệu rộng.

Cách tiếp cận dựa trên ngữ cảnh. Cách tiếp cận này khác với các phương pháp trước đây vì nó tập trung vào mức độ hiệu quả của tác vụ dịch máy tổng thể đáp ứng mục đích dự định của nó, thay vì dựa vào điểm trung bình ở cấp độ câu. Vì vậy, đây có thể được coi là một cách tiếp cận toàn diện để đánh giá dịch máy.

Những thách thức trong đánh giá dịch máy

Đánh giá dịch máy là một quá trình khó khăn. Điều này là do tính phức tạp vốn có của ngôn ngữ.

Một trong số đó là việc có thể có nhiều bản dịch đúng cho một câu nhất định. Xem ví dụ ở câu sau đây:

The quick brown fox jumped over the lazy dog.

Một hệ thống dịch máy có thể tạo ra bản dịch sau:

The fast brown fox pounced over the indolent dog.

Bản dịch này chính xác về mặt kỹ thuật và thường được coi là chính xác nếu được đánh giá bởi con người. Tuy nhiên, trong quá trình đánh giá tự động, bản dịch có thể bị đánh dấu là không chính xác.

Những chi tiết nhỏ có thể làm thay đổi đáng kể ý nghĩa của câu.

The quick brown fox jumped on the lazy dog.

Ở đây, chỉ có một từ đã được thay đổi. Nhưng một từ đó thay đổi hoàn toàn ý nghĩa của câu.Đánh giá tự động có khả năng đánh dấu nó cao hơn ví dụ trước. Người dịch có thể phát hiện ra lỗi, mặc dù một số người vẫn có thể coi bản dịch là chấp nhận được.

Điều này là do ngôn ngữ mang tính chủ quan. Ngay cả những người đánh giá cũng có thể có những ý kiến khác nhau về việc bản dịch có tốt hay không.

Hình thức con người tự đánh giá: Tiêu chuẩn vàng

Bây giờ chúng ta đã đi qua hết những điều cơ bản, hãy xem xét sâu hơn hai loại đánh giá dịch máy, bắt đầu từ hình thức con người tự đánh giá.

Về cốt lõi, mục tiêu của dịch máy là chuyển đổi văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích theo cách mà con người có thể hiểu được. Do đó, con người đóng vai trò là điểm tham chiếu đáng tin cậy nhất để đánh giá chất lượng của bản dịch máy.

Các hình thức con người tự đánh giá

Có một số phương pháp do con người tự đánh giá mà bây giờ chúng ta sẽ khám phá:

Đánh giá trực tiếp

Đây là hình thức con người tự đánh giá đơn giản nhất.Kết quả dịch máy được tính điểm ở cấp độ câu.

Thách thức với việc đánh giá trực tiếp là sự khác biệt trong cách chấm điểm các bản dịch khác nhau của các giám khảo. Một số giám khảo có xu hướng cho điểm khá cực đoan, đánh dấu các bản dịch là rất tệ hoặc rất tốt. Những người khác có thể có cách tiếp cận thận trọng hơn và đánh giá các câu ở mức gần giữa.

Một thách thức khác là tính chủ quan. Để đánh giá liệu một câu có phải là một bản dịch tốt hay tệ, người đánh giá phải đưa ra quyết định về ngôn ngữ mơ hồ. Quay trở lại câu ví dụ:

The quick brown fox jumped over the lazy canine.

Trong những trường hợp như thế này, từ "canine" có thể không sai nhưng cũng có thể không phải là lựa chọn phù hợp nhất. Một số người đánh giá có thể thấy nó có thể chấp nhận được, trong khi những người khác có thể cho rằng nó hoàn toàn sai. Ví dụ: trên thang điểm 5, một số người đánh giá có thể cho điểm 4, trong khi những người khác chỉ cho điểm 2.

Những thách thức này có thể được giảm thiểu bằng cách sử dụng một nhóm người đánh giá lớn hơn, cho phép điểm số được chuẩn hóa về mặt thống kê.

Xếp hạng

Một cách khác để đánh giá hệ thống dịch máy thông qua con người tự đánh giá là xếp hạng.

Theo cách tiếp cận này, người đánh giá không chấm điểm riêng cho từng câu, thay vào đó họ so sánh giữa các bản dịch từ các hệ thống dịch máy khác nhau. Sau đó, họ quyết định cái nào là bản dịch tốt nhất, cái nào tốt nhất thứ hai, v.v.

Ưu điểm của phương pháp này so với đánh giá trực tiếp là nó đưa ra sự so sánh trực tiếp giữa các bản dịch, loại bỏ nhu cầu đối chiếu điểm số từ các thử nghiệm và đánh giá khác nhau.

Tuy nhiên, cách tiếp nận này vẫn có những thách thức về tính chủ quan. Các hệ thống dịch máy khác nhau có khả năng xuất hiện các lỗi khác nhau. Ví dụ:

The quick green fox jumped over the lazy dog.

Quick brown fox jumped over lazy dog.

The quick brown fox jump over the lazy dog.

Mỗi câu có một lỗi đơn giản. Câu đầu tiên có lỗi dịch sai. Câu thứ hai bỏ sót mạo từ. Vâu thứ ba thiếu thì của động từ.

Người đánh giá bây giờ phải xác định lỗi nào nghiêm trọng hơn và họ có thể có những ý kiến khác nhau về vấn đề này.

Nỗ lực chỉnh sửa hậu kỳ

Nếu mục đích của người dùng đối với hệ thống dịch máy là chuẩn bị tài liệu để chỉnh sửa hậu kỳ, thì hệ thống có thể được đánh giá dựa trên nỗ lực cần thiết cho việc chỉnh sửa hậu kỳ.

Mục đích chính của việc chỉnh sửa hậu kỳ là giúp người dịch làm việc nhanh hơn so với việc phải dịch văn bản từ đầu. Do đó, cách đơn giản nhất để đánh giá một hệ thống dịch máy cho việc chỉnh sửa hậu kỳ là đo thời gian cần thiết để người dịch sửa bản dịch do máy dịch ra.

Một phương pháp khác để đo lường nỗ lực chỉnh sửa hậu kỳ sau là đếm số lần nhấn phím cần thiết để điều chỉnh văn bản được dịch bằng máy cho phù hợp với bản dịch tham chiếu của con người. Điều này không bị ảnh hưởng bởi những hạn chế về thời gian, nhưng nó không tính đến tiềm năng của nhiều bản dịch chính xác.

Đánh giá dựa trên nhiệm vụ

Đánh giá dựa trên nhiệm vụ, như tên cho thấy, đánh giá một hệ thống dịch máy dựa trên mức độ phù hợp của nó với một nhiệm vụ cụ thể. Ví dụ: trong hội thảo trực tuyến đa ngôn ngữ, người tham gia có thể đánh giá trải nghiệm của họ về bản ghi được dịch bằng máy. Tức là họ đang đánh giá sự thành công của toàn bộ hệ thống dịch máy.

Thách thức với cách tiếp cận này là nó có thể bị ảnh hưởng bởi các yếu tố không được kiểm soát khác có thể ảnh hưởng đến xếp hạng của người đánh giá. Do đó, việc đánh giá dựa trên nhiệm vụ có xu hướng mang tính tình huống cao.

Những thách thức chung ở hình thức con người tự đánh giá.

Như bạn có thể thấy, các loại đánh giá dịch máy khác nhau của con người đều có những thách thức riêng. Ngoài ra còn có một số thách thức chung nảy sinh trong các phương pháp khác nhau, chủ yếu liên quan đến tính nhất quán hoặc đồng thuận giữa những người đánh giá.

Thỏa thuận liên chú thích

Điều này đề cập đến tính nhất quán về điểm số giữa những người đánh giá khác nhau. Như đã đề cập trước đó, những người đánh giá khác nhau có thể có xu hướng chấm điểm khác nhau cho cùng một đoạn văn bản. Một số người có thể cho điểm mức cực đoan hoặc nghiêng về mức vừa phải.Khi xếp hạng các công cụ dịch máy khác nhau, ý kiến của họ cũng có thể khác nhau. Đây là lý do tại sao việc có nhiều người đánh giá lại quan trọng, nhằm phân phối điểm số được chuẩn hóa.

Thỏa thuận nội bộ chú thích

Cách một người đánh giá chấm một văn bản cũng là một thước đo tính hợp lệ. Người đánh giá ban đầu có thể đánh giá một câu là tốt hay tệ, nhưng họ có thể thay đổi quyết định khi đánh giá lại cùng một văn bản. Mức độ đồng thuận cao của người chú thích cho thấy rằng người đánh giá đáng tin cậy và nhất quán trong các đánh giá của họ.

Đánh giá tự động: Tùy chọn có thể mở rộng

Hình thức con người tự đánh giá được coi là tiêu chuẩn vàng khi đánh giá chất lượng dịch máy. Tuy nhiên, nó rất hao tốn công sức và thời gian. Đây là lý do tại sao các nhà nghiên cứu trong lĩnh vực này đã phát triển các phương pháp khác nhau để đánh giá chất lượng dịch máy thông qua các quy trình tự động.

Các quá trình này được thiết kế để ước tính cách con người sẽ đánh giá hệ thống dịch máy. Tất nhiên, còn lâu lắm chúng mới đạt được mức độ hoàn hảo, nhưng đánh giá tự động vẫn có ích trong một số trường hợp sử dụng.

Ưu điểm chính của đánh giá tự động so với con người tự đánh giá là khả năng mở rộng của nó. Việc chạy hàng trăm trường hợp đánh giá tự động nhanh hơn nhiều so với chỉ một vòng con người tự đánh giá. Điều này biến việc đánh giá tự động trở thành một giải pháp lý tưởng để thực hiện điều chỉnh hoặc tối ưu hóa hệ thống dịch máy vì nó mang lại kết quả nhanh chóng.

Những thách thức trong đánh giá tự động

Không giống như con người, máy móc gặp khó khăn trong việc giải thích cách sử dụng ngôn ngữ theo nhiều sắc thái. Hệ thống đánh giá tự động dựa vào kết quả khớp chính xác giữa đầu ra của bản dịch máy và văn bản tham chiếu, do đó, ngay cả những khác biệt nhỏ cũng có thể ảnh hưởng đến điểm số cuối cùng. Những khác biệt này có thể bao gồm những sai lệch về hình thái, việc sử dụng các từ đồng nghĩa và trật tự ngữ pháp.

Đánh giá tự động có thể bắt lỗi các bản dịch được con người đánh giá coi là đúng về mặt kỹ thuật do nó phụ thuộc vào các kết quả khớp chính xác. Tuy nhiên, khi làm việc với các mẫu văn bản lớn, số lượng kết quả khớp chính xác thường đủ để khiến việc đánh giá tự động trở thành một công cụ khả thi và có giá trị.

Chỉ số đánh giá tự động

Ngày nay, một số chỉ số đánh giá tự động khác nhau thường được sử dụng. Dưới đây là một số ví dụ:

      BLEU (Bilingual Evaluation Understudy)

      NIST (từ National Institute of Standards and Technology)

      METEOR (Metric for Evaluation of Translation with Explicit Ordering)

      LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

      COMET 

      PRIS

      TER (Translation Error Rate)

Mỗi chỉ số sử dụng các thuật toán khác nhau nên chúng xử lý quá trình đánh giá tự động theo những cách riêng. Điều này dẫn đến những điểm mạnh và điểm yếu khác nhau, cũng như sự khác biệt về loại lỗi và mức độ tính điểm nghiêm trọng.

BLEU, chỉ số phổ biến nhất

Trong tất cả các chỉ số được liệt kê ở trên, BLEU lđược sử dụng rộng rãi nhất. Đây là một trong những chỉ số đầu tiên đạt được mức độ tương quan cao với hình thức con người tự đánh giá và đã truyền cảm hứng cho nhiều biến thể khác nhau.

Nó hoạt động theo phương thức chấm điểm từng câu dựa trên một tập hợp các bản dịch tham khảo chất lượng cao. Các điểm số này sau đó được tính trung bình để tạo ra điểm BLEU cuối cùng cho hệ thống dịch máy. Điểm số này thể hiện mức độ phù hợp giữa đầu ra của hệ thống dịch máy với bản dịch tham chiếu của con người, đóng vai trò là tiêu chuẩn cho chất lượng.

Điểm số được tính bằng cách sử dụng đơn vị gọi là n-gam, là các đoạn văn bản liên tiếp. Quay lại câu ví dụ trước đó:

The quick brown fox jumped over the lazy dog.

N-gram có thể được phân loại thành các chuỗi có độ dài khác nhau. Ví dụ, 2 gram sẽ là “The quick”, “quick brown” hoặc “brown fox”. 3 gram sẽ là “The quick brown fox” hoặc “quick brown fox”. 4 gram sẽ là “The quick brown fox”. Và vân vân.

Thuật toán BLEU bao gồm một quy trình toán học phức tạp, nhưng nói một cách đơn giản, nó tính điểm bằng cách kiểm tra sự chồng chéo của n-gram giữa tham chiếu và văn bản được dịch. Điểm được tính nằm trong khoảng từ 0 đến 1, trong đó 1 biểu thị sự trùng khớp hoàn hảo giữa câu tham chiếu và kết quả đầu ra. Đây là một biến thể của câu mẫu:

The fast brown fox jumped over the lazy dog.

Tất cả n-gram sẽ khớp với nhau ngoại trừ những gam có từ “nhanh”. Một ví dụ khác:

The quick brown fox jumped over the dog.

Trong ví dụ này, từ “lazy” bị thiếu, điều này ảnh hưởng tiêu cực đến sự chồng chéo của n-gram. Trong cả hai trường hợp, điểm BLEU vẫn sẽ cao, nhưng ít hơn 1.

Trong thực tế, không nhiều câu sẽ cho thấy mức độ tương quan cao này. Vì vậy, điểm BLEU chỉ trở nên có ý nghĩa về mặt thống kê khi được xem xét trên các mẫu văn bản lớn hoặc ngữ liệu.

Tất nhiên, có những yếu tố khác liên quan đến cách tính điểm BLEU, chẳng hạn như mức điểm phạt cho các từ thừa hoặc câu rất ngắn. Nhiều hệ thống tính điểm phái sinh khác nhau đã được phát triển để giải quyết những hạn chế của BLEU, nhưng bất chấp những lựa chọn thay thế này, BLEU vẫn được đánh giá cao và vẫn là hệ thống đánh giá được sử dụng phổ biến nhất cho dịch máy ngày nay.

Lời cuối cùng về lĩnh vực đánh giá dịch máy

Vậy là đã đến phần kết cho chuyên mục chia sẻ tổng quan của chúng tôi về đánh giá dịch máy. Như đã nói ở trên, việc đánh giá một hệ thống dịch máy có thể được thực hiện thông qua hình thức con người tự đánh giá hoặc đánh giá tự động. Cả hai quy trình đều có ưu điểm và nhược điểm của chúng.

Hình thức con người tự đánh giá là tiêu chuẩn vàng về chất lượng, nhưng tốn kém và mất nhiều thời gian. Việc đánh giá tự động có thể không chính xác bằng nhưng nó nhanh và có thể xử lý khối lượng lớn dữ liệu một cách hiệu quả. Do đó, cả hai phương pháp đều có ứng dụng cụ thể tùy thuộc vào bối cảnh và nhu cầu.