May 10, 2024
Нека си представим, че сте бизнес, който е решил да инвестира в система за машинен превод. Направили сте някои основни проучвания и сте установили, че има толкова много възможности за избор. Във всяка от тях се твърди, че се постига определен брой думи въз основа на определени показатели, но не знаете какво всъщност означават цифрите. Как да разберете коя е най-подходящата опция за вас?
Трябва да разберете как работи оценката на качеството на машинния превод.
Тази статия ще разгледа задълбочено темата за оценката на качеството на машинния превод. Тя ще ви помогне да разберете какво представлява това, защо имате нужда от него и различните видове оценка, за да ви помогне да вземете добре информирано решение при избора на система за МП, в която да инвестирате.
Оценката на качеството на машинния превод се отнася до различните процеси на измерване на производителността на системата за машинен превод.
Това е начин за оценяване на качеството на MП, така че да се прецени колко добра е системата, като също има солидна основа за сравняване колко ефективни са различните системи за МП. За целта оценката на качеството на машинния превод използва количествено измерими показатели.
Има две основни причини, поради които трябва да се направи оценка на ефективността на системата за MП. Първата е да проверите дали е достатъчно добра за приложение в реалния свят. Втората е да служи като ръководство в проучванията и развитието.
Първо, разбира се, е да се определи дали системата за MП работи на ниво, което е достатъчно добро за действителна употреба. Това е причината, която е от най-пряко значение за крайните потребители. Ако системата за машинен превод не се представя добре, потребителите са по-склонни да изберат нещо друго.
Промишлените сектори, които използват МП, също биха искали конкретни показатели за решаване каква система на МП да изберат. В края на краищата MП е инвестиция и бизнесът трябва да получи най-доброто съотношение цена-качество за парите си.
Като такива разработчиците на MП трябва да преценят дали качеството на системата за машинен превод е достатъчно добро, за да могат да я изпратят на клиентите.
В идеалния случай системите за МП не са статична единица. Технологията за MП непрекъснато се подобрява. По тази логика се очаква и системите за MП да се подобряват.
Тук идва ред на проучванията и изследователите се нуждаят от ръководство за това къде да търсят. Измеримите показатели позволяват на изследователите да сравнят дали даден подход е по-добър от друг, като им помагат да прецизират системата.
Това е особено добре, за да видите как системата се справя с последователни грешки в превода. Наличието на измерими показатели може да покаже в по-контролирана обстановка дали определен подход е в състояние да се справи с тези видове грешки или не.
Има два различни начина да се определи колко добре се представя една система за МП. Човешката оценка се извършва от човешки експерти, извършващи ръчна оценка, докато автоматичната оценка използва метрики, базирани на AI, специално разработени за оценка на качеството на превода без човешка намеса. Всеки от начините има своите предимства и недостатъци. Ще разгледаме по-подробно и двата вида оценка на качеството на MП в по-нататъшните раздели на тази статия, но първо, ето бърз преглед на двата вида оценка на качеството на машинния превод, както и подходите за оценка на MП, които ги използват.
Човешката оценка на качеството на машинния превод означава, че оценката се извършва от професионални преводачи. Това е най-ефективният вариант, когато става въпрос за определяне на качеството на машинните преводи на ниво изречения. Но човешката оценка, както и човешкия превод са по-скъпи и отнемат много време.
Автоматичната оценка, от друга страна, използва програми, създадени специално за оценка на качеството на машинния превод според различни методи. Тя не е толкова надеждна, колкото човешката оценка на ниво изречение, но е добра мащабируема опция при оценяване на цялостното качество на превода на множество документи.
Подходите към оценката на качеството на машинния превод се основават на концепцията за детайлност. Тоест различните нива, при които оценката може да се счита за значима.
Подход, основан на изречения. При този подход на всяко изречение се дава оценка, оказваща дали неговият превод е добър (1) или не добър (0), а общата сума представлява средна стойност. Това най-често се прави при човешка оценка.
Подход, базиран на документи. Известен също като подход, базиран на корпуса, на изреченията също се дават оценки, но значимият резултат е общата или средната стойност сред по-голям набор от документи. Това е най-малкото ниво, на което автоматизираната оценка на MП може да се счита за значима, тъй като зависи до голяма степен от статистиката от широк набор от данни.
Подход, базиран на контекст.Този подход се различава от предишните, тъй като това, което взема предвид, е доколко цялостната задача, изпълнена чрез MП отговаря на целите, за които е поставена, а не чрез средни резултати въз основа на изречения. Като такъв може да се прилага холистичен подход за оценка на качеството на МП.
Оценката на машинния превод е труден процес. Това е така, защото самият език е много сложно нещо.
От една страна, може да има множество правилни преводи. Вземете например следното изречение:
Бързата кафява лисица прескочи мързеливото куче.
Вместо това системата за MП може да генерира следния превод:
Бързата кафява лисица се нахвърли върху ленивото куче.
Това е технически правилен превод и при човешката оценка обикновено би бил маркиран като такъв. Но при автоматизирана оценка тя ще бъде маркирана като неправилна.
Малките детайли също могат напълно да променят значението на изречението.
Бързата кафява лисица скочи върху мързеливото куче.
Тук има само една дума, която е променена. Но тази една дума напълно променя значението на изречението. Автоматичните оценки вероятно ще го отбележат като по-добър от предишния пример. Човешките преводачи вероятно ще уловят грешката, но някои може да я считат за правилна.
И това е така, защото езикът може да бъде субективен. Дори човешките оценители могат да се различават в преценките си за това дали преводът е добър или не.
Сега, когато разгледахме основите, нека разгледаме задълбочено двата вида оценка на качеството на MП, започвайки с човешката оценка.
На най-основното ниво целта на машинния превод е да превежда текст от изходен език на целеви език на ниво, което хората могат да разберат. Като такива хората са най-добрата отправна точка за оценка на качеството на машинния превод.
Има редица различни начини за извършване на човешката оценка, които ще разгледаме сега:
Това е най-простият вид човешка оценка. Изходът от машинния превод се оценява на ниво изречение.
Предизвикателството при директната оценка е, че различните оценители ще се различават значително по начина, по който оценяват. Някои може да са склонни към крайности по отношение на оценката, като отбелязват преводите като много лоши или много добри. Други могат да го играят по-консервативно, маркирайки същите изречения с резултати по-близо до средната оценка.
Друго предизвикателство отново е субективността. При преценка дали дадено изречение е лош превод или не, оценителите трябва да вземат решения относно езика, който е двусмислен. Връщайки се към примерното изречение:
Бързата кафява лисица прескочи мързеливото куче.
Тук кучето не е непременно грешно, но и не е най-подходящият превод. Някои оценители може да го считат за достатъчно добър, докато други могат да го обозначат като напълно грешен. Например, ако оценката се извършва по 5-степенна скала, някои преводачи могат да го отбележат с 4, докато други може да му дадат само 2.
Тези предизвикателства могат да бъдат компенсирани чрез наемането на по-голям набор от оценители, което ще позволи резултатите да бъдат нормализирани в статистически план.
Друг начин за оценка на системите за машинен превод чрез човешка оценка е класирането.
В този случай оценителите не предоставят индивидуални резултати за изречения, а вместо това сравняват преводите от различни системи за МП. След това решават кой е най-добрият превод, кой е вторият най-добър и т.н.
Предимството на този метод пред директната оценка е, че той моментално осигурява директно сравнение, за разлика от сравняването на резултатите, генерирани при различни изпитвания и евентуално от различни оценители.
Въпреки това, той все още страда от предизвикателството на субективността. Различните системи за МП вероятно ще допуснат различни грешки. Например:
Бързата зелена лисица прескочи мързеливото куче.
Бърза кафява лисица прескочи мързеливо куче.
Бързата кафява лисица прескача мързеливото куче.
Всяко изречение съдържа проста грешка. В първото има грешен превод. Във второто има пропуснат граматичен член. В третото липсват глаголни времена.
Сега оценителите трябва да решат коя грешка е по-важна от другата и отново оценителите могат да имат различни мнения по въпроса.
Ако целта на потребителя на система за МП е да подготви документи за постредактиране, има начини тя да бъде оценена според количеството усилия, необходими за постредактирането.
Основната цел на постредактирането е да позволи на преводача да работи по-бързо, отколкото ако превежда текст от нулата. Като такъв, най-простият начин за оценка на качеството на система за постредактиране на МП е чрез измерване на времето, необходимо на преводача да коригира машинно преведения текст.
Друг начин за измерване на усилията, нужни за постредактиране е чрез таблично изчисляване на броя на ударите на клавиатурата, които биха били необходими, за да се замени машинно преведения текст с човешки референтен превод. Това не зависи от времевите ограничения, но също така не отчита възможността за множество правилни преводи.
Съществува и оценка, базирана на задачи, която, както подсказва името, оценява системата за МП въз основа на това колко е подходяща за разглежданата задача. Например, ако се използва в многоезичен уебинар, участниците могат да бъдат помолени да оценят опита си с машинно преведен препис. Това означава, че те оценяват успеха на системата за MП като цяло.
Проблемът с този подход е, че той е много отворен за въвеждането на други неконтролирани елементи, които могат да повлияят на рейтинга, който оценителите дават. Като такава използването на оценка, базирана на задачи, е много ситуационна.
Както навярно можете да видите, различните видове човешка оценка на МП имат свои собствени предизвикателства. Има и някои предизвикателства, които те споделят като цяло и те са свързани с съгласуваността или съгласието.
Това се отнася до съгласуваността на резултатите между различните оценители. Както споменахме по-рано, различните оценители ще имат различни тенденции в начина, по който оценяват едни и същи сегменти от текста. Оценката на някои може да бъде в двете крайности, а на други по средата.При класиране на различни инструменти за МП техните мнения също могат да варират. Ето защо е важно да имате множество оценители, така че разпределението на резултатите да бъде нормализирано.
Начинът, по който един оценител оценява текст, също е мярка за валидност. Оценителят може да оцени изречение като добро или лошо от първия път, но може да промени решението си, когато повтори същия тест. Наличието на високо измерване на споразумението в рамките на анотатора гарантира, че избраният оценител може да се счита за последователен и надежден.
Човешката оценка се счита за златен стандарт, когато става въпрос за оценка на качеството на машинния превод. Това обаче е скъпо начинание по отношение на усилия и време. Ето защо изследователите в тази област са разработили различни средства за оценка на качеството на MП чрез автоматизирани процеси.
Тези процеси са предназначени да доближат максимално оценката до начина, по който хората биха оценили системата за МП. Разбира се, те далеч не са перфектни в това, но автоматичната оценка все още има много важни случаи на употреба.
Основното предимство на автоматичната оценка пред човешката оценка е нейната мащабируемост. Много по-бързо е да се направят стотици автоматични оценки, отколкото дори една човешка оценка. Това го прави идеално решение при извършване на настройки или оптимизиране на системата за МП, която се нуждае от бързи резултати.
За разлика от хората, машините не са оборудвани да се справят с различните нюанси на използването на езика. Системите за автоматична оценка се основават на това, че MП има точно съвпадение с референтен текст и незначителни разлики могат да окажат влияние върху крайния резултат. Тези разлики могат да включват отклонения в морфологията, използването на синоними и граматически ред.
Всичко, което може да се счита за технически правилно или отчасти правилно от човешки оценител, може да бъде отчетено като грешка при автоматична оценка. Въпреки това броят на точните съвпадения, особено когато се разглежда голяма извадка от текст, често е достатъчен, за да направи автоматичната оценка осъществима за използване.
Днес има редица различни метрики за автоматична оценка. Ето няколко примера за използваните:
BLEU (двуезично проучване за оценка)
● NIST (от Националния институт по стандарти и технологии)
● METEOR (Метрика за оценка на превода с изрично подреждане)
● LEPOR (санкция за дължина, прецизност, санкция за разлика в n-gram позицията и анулиране)
● COMET
● PRIS
● TER (степен на грешки в превода)
Всеки показател работи по различни алгоритми и като такъв обработва процеса на автоматична оценка по различен начин. Това означава, че те имат различни силни и слаби страни и се различават по отношение на това за какви грешки дават по-високи или по-ниски санкции.
От всички показатели, изброени по-горе, BLEU е този, който се използва най-често. Това беше един от първите показатели, постигнали високо ниво на корелация с човешката оценка и породи много различни вариации.
Начинът, по който работи, е, че отделните изречения се оценяват спрямо набор от висококачествени референтни преводи. След това тези резултати се осредняват и полученото число е крайният резултат на BLEU за тази система за МП. Този резултат показва в каква степен изходният продукт на системата за МП се доближава до човешкия референтен превод, който е маркер за качество.
Резултатите се изчисляват с помощта на единици, наречени n-gram, които се отнасят до сегменти от последователен текст. Нека се върнем към по-ранното примерно изречение:
Бързата кафява лисица прескочи мързеливото куче.
Това може да бъде разделено на n-грамове (n-grams) с различна дължина. 2-грама, например, би било „The quick“, „quick brown“ или „brown fox“. 3-грама би било „The quick brown“ или „quick brown fox“. 4-грама би било „The quick brown fox“. И така нататък.
Това е сложен математически процес, но в основни линии алгоритъмът на BLEU изчислява резултата, като проверява броя на припокриванията между n-грамовете. Изчисленият резултат ще бъде между 0 и 1, като 1 представлява напълно идентично съвпадение между референтното и изходното изречение. Сега вземете следния вариант на примерното изречение:
Бързата кафява лисица прескочи мързеливото куче.
Всички n-грамове ще съвпадат с изключение на тези, които съдържат думата „fast“ (бърз). Друг пример:
Бързата кафява лисица прескочи кучето.
В този пример думата „lazy“ (мързелив) липсва, така че това също влияе негативно на припокриването. И в двата случая резултатът на BLEU би бил висок, но по-малък от 1.
На практика не много изречения ще покажат това високо ниво на корелация. Като такива резултатите от BLEU стават статистически значими само когато се вземат в контекста на голяма извадка от текст или корпуси.
Разбира се, има и други фактори, които влизат в изчисляването на резултата на BLEU, като санкции за допълнителни думи или много кратки изречения. Разработени са други производни системи за оценяванеи, за да компенсират недостатъците ѝ, но BLEU остава високо оценена и продължава да бъде най-широко използваната система за оценка на MП днес.
И това обхваща основите на оценката на качеството на машинния превод. Както показахме, оценката на качеството на система за MП може да се извърши чрез човешка оценка или чрез автоматична оценка. И двата процеса имат своите предимства и недостатъци.
Човешката оценка е златният стандарт по отношение на качеството, но е скъпа и отнема много време. Автоматичният превод не е толкова точен, но е бърз и мащабируем. Като такива и двата вида имат своите специфични случаи на употреба.