May 10, 2024

Mat á vélþýðingum: Fullkominn leiðarvísir

Segjum að þú sért fyrirtæki sem hefur ákveðið að fjárfesta í vélþýðingarkerfi. Þú hefur framkvæmt nokkrar grunnrannsóknir, og uppgötvar að það eru svo margir möguleikar til að velja úr. Hver og einn segist ná ákveðinni einkunn út frá ákveðnum mælikvörðum, en þú veist ekki hvað tölurnar þýða í rauninni. Hvernig veistu hver hentar þér best?

Þú þarft að skilja hvernig mat á vélþýðingum virkar.

Þessi grein mun fjalla ítarlega um umræðuefni vélþýðingarmats. Það mun hjálpa þér að skilja hvað það er, hvers vegna þú þarft á því að halda og mismunandi gerðir mats, til að hjálpa þér að ákvarða á vel upplýstan hátt hvaða vélþýðingakerfi ætti að fájrfest í.

Inngangur: Hvað er vélþýðingarmat?

Mat á vélþýðingum vísar til mismunandi ferla við að mæla afköst vélþýðingarkerfis.

Það er leið til að ná fram gæðum vélþýðinga þannig að þú veist hversu gott kerfið er og það er traustur grundvöllur til að bera saman hversu árangursrík mismunandi vélþýðingakerfi eru. Til að gera þetta notar vélþýðingarmat mælanlega mælikvarða.

Af hverju eru mælikvarðar við mat á vélþýðingum mikilvægir?

Það eru tvær meginástæður fyrir því að meta þarf árangur vélþýðingakerfis. Í fyrsta lagi er það til þess að athuga hvort það sé nógu gott fyrir raunverulegt forrit. Í öðru lagi til þess að þjóna sem leiðarvísir í rannsóknum og þróun.

Til að athuga hvort það sé nógu gott fyrir raunverulegt forrit

Í fyrsta lagi er auðvitað að ákvarða hvort vélþýðingakerfið virkar á grundvelli sem er nógu góður fyrir raunverulega notkun. Þetta er ástæðan sem skiptir mestu máli fyrir notendur. Ef vélþýðingarkerfið virkar illa eru notendur líklegri til að velja eitthvað annað.

Iðngreinar sem nota vélþýðingar myndu einnig vilja öruggan mælikvarða til að ákvarða hvaða vélþýðingakerfi á að kaupa. Þegar öllu er á botninn hvolft er vélþýðing fjárfesting og fyrirtæki þurfa að fá það besta fyrir peningana sína.

Sem slíkur þurfa vélþýðingaverktakar að meta hvort gæði vélþýðingakerfisins séu nógu góð til að þeir geti sent það út til viðskiptavina.

Að þjóna sem leiðarvísir í rannsóknum og þróun

Vélþýðingakerfi eru, helst, ekki kyrrstæð eining. Tæknin fyrir vélþýðingar er stöðugt að batna með tímanum. Það er skynsamlegt að búast við því að vélþýðingakerfi verði betrum bætt.

Þetta er þar sem rannsóknir koma til sögunnar og vísindamenn þurfa að hafa einhverja leiðarvísa um hvar á að leita. Mælanlegr mælingar gera vísindamönnum kleift að bera saman hvort tiltekin nálgun sé betri en önnur og hjálpa þeim að fínstilla kerfið.

Þetta er sérstaklega gott til að sjá hvernig kerfið tekst á við samræmdar þýðingarvillur. Notkun mælanlegra mælinga getur sýnt, í viðráðanlegri aðstæðum, hvort tiltekin nálgun sé fær um að takast á við svona villur eða ekki.

Hvernig metur þú árangur vélþýðingar?

Það eru tvær mismunandi leiðir til að ákvarða frammistöðu vélþýðingakerfis. Mannlegt mat er gert af mennskum sérfræðingum sem gera handvirkt mat en sjálfvirkt mat notar mæligildi sem byggjast á gervigreind sem eru sérstaklega þróaðar til að meta gæði þýðinga án afskipta manna. Hvort um sig hefur sína kosti og galla. Við munum fara nánar í báðar tegundir vélþýðingamats í síðari köflum þessarar greinar, en fyrst er hér fljótlegt yfirlit yfir tvær tegundir vélþýðingamats, sem og aðferðir við vélþýðingamat sem nýta þær.

Mannlegt mat versus sjálfvirkt mat

Mannlegt mat á vélþýðingum þýðir að mat á þýðingagæðum er gert af mennskum fagþýðendum. Þetta er árangursríkasti kosturinn þegar kemur að því að ákvarða gæði vélþýðinga í heildina. En mannlegt mat, eins og með þýðingu manna, er í eðli sínu kostnaðarsamara og tímafrekara.

Sjálfvirkt mat notar aftur á móti forrit sem eru byggð sérstaklega til að meta gæði vélþýðingar samkvæmt mismunandi aðferðum. Það er ekki eins áreiðanlegt og mat manna á matsstiginu, en er góður kvarðanlegur valkostur þegar metin eru heildargæði þýðinga fyrir mörg skjöl.

Aðferðir við mat á vélþýðingum

Aðferðir við mat á vélþýðingum byggjast á hugtakinu smáatriði. Það er að segja á mismunandi stigum þar sem gæðin gætu talist mikilvæg.

Nálgun byggð á setningarfræði. Undir þessari nálgun er hverri setningu gefin einkunn þar sem sagt er til um hvort þýðingin sé góð (1) eða ekki góð (0) og heildinni gefin meðaleinkunn. Þetta er oftast gert þegar mennskir aðilar sjá um matið.

Skjalatengd nálgun. Einnig þekkt sem gagnaknúin nálgun, þá er setningum einnig gefin einkunn en marktæk einkunn er heildar- eða meðaltalseinkunn meðal margra stærri skjala. Þetta er lægsta þrepið þar sem sjálfvirkt vélþýðingamat getur talist marktækt þar sem farið er eftir tölfræði úr yfirgripsmiklu gagnasafni.

Samhengisbundin nálgun. Þessi nálgun er frábrugðin fyrri aðferðum þar sem hún tekur mið af því hversu vel heildar vélþýðingaverkefnið hentar þeim tilgangi sem það er sett í, frekar en með meðaleinkunn sem er byggð á setningum. Sem slík gæti það talist heildræn nálgun við vélþýðingamat.

Áskoranir í mati á vélþýðingum

Mat á vélþýðingum er erfitt ferli. Þetta er vegna þess að tungumálið sjálft er mjög flókið.

Í fyrsta lagi geta verið margar réttar þýðingar. Tökum til dæmis eftirfarandi setningu:

Skjóti brúni refurinn stökk yfir lata hundinn.

Vélþýðingakerfi gæti búið til eftirfarandi þýðingu í staðinn:

Hinn skjóti brúni refurinn hrökk yfir hinn ógeðslega hundinn.

Þetta er tæknilega rétt þýðing og aðmati manna væri hún eðlilega merkt sem slík. En í sjálfvirku mati væri hún merkt sem röng.

Lítil smáatriði geta einnig gjörbreytt merkingu setningar.

Hinn fljóti brúni ref stökk á lata hundinn.

Hér hefur aðeins einu orði verið breytt. En þetta eina orð breytir merkingu setningarinnar algjörlega. Sjálfvirkt mat er líklegra til að merkja það betra en fyrra dæmið. Mennskir þýðendur eru líklegri til að finna villuna, en sumir gætu talið það rétt.

Og það er vegna þess að tungumálið getur verið huglægt. Jafnvel mennskir matsmenn geta verið mismunandi í dómum sínum um hvort þýðing sé góð eða ekki.

Mannlegt mat: Gullstaðallinn

Nú þegar við höfum farið yfir grunnatriðin skulum við skoða ítarlega tvær tegundir vélþýðingamats, byrjum á á mati manna.

Á grunnstigi er markmiðið með vélþýðingu að þýða texta úr upprunamáli yfir á markmál á stigi sem menn geta skilið. Sem slíkir eru menn besti viðmiðunarpunkturinn til að meta gæði vélþýðingar.

Tegundir mannlegs mats

Það eru ýmsar mismunandi leiðir sem mannlegt mat er framkvæmt, sem við förum í núna:

Beint mat

Þetta er einfaldasta tegund mannlegs mats. Vélþýðingaframleiðsla er metin eftir setningafræði.

Áskorunin við beint mat er að mismunandi dómarar eru mjög misjafnir þegar kemur að því að gefa einkunn. Sumir hafa tilhneigingu til að vera öfgafullir hvað varðar einkunnagjöf og merkja þýðingar sem annaðhvort mjög slæmar eða mjög góðar. Aðrir kunna að vera íhaldssamari og merkja sömu setningar með einkunn nær meðaltali.

Önnur áskorun er aftur huglægnin.Við að dæma hvort setning sé slæm þýðing eða ekki þurfa matsmenn að taka ákvarðanir um tungumál sem er margrætt. Förum aftur í setninguna sem var tekin fyrir sem dæmi:

Hinn fljóti brúni ref stökk yfir latan hundinn.

Hér er hundur ekki endilega rangt, en það hentar ekki heldur best. Sumir matsmenn kunna að telja þetta nógu gott en aðrir gætu flaggað því sem fullkomlega röngu. Til dæmis, ef einkunn er gefin á 5 stiga kvarða gætu sumir þýðendur merkt hana sem 4 en aðrir gætu gefið henni aðeins 2.

Hægt er að vega upp á móti þessum áskorunum með því að ráða stærri hóp matsmanna, sem gerir kleift að staðla stigin eftir tölfræðilegum skilmálum.

Vægisröðun

Önnur leið til að meta vélþýðingarkerfi með mati manna er vægisröðun.

Í þessu tilfelli veita matsmenn ekki einstaka einkunn fyrir setningar heldur bera saman þýðingar úr mismunandi vélþýðingakerfum. Þeir ákveða síðan hver er besta þýðingin, hver er næstbesta, og svo framvegis.

Kosturinn við þessa aðferð umfram beint mat er að hún veitir strax beinan samanburð, andstætt því að bera saman einkunnir sem hafa verið gefnar yfir mismunandi rannsóknir og hugsanlega af mismunandi matsmönnum.

Hins vegar er vandamálið enn áskorunin um huglægni. Mismunandi vélþýðingarkerfi eru líkleg til að sýna fram á mismunandi villur. Til dæmis:

Hinn fljóti græni ref stökk yfir lata hundinn.

Fljótbrúnt ref stökk yfir latan hund.

Hinn fljóti brúni ref stökk yfir lata hundinn.

Hver setning er með einfalda villu. Sú fyrsta er mistúlkuð. Það vantar greininn í númer 2 Í þeirri þriðju er sögn ekki beygð.

Matsmenn þurfa nú að ákveða hvaða villa er mikilvægari en hin og aftur geta matsmenn haft mismunandi skoðanir á málinu.

Fyrirhöfn yfirlesturs

Ef tilgangur notandans fyrir vélþýðingakerfi er að undirbúa skjöl fyrir yfirlestur eru einnig leiðir til að meta það í samræmi við þá fyrirhöfn sem það tekur að lagfæra.

Grundvallartilgangur yfirlestrar er að leyfa þýðanda að vinna hraðar en ef þeir myndu þýða texta frá grunni. Sem slík er einfaldasta leiðin til að meta vélþýðingakerfi fyrir yfirlestur að taka tímann sem það tekur fyrir þýðandann að leiðrétta vélþýdda þýðingu.

Önnur leið til að meta fyrirhöfn við lagfæringar er að dálkasetja fjölda slátta á lyklaborðinu sem það myndi taka til að skipta út vélþýddum texta fyrir mannlega viðmiðunarþýðingu. Þetta er óháð tímatakmörkunum en tekur heldur ekki tillit til þess möguleika að það gætu verið margar réttar þýðingar.

Verkefnamiðað mat

Síðan er það verkefnamiðað mat sem, eins og nafnið gefur til kynna, metur vélþýðingakerfi út frá því hversu vel það hentar því verkefni sem fyrir hendi er. Til dæmis, ef það er notað í fjöltyngdum vefritstillingum, gætu þátttakendur verið beðnir um að meta reynslu sína af vélþýddu afriti. Þetta þýðir að þeir eru að meta árangur vélþýðingakerfisins í heild.

Vandamálið við þessa nálgun er að hún er mjög berskjölduð fyrir innleiðingu annarra stjórnlausra þátta sem geta haft áhrif á einkunnina sem matsmenn gefa. Sem slík er notkun verkefnamats mjög aðstæðuleg.

Almennar áskoranir í mati manna

Eins og þú hefur gert þér grein fyrir, koma mismunandi gerðir af mannlegu mati á vélþýðingum með sínar eigin áskoranir. Það eru líka nokkrar áskoranir sem þær deila í stórum dráttum og það hefur að gera með samræmi eða samkomulag.

Samningur á milli höfunda umsagnar

Þetta vísar til samræmis einkunna á milli mismunandi matsmanna. Eins og við nefndum áðan munu mismunandi matsmenn hafa misjafna tilhneigingu til að gefa sumum hlutum texta einkunn. Sumir gefa öfgafulla einkunn en aðrir nálgast meðaleinkunn. Þegar mismunandi vélþýðingavélum er vægisraðað geta skoðanir þeirra einnig verið mismunandi. Þess vegna er mikilvægt að hafa marga matsmenn, svo að dreifing einkunna verði eðlileg.

Samningur á milli höfunda umsagnar

Hvernig hver og einn matsmaður gefur texta einkunn er einnig mælikvarði á gildi. Matsmaður gæti gefið setningu einkunn sem góð eða slæm í fyrsta skipti, en gæti svo skipt um skoðun þegar sama prófið er endurtekið. Há mæling á samkomulagi á milli höfunda umsagnar tryggir að valinn matsmaður geti talist stöðugur og áreiðanlegur.

Sjálfvirkt mat: Kvarðanlegur valkostur

Mannlegt mat er talið gullstaðalinn þegar kemur að því að meta gæði vélþýðingar. Það er hins vegar kostnaðarsamt verkefni hvað varðar fyrirhöfn og tíma. Þetta er ástæðan fyrir því að vísindamenn á þessu sviði hafa þróað mismunandi leiðir til að meta gæði vélþýðinga með sjálfvirkum ferlum.

Þessi ferli eru hönnuð til að áætla hvernig menn munu meta vélþýðingakerfið. Auðvitað eru þeir langt frá því að vera fullkomnir í þessu, en sjálfvirkt mat hefur samt mjög mikilvægt í notkun.

Helsti kosturinn við sjálfvirkt mat versus mati manna er kvarðanleiki þess. Það er miklu fljótlegra að keyra hundruð tilfella sjálfvirks mats en eina umferð af mati manna. Þetta gerir það að tilvalinni lausn þegar þú framkvæmir fínstillingar eða hagræðir vélþýðingakerfinu, sem þarfnast skjótra niðurstaðna.

Áskoranir í sjálfvirku mati

Ólíkt mönnum eru vélar ekki búnar til að takast á við mismunandi blæbrigði tungumálanotkunar. Sjálfvirk matskerfi byggjast á því að vélþýðingar hafi nákvæma samsvörun við viðmiðunartexta og minniháttar mun sem getur haft áhrif á lokaeinkunnina. Þessi munur getur falið í sér frávik í formgerð, notkun samheita og málfræðilega röð.

Allt sem getur talist tæknilega eða meira og minna rétt af mannlegum matsmanni getur hugsanlega verið refsað í sjálfvirku mati. Engu að síður er fjöldi nákvæmra samsvarana, sérstaklega þegar litið er á stórt sýnishorn af texta, er oft nóg til að gera sjálfvirkt mat mögulegt til notkunar.

Sjálfvirkur matsmælikvarði

Það eru ýmsir mismunandi sjálfvirkir matsmælikvarðar í boði í dag. Hér eru nokkur dæmi um þá sem eru í notkun:

● BLEU (Bilingual Evaluation Understudy)

● NIST (frá National Institute of Standards and Technology)

● METEOR (mælikvarði fyrir mat á þýðingum með augljósri röðun)

● LEPOR (Length-Penalty, Precision, n-gram Position Difference Penalty and Recall)

● HALASTJARNA

● PRIS

● TER (villuhlutfall þýðingar)

Hver mælikvarði vinnur á mismunandi reikniritum og sem slík höndla ferlið við sjálfvirkt mat á annan hátt. Það þýðir að þeir hafa mismunandi styrkleika og veikleika, og eru mismunandi um hvers konar villur þeir gefa hærri eða lægri viðurlög við.

BLEU, vinsælasti mælirinn

Af öllum mælikvörðum sem taldir eru upp hér að ofan er BLEU sá sem er oftast notaður. Hann var einn af fyrstu mælikvörðunum til að ná mikilli samsvörun við mat manna og hefur skapað mörg mismunandi afbrigði.

Hann virkar þannig að einstökum setningum er gefin einkunn á móti mörgum hágæða viðmiðunarþýðingum. Þessi einkunn er síðan fundið meðaltal af og sú tala sem myndast er endanleg BLEU einkunn fyrir það vélþýðingakerfi. Þeseei einkunn táknar hversu náin framleiðsla vélþýðingakerfisins passar við viðmiðunarþýðingu manna, sem er merkið fyrir gæði.

Einkunnirnar eru reiknaðar með því að nota einingar sem kallast n-stæður, sem vísa til hluta samfellds texta. Ef við förum aftur í setninguna sem var tekin sem dæmi hér áðan, til dæmis:

Skjóti brúni refurinn stökk yfir lata hundinn.

Þessu er hægt að skipta í n-stæður af mismunandi lengd. Tveggja stæða, til dæmis, væri “The quick”, “quick brown” eða “brown ref”. Þriggja stæða væri “The quick brown” eða “quick brown ref”. Fjögurra stæða væri “The quick brown ref”. Og svo framvegis.

Þetta er flókið stærðfræðilegt ferli, en í grunnskilmálum reiknar reiknirit BLEU einkunnina með því að athuga fjölda skarana á milli n-stæða. Reiknuð einkunn verður á milli 0 og 1, þar sem 1 táknar alveg eins samsvörun milli viðmiðunar- og framleiðslusetningarinnar. Taktu nú eftirfarandi breytileika á setningunni sem er tekin sem dæmi:

Hraðbrúni refurinn stökk yfir lata hundinn.

Allar n-stæður munu passa nema þær sem eru með orðið “hratt”. Annað dæmi:

Fljótbrúni refurinn stökk yfir hundinn.

Í þessu dæmi vantar orðið “latur”, þannig að það hefur einnig áhrif á neikvæða skörun. Í báðum tilvikum væri einkunn BLEU enn há, en lægri en 1.

Í reynd munu ekki margar setningar sýna svona mikla samsvörun. Sem slík verða BLEU einkunnir aðeins tölfræðilega marktækar þegar þær eru tek í samhengi við stórt sýnishorn af texta, eða corpora.

Það eru auðvitað aðrir þættir sem þarf að taka með í reikninginn þegar BLEU einkunn er reiknuð út , svo sem viðurlög við aukaorðum eða mjög stuttum setningum. Önnur afleidd einkunnagjafakerfi hafa verið þróuð til að bæta fyrir galla þess, en BLEU er áfram mjög vel metið og heldur áfram að vera mest notaða matskerfið fyrir vélþýðingar í dag.

Lokaorð um mat á vélþýðingum

Og það tekur til grundvallaratriða í mati á vélþýðingum. Eins og við höfum sýnt er hægt að meta vélþýðingakerfi með mati manna eða sjálfvirku mati. Báðir ferlar hafa sína kosti og galla.

Mannlegt mat er gullstaðallinn hvað gæði varðar en er dýrt og tímafrekt. Sjálfvirk þýðing er ekki eins nákvæm, en hún er fljótleg og kvarðanleg. Sem slík hafa báðar gerðir sín sérstöku notkunartilvik þar sem þær skína.