„Ez a lehetőség arra, hogy egy ilyen győzelem tetejére divat napszemüveg! Ne le a nyári fogás felkészületlen!” Ilyen és hasonló magyarságú – vagy inkább magyartalanságú – hirdetésekkel nap mint nap találkozhatunk az interneten. Tudjuk, nem ember írta, hanem egy automatikus fordító. Az viszont már kevésbé ismert, hogy a gépi fordítás immár 60 éves múltra tekint vissza. Ezek után persze felmerülhet a kérdés: és még mindig csak ennyire képes?
Egy kis történelem
Az automatikus fordítás lehetőségét a II. világháború után kezdték el kutatni Amerikában. Az első gépi fordítórendszert 1954-ben mutatták be. Ez oroszról fordított angolra, néhány szabály és egy kis szótár segítségével. Hamar kiderült azonban, hogy a szabályalapú rendszerek kidolgozása nagyon költséges, és a fordítások minősége messze alulmarad az emberi teljesítménytől. Más módszereket kellett keresni, és valójában ezzel született meg a számítógépes nyelvészet mint tudományág.
Hogy fordít a gép?
A gépi fordítást kezdetben tehát szabályalkalmazások sorozataként képzelték el. Ezek a forrásnyelvi szöveget először morfológiai elemzésnek vetik alá, majd szótár segítségével lefordítják a szavakat, ebből végül rendezéssel jön létre a célnyelvi szöveg. Ilyen elven működnek például a ma is létező SYSTRAN és METEO rendszerek.
A mostani szabály alapú gépi fordítók az előbbi továbbfejlesztését, az úgynevezett transzfer módszert alkalmazzák, amely már nem csak szavakat fordít, hanem mondatszerkezeteket, frázisokat is.
A gyorsaság és költséghatékonyság igénye azonban létrehozta a másik fő irányvonalat, a statisztikai gépi fordítást. Bármily meglepő, a jelenleg működő gépi fordítók nagy része nem, vagy alig használ nyelvi ismereteket, ehelyett matematikai elven működik. Ennek lényege, hogy a rendszert nagy mennyiségű minta adattal (mondatpárokkal) betanítják, az algoritmus ebből építi fel magának a fordítási modellt (melyik forrásnyelvi mondatnak mi a jó fordítása) és a nyelvmodellt (milyen a jó célnyelvi mondat). A módszer gyors és egyszerű, nagy hátránya viszont, hogy amire nincs minta, azzal nem boldogul. Továbbá nem mindig az a jó fordítás, ami a gyakoribb. Klasszikus példa erre a postás és a kutya esete:
„A postás megharapta a kutyát.” bing-fordítása: “The dog bit the Mailman.”
Azaz a fordító szerint a kutya harapta meg a postást, elvégre ez az eset jóval gyakoribb, nyelvi elemző modul pedig nincs, ami eldönthetné, mi itt az alany, és mi a tárgy.
Mit tud a gépi fordítás napjainkban?
Az elméleti bevezető után lássuk végre a tesztet! Három rendszert próbáltunk ki. Ebből kettő statisztikai alapú: a talán legismertebb Google Fordító és a Microsoft által fejlesztett Bing. Velük versenyzik a Morphologic elemző modult is tartalmazó hibrid rendszere, amely a webforditas.hu oldalon érhető el.
A tesztszöveg
- A tesztszöveg a bbc.com következő rövid híre volt:
Rescue efforts are being stepped up to help those affected by the magnitude-7.5 earthquake which hit remote areas of Afghanistan and Pakistan on Monday.
More than 360 people are known to have died, most of them in Pakistan, and at least 2,000 were injured.
Rescue teams have been sent to remote mountainous areas where the impact of the quake is still unclear.
A megoldások:
- Google:
Mentési erőfeszítések folynak fokozni, hogy segítse az érintettek által a nagysága-7.5 földrengés sújtotta, amely a távoli területek Afganisztán és Pakisztán hétfőn.
Több mint 360 embert ismert, hogy meghalt, legtöbbjük Pakisztánban, és legalább 2000 sebesült meg.
Mentőcsapatok küldtek távoli hegyvidéki területeken, ahol a hatását a rengés még nem tisztázott.
- Bing:
Mentési erőfeszítések segíti az érintetteket a nagysága-7.5 földrengés, amely hit távoli területein Afganisztánban és Pakisztánban, hétfőn folyamatosan mélyülnek.
Több mint 360 ember ismert, hogy meghaltak, legtöbbjük Pakisztánban, és legalább 2000 megsérült.
Mentőcsapatok volt küldött-hoz távoli hegyvidéki területeken, ahol a földrengés hatása még nem tisztázott.
- webforditas.hu:
Mentőerőfeszítéseket növelnek hogy segítsenek azoknak, akikre hatott az a 7.5-ös erősségű földrengés, ami hétfőn ütötte Afganisztán és Pakisztán távoli területeit.
Több 360-nál embereket ismernek hogy haljanak meg, most ők Pakisztánban, és legalább 2,000-et megsebesítettek.
Mentőcsapatokat küldtek olyan távoli hegyes területekre, ahol a rengés ütközése még mindig nem világos.
Úgy tűnik a mondatokkal mindhárom rendszer nehezen boldogul. Mi lenne, ha megpróbálnánk csak a nehéz szavakat megnézni? A szövegfordítókat szótárnak használni problémás lehet, hiszen ezeknek az a célja, hogy a legjobb megoldást adják. Azonban mi lehet egy szó legjobb fordítása? Többjelentésű szavak esetén ezt lehetetlen eldönteni a szövegkörnyezet nélkül.
Lássuk a Bing javaslatait a szöveg néhány szavára:
- rescue – mentési
- efforts – erőfeszítéseket
- stepped up – fokozni
- affected – érintett
- magnitude – nagysága
- hit – (nincs fordítás)
- remote – távoli
- impact – hatása
- quake – (nincs fordítás)
- unclear – nem egyértelmű
A statisztikai rendszer minden keresett szóra (legfeljebb) egy fordítást ad, azt, amelyikkel a tanító mondatpárokban leggyakrabban szerepel együtt. Ezért van az, hogy néhol egyszerű szavakra is ragozott fordításokat kapunk, de ez a kisebbik gond, a nagyobb az, hogy a ritkább jelentéseket így sosem fogjuk megtudni.
A Google Fordító és a webforditas.hu felismerte ezt a problémát, és alkalmazkodott a felhasználói igényhez: ha szótárnak akarjuk használni a szövegfordítót, egyszerűen átirányít a szótár modulhoz, ahol már megkapjuk a keresett szó különböző lehetséges jelentéseit. Emellett a Google a szinonímákat és az egynyelvű szótári definíciókat is kiadja, illetve mindkét rendszer felajánlja további keresésre a szóval alkotható összetett kifejezéseket is. Ezekkel már lehet jól fordítani, de a nyelvtant még mindig nekünk kell tudnunk…
A tanulság
Annak megítélése, hogy ki győzött, szubjektív. Azt azonban mindenképp látni kell, hogy a gépi fordítók nem arra valók, hogy Shakespeare-t fordítsanak, de még csak arra sem, hogy elkészítsék a házi feladatunkat vagy az önéletrajzunkat. Ezekre a rendszerekre azért van szükség, hogy segítsenek feldolgozni a minket körülvevő rengeteg információt. Az elsődleges kérdés tehát az, hogy a fentiekből akkor is megértjük-e, mi történt Afganisztánban, ha nem tudunk angolul.
Persze, szeretnénk tökéletes, szép magyar mondatokat olvasni, de addig még hosszú az út.
Dömötör Andrea
Irodalom: Prószéky Gábor: A nyelvtechnológia (és) alkalmazásai, eVilág Kiskönyvtár sorozat, Bp., 2005.