Ön mikor fogott utoljára tollat a kezében? Digitalizált világunkban kétségtelenül jóval többet írunk számítógépes szövegszerkesztővel, mint papírra. Ezek a programok nem csak abban segítenek nekünk, hogy szép kinézetű szövegeket hozzunk létre, hanem az igényes megfogalmazásban is támogatnak. Egy rövid „helyesírási versennyel” megvizsgáltuk, hogyan.
Mit várhatunk el?
Mielőtt eredményt hirdetnénk (és ítéletet mondanánk), nem árt végiggondolni, mire lehet képes egy gépi helyesírás-ellenőrző, illetve hogy mire szeretnénk valójában használni. Az biztos, hogy a számítógépnek nem lehet úgy megtanítani a helyesírási szabályzatot, ahogy azt egy ember ismeri és használja, hiszen mit kezdhetne például a kiejtésre vagy a jelentésváltozásra vonatkozó szabályokkal? Számára a begépelt szó nem jelent többet egy számsornál, és sosem hallotta azt kiejtve. Az elütéseket és az egyszerű hibákat a szótár alapján szűrik a rendszerek, és matematikai módszerrel keresnek a leírt alakhoz közeli, a szótárban megtalálható javaslatot. A szó szintjén nem felismerhető hibákat viszont, mint például az egyeztetés vagy az összetett szavak helyesírása, nagyon nehéz gépi eszközökkel kezelni. Ilyen esetekben már a nyelvi elemző erősségén múlik a hibajavítás sikeressége.
A csuklós + busz + vezető bemenet kétféle javaslatának elemzései a helyesiras.mta.hu által (Miháltz–Ludányi 2013)
A verseny
A versenyben két szövegszerkesztő, egy internetes helyesírási szótár és egy helyesírási tanácsadó portál vett részt. A népszerű Microsoft Word helyesírás-ellenőrzőjének alapja a Morphologic által fejlesztett Helyesek elnevezésű programcsomag. Vetélytársa a Google Chrome, Firefox és a Libre Office által is használt Hunspell nevű szabad szoftver. Emellett versenyeztettük még az MTA nemrég készült weboldalát (amit mi is bemutattunk), a helyesiras.mta.hu-t és a legnagyobb magyarországi helyesírási adatbázist, a magyarhelyesiras.hu-t, bár ez utóbbi nincs egészen azonos súlycsoportban a többiekkel, hiszen csak szótár, nincs elemzőrendszere.
A teszt négy feladattípusból állt, ebből három – mind embernek, mind gépnek – kifejezetten nehéznek mondható. Az ellenőrzőknek dönteniük kellett összetett szavak kötőjeles vagy egybeírásáról, javítaniuk kellett földrajzi neveket és azok -i-képzős alakjait, alkalmazniuk kellett toldalékolási és mássalhangzó-egyszerűsítési szabályokat, illetve hosszú és rövid magánhangzók között kellett választaniuk. A felismert és javított szavakért 1 pontot kaptak a versenyzők, ha jót javítottak rosszra, -1-et, ha nem volt reakció, 0-t, ha pedig felismerték, hogy az alak hibás, de nem adtak rá javaslatot, akkor fél pontot.
Az összetett szavak
Az összetett szavak gépi ellenőrzésénél leginkább az okoz gondot, hogy a rendszer nem tudja eldönteni, hány szóval van dolga. Ha az összetett szavakat egybe írjuk, javíthatjuk a program esélyeit. További probléma ennél a feladatnál, hogy az összetételek tagjai közötti viszony elemzése nagyon nehéz egy jelentést nem ismerő gép számára. Ezek után nem nagy meglepetés, hogy a teszt első részével mindkét szövegszerkesztőnek meggyűlt a baja.
- A Hunspell minden harmadik szót talált meg a szótárában, de az ismeretlen szavakat nem tudta kezelni.
- A Word ezen a feladaton negatív eredményt ért el, azaz ebben a kérdésben, úgy tűnik, többet árt, mint használ.
- A magyarhelyesiras.hu összetettszó-adatbázisa nagyobbnak és hatékonyabbnak bizonyult a Hunspellénél: 64%-ban kiadta a helyes alakokat.
- Az MTA portálja külön modult szán az egybe- vagy különírás kérdésének, és ezen a kidolgozott elemzőrendszeren nem lehetett kifogni. A teszt mindegyik szavát hibátlanul javította, sőt, részletes magyarázatokkal is ellátta a felhasználót.
Az egybe-különírás eredményei százalékokban:
A földrajzi nevek
A földrajzi nevek helyesírására vonatkozó rész még kevésbé volt sikeres. Ha a vonatkozó szabályokra gondolunk, kiderül, hogy a helyesíráshoz sok esetben világismeretre is szükség van. Ám egy gépi ellenőrzőnek már az sem triviális feladat, hogy rájöjjön, hogy a szó egy földrajzi név, arról már nem is beszélve, hogy természet- vagy emberalkotta-e, vagy hogy mi az alaptag: köznév, tulajdonnév vagy -i képzős alak. A szövegszerkesztők a különírt vagy kötőjeles, illetve a kis- és nagybetűs verziók között alig tudtak különbséget tenni.
- A Hunspell a megadott 17 földrajzi névből csupán egyet javított jóra és kettőt ismert fel hibásként, de nem kaptunk javaslatot a javításra. A többinél semmilyen szabálytalanságot nem jelzett.
- Hasonló eredményt kaptunk a Word ellenőrzőjével is, amely bár két hibás alakot felismert és javított, de egy jót is kijavított rosszra (Maros-Körös köze).
- A magyarhelyesiras.hu ebben a körben jól teljesített, a beírt nevek felét ismerte.
- Az MTA névkereső modulja pedig 59%-ban adott jó választ.
A földrajzi nevek eredményei százalékokban:
Toldalékolás és mássalhangzó-egyszerűsítés
A nevek toldalékolása és a mássalhangzó-egyszerűsítés kérdése sem bizonyult könnyű feladatnak. Ehhez sokszor a kiejtés ismeretére van szükség, ami szintén nehezen várható el egy számítógéptől.
- A Word alig ismerte fel a hibákat, de néha a helyesen leírt szavakat sem tudta értelmezni, ezen a részen is szerzett mínuszpontot. Az összteljesítménye 9%.
- A Hunspell ennél jóval ügyesebb volt, 59%-ban jó javaslatokat adott.
- A magyarhelyesiras.hu láthatóan alig tudja kezelni a toldalékolt alakokat, ami nem meglepő, hiszen nem rendelkezik morfológiai elemzővel, mint vetélytársai. Adatbázisban viszont viszonylag erős, a keresett szavak harmadát megtalálta, igaz, nem mindet elsőre. A szótár általános hátránya, hogy nehezen kereshető. Ha nem tudjuk, hogy kell leírni, amire kíváncsiak vagyunk, nem biztos, hogy kapunk találatot.
- A helyesiras.mta.hu ebben a blokkban is győzött, 5%-kal volt eredményesebb a Hunspellnél.
A nevek toldalékolásának eredményei százalékokban:
A hosszú és rövid magánhangzók
A hosszú és rövid magánhangzós szavak felismerését mindegyik ellenőrző jól végezte, csupán 2-3 hibát vétettek el, ezenkívül minden esetben a jó alakot javasolták.
- A Hunspell és a Word becsületét ez a feladat mentette meg, ebben mindkettő csak két szónál hibázott (a megszüntet és az anaforikus szavaknál).
- Az internetes helyesírási szótár a 24 keresett szóból hármat nem ismert (anonim, úti és anaforikus).
- Az MTA ellenőrzőjén pedig csak az anaforikus szó fogott ki.
A nevek toldalékolásának eredményei százalékokban:
A végeredmény
Az összesítésben jól láthatjuk, hogyan végeztek versenyünkben a helyesírás ellenőrzők. Az MTA portáljának győzelme talán nem véletlen, hiszen mind a Hunspellt, mind pedig a Morphologic által fejlesztett eszközöket (HuMor, Helyes-e?) is használja az eredmények kiadásakor. A pontos működésről ide kattintva lehet olvasni.
Versenyünk végeredménye százalékokban:
A verseny a teljesség igénye nélkül készült, és inkább játék, mint reprezentatív teszt, de a legfontosabb tanulság így is jól látható: egyik rendszer sem gondolkodik helyettünk (eleget). Bár az egyszerű és tipikus hibákat mindegyik program jól kezelte, a bonyolultabb problémákat már nem bízhatjuk egészen a gépre. A piros aláhúzás jelzés: nézzük meg még egyszer, mit írtunk, gondoljuk át, helyes-e így, és ha kell, nézzünk utána. Üssük fel például A magyar helyesírás szabályait.
Dömötör Andrea
Forrás:
Miháltz Márton – Ludányi Zsófia (2013): helyesírás.mta.hu: automatizált helyesírási tanácsadás nyelvtechnológiai módszerekkel. Magyar Tudomány Ünnepe 2013. Budapest, 2013. november 11. (Prezentáció, kézirat.)
Meg lehet-e esetleg kapni a tesztszavak listáját? Főleg az érdekelne, hogy milyen bemeneteket kapott a Külön vagy egybe?, illetve az is, hogy a toldalékolás és mássalhangzó-egyszerűsítés témakörében mik voltak a tesztadatok.
Persze, elküldöm e-mailben a listát.