A Microsoft Office és az OpenOffice.org magyar nyelve

 

Ahogy több független (az egyik esetben Mártonfi Attila, az MTA Nyelvtudományi Intézet munkatársa, a mérvadó, Osiris Kiadónál megjelent Helyesírás című kötet társszerzője segítségével készült) vizsgálat korábban megmutatta, a magyar szavak helyesírás-ellenőrzésében a Microsoft Office elmarad az ingyenes, nyílt forráskódú OpenOffice.org-tól.1,2 Az elmúlt évek fejlesztéseinek köszönhetően a többi nyílt forráskódú nyelvi eszköz (elválasztóprogram, nyelvhelyesség-ellenőrző, szinonimaszótár) is felzárkózott és számos pontban felül is múlja zárt vetélytársát.

[A cikk eredeti, szabadon terjeszthető PDF változata.]

Helyesírás-ellenőrző

A leggyakrabban használt nyelvi segédeszköz a szavak szintjén működő helyesírás-ellenőrző. A nyílt forráskódú magyar helyesírási szótár3 dokumentációja külön fejezetben sorolja fel a Microsoft Office és a nyílt forráskódú alternatívája közötti különbségeket, sok súlyos hibát feltárva a Microsoft Office magyar helyesírás-ellenőrzőjében4 2003-ban készült az összehasonlítás, az azóta javított hibák (mint a csak hibásan elfogadott *csevely cseréje a helyes csevej alakra, vagy a *kultúrált és *analfabétizmus tiltása) ellenére a Microsoft Office elmarad a nyílt forráskódú megoldástól. A következő felsorolás a Microsoft Office 2007 helyesírás-ellenőrzőjének, a Helyes-e?-nek ismert hibáiból azokat mutatja be, amelyeket a fejlesztő MorphoLogic Kft. a saját szoftverének Webforditas.hu oldalon kipróbálható újabb változatában sem javított még:

Helyesírás-ellenőrzés az OpenOffice.org-ban
  1. Elfogad számos ly-j; i-í, u-ú és ü-ű tévesztést, amelyek hagyományosan a legsúlyosabb magyar helyesírási hibák közé tartoznak. Például: *bolytorján, *csuklyalak, *estéj, *estéji, *kardbolyt, *kordéj, *rostéj, *súlytat, *súlytót, *szegéj, *szentéj, *szeszéj, *tartáj, *tökéj, *ugorlyuk, *vállbolyt stb.; *bíztat, *bíztató, *bíztatás, *csínos, *nyílván, *ívódik, *hírtelen, *hívatásos, *píros, *szervízelés, *szivató stb.; *átlagáru, *vasárú, *beszűntetés, *fogfurás, *hu, *hü, *fűzek, *fűzes, *tűntetés stb.
  2. Az összetett szavaknál sokszor túl engedékeny: *butakutya, *kislépték, *nagyterv; *álható, *árpilis, *kerthelység, *kézpénz, *kisseb, *kissebség, *ködbér, *menybolt, *mennyasszony, *ujjság, *újperc stb., gyakran pedig túl szigorú, mert helyenként az egyszerű szóösszetételeket is elutasítja: ebrendészet, hőtakarékos, hővédelem, ízkavalkád, lőtábla, műízű, sóréteg, zöldséglé stb.
  3. A szakszövegekben különösen gyakori többszörösen összetett szavakat nem ismeri fel, ha nem bonthatók fel két általa ismert szótári alakra. Ilyen hibásnak jelölt szavak az agykamratágulat, eperlevéltea, képpontméret, kakaóporgyártás és még számtalan egyéb példa.
  4. Szókincse hiányos a nyílt forráskódú szótárhoz képest. Példák az ismert, de a Microsoft Office által hibásnak jelölt szavakra: al-Káida, aukciósház, bioetanol, blog, cellulitis, dodó, ételérzékeny, exobolygó, fajgazdag, fotoszintetizál, glett, hangoskönyv, hiperkocka, hiphop, hipotalamusz, hungarikum, Hungaroring, idared, impaktfaktor, interferál, kultiváció, lovári, mediáció, melegfelvonulás, paracetamol, peszticid, sajtburger, szonár, tiszavirágzás, makroadat, mediáció, mikroökonómia, onkogén, titkosszolga, újrafeldolgoz, Wikipédia, zoomol, zrt., zsírdús stb.
  5. Az alaktani hibák a pontatlan nyelvi leírásból fakadnak: *aljájára, *izzz, *izzzon, *izzzanak; *mászza, *játszzák; *hölgyök, *tölgyök; *kocsiijai, *moziijai; *mohval; *meghalja, *történed, *évődi, *íródd, *ivódd; *mohval; *késsz, *lépt; *hatat, *hattat; *bonttat, *kértess, *nyitass, *ütet, *oktatatnak, *történtetnek; *vészja, *vésznak, *vésztak; *puffféle; *továbbburjánzik; *észszerűség, *dzsesszszerű; *kulimászszerű; *medvészerű, *mangrovészerű; *Némethhel, *Budapestszerű; *Einsteinféle; *thaival stb., miközben elutasítja a következő helyes alakokat: edzd, pedzd; kocsijai, mozijai; Béláék, unokámék; kulimásszerű; New York-iakat; linuxos, windowsos; thaijal stb.
  6. Egyes szavak hibás alakban is szerepelnek a szótárban: *aszkétikus (aszketikus), *gargalizál (gargarizál), *trikolor (trikolór), *szférikus (szferikus) stb., de van, ami csak hibásan: *adresz (adressz), *bájtos (byte-os), *entuziazmus (enthuziazmus), *libling (liebling), *Lódz (Łódź), *mancsaft (mannschaft), *szanszevéria (szanszeviéria), *szkunksz (szkunk), *Skoda (Škoda), *zloty (złoty) stb. Példák még az önálló alakban nem létező, elavult vagy értelmetlen szavakra, amiket a Microsoft Office helyesnek ítél: ál, bel, fesz, pót, süv, tel, veé.
  7. Helyes ékezetek az OpenOffice.org-ban
  8. A jóval szélesebb lehetőségeket nyújtó Unicode karakterkódolás kezelése teljes mértékben hiányzik a Microsoft Office helyesírás-ellenőrzőjéből, ezért sem ismeri a következő szavakat: Ångström, Babeș–Bolyai, Camões, Chișinău, Ceaușescu, crô-magnoni, curaçao, déjà vu, görög ábécé (α-ról, β-sugárzás, ε-nal, μ-ről stb.), El Niño, Molière, Nexø, œuvre, pietà, São Paulo, voilà stb. (A helyesírási szabályzat előírja az idegen ékezetek és latin betűk használatát, ha erre lehetőség van, mint a mai szövegszerkesztőkben.)
  9. Hibára adott javaslatai rendkívül hiányosak, rosszak vagy hiányoznak. Ezzel szemben az OpenOffice.org kifinomult javaslattevő képességével nemcsak a hasonló szavakra ad javaslatot (pl. előről → elölről, Csaucseszku → Ceaușescu, arvizturo → árvíztűrő), hanem az eltérőbbekre is (file-t → fájlt, sármos → charme-os, csivava → chihuahua).

Az OpenOffice.org magyar helyesírási szótárából 16 új kiadás jelent meg a legutóbbi, 2003-as összehasonlítás óta. A folyamatosan megújuló szókincs jól tükrözi a magyar köznyelv változásait. Például a zrt., nyrt. rövidítések már a megjelenésüket követően bekerültek a nyílt szótár következő kiadásába. A Microsoft Office-nál felsorolt hiányosságok nem vagy csak sokkal kisebb mértékben jellemzik. Ilyen hibák például, hogy néhol kötőjel nélkül is elfogadja a többszörösen összetett, hat szótagnál hosszabb szavakat (pl. olajáremelkedés), helyes összetételeket jelezhet hibásnak, mint például régebben a ligatúrahasználat, notebooküzletág szavakat (ez utóbbi kettő a Microsoft Office-ban még hibásan van kezelve).

Ragozott szinonimák az OpenOffice.org-ban

Szinonimaszótár

Az OpenOffice.org szinonimaszótára amellett, hogy 20 ezer szavas szókincse összemérhető a Microsoft Office-éval, számos újdonságot is tartalmaz. Ilyen a tövezés és toldalékolás, az Unicode karakterkészlet támogatása, és több száz Unicode karakter felvétele is. A képen látható példában a „nyiluktól” szóra kattintás és a szinonimaszótár előhívása után megjelenik a nyíl tőszó, és a nyílvesszőjüktől szinonima, ami a keresett szóalaknak megfelelően van toldalékolva. Láthatóak még az Unicode nyíl karakterek is, amelyek így nemcsak a speciális karakterek beillesztése párbeszédablak, hanem a szinonimaszótáron keresztül is elérhetővé váltak. Nemcsak a nyilak, hanem a görög ábécétől kezdve matematikai és sok egyéb szimbólum is kereshető név alapján az OpenOffice.org szókincstárában.

Helyes elválasztás az OpenOffice.org-ban

Elválasztás

Az elválasztás lehetővé teszi a szép, egyenletes szedést sorkizárás esetén, amellett, hogy takarékos nyomtatást eredményez. A Microsoft Office 2007 nem választja el azokat a szavakat, amelyeket nem ismer fel a helyesírás-ellenőrző. Mivel ez gyakran előfordul a programban, ráadásul éppen a hosszú összetett szavaknál (lásd a szóellenőrzésről szóló szakaszt), a program nem alkalmas a teljesen automatikus szedésre: ellenőrizni kell a szöveget és kézzel javítani a szedési hibákat, csak így lehet eltüntetni a szövegből az elfogadhatatlanul nagy szóközöket.
A Webforditas.hu oldalon kipróbálható MorphoLogic elválasztóprogram már megpróbálkozik az ismeretlen szavak elválasztásával is, de az OpenOffice.org-énál lényegesen egyszerűbb és így pontatlanabb megoldással. Például a következő hibákat véti a mellékelt szavak elválasztásánál: *bir-salmalé, *pá-csó, *szu-burbanizáció, *titkosz-szolga, *utá-négető, *vörö-seltolódás. Ebből a szuburbanizáció a Helyes-e? helyesírás-ellenőrző által felismert szó, tehát ez sem garancia a helyes elválasztásra.
További különbség, hogy az OpenOffice.org elválasztóprogramja támogatja az Unicode karakterkódolást. Az OpenOffice.org magyar elválasztási szótárának unicode-os kiegészítése helyesen választja el a nyílt forráskódú helyesírási szótárban szereplő idegen ékezetes szavakat.

Mondatszintű helyesírás-ellenőrzés

Mondatellenőrzés az OpenOffice.org-ban

A szóellenőrzőn lép túl a mondatellenőrző (nyelvhelyesség-ellenőrző), aminek egyik leghasznosabb tulajdonsága, hogy a mondatszinten jelentkező elütések, hiányzó vagy felesleges szóközök és írásjelek, írásjel- és szótévesztések, a súlyosabb egybe- és különírási hibák nem kerülik el a felhasználó figyelmét. 2009-ben, pár hónappal azután, hogy az OpenOffice.org irodai csomagban megjelent a nyelvhelyesség-ellenőrzés támogatása, elkészült a magyar nyelvhelyesség-ellenőrző első változata is, több száz szabállyal az említett hibák kiszűrésére. A Microsoft Office nyelvhelyesség-ellenőrzőjével ellentétben alapértelmezett beállításként minél kevesebb téves hibajelzést ad, hogy a felhasználóknak eszükbe se jusson kikapcsolni. A következő változatokban pedig helyet kap egy igazi újdonság: a kényelmes, de sok hibát okozó összetettszó-felismerő algoritmus több szintes kikapcsolási lehetősége, amivel a korrektorok az elütéseket vagy az optikai karakterfelismerő programok hibáit sokkal könnyebben fogják tudni javítani.

Számok magyar, angol és orosz szöveggé alakítva az OpenOffice.org Calc táblázatkezelőjében

Számok gépi fordítása

Az OpenOffice.org-hoz kapcsolódó nyelvtechnológiai újdonságok jó példája a magyar fejlesztésű NUMBERTEXT OpenOffice.org-kiegészítés. A számok automatikus számnévvé alakítása megkönnyíti a szerződések, számlák, banki dokumentumok elkészítését. Míg a Microsoft Office csak thai nyelven képes a számokat számnévre és thai pénznemre, bátra és szatangra átalakítani az azóta már nemzetközi szabványként is elkönyvelt BAHTTEXT függvénnyel, addig a NUMBERTEXT és MONEYTEXT függvények ezt tetszőleges (jelenleg mintegy 30) nyelvre és nyelvenként több pénznemre megteszik, így magyarra és forintra is. A fejlesztés során kidolgozott új programnyelv- és függvényspecifikáció a megfelelő OASIS munkacsoporthoz is benyújtásra került, hogy a nemzetközi ISO/OASIS OpenDocument dokumentumformátum-szabvány részévé váljon.5

Honosítás

Az OpenOffice.org helyes dátumformátumai

Bár a nyelvtechnológia fontos része az irodai csomagoknak, a használhatóság mögött azért jóval többnek kell állnia. Egy nem hazai fejlesztésű programnál különösen fontos szerepe van a honosításnak, ami a program felületének, beépített dokumentációjának és egyéb magyar nyelvre átültetett funkcióinak összessége. A nyelvtechnológián felül kiemelhető, hogy az OpenOffice.org a Microsoft Office-hoz hasonlóan kiváló magyar nyelvű felülettel és súgóval rendelkezik. Pár különbséget érdemes megemlíteni: a rövid hónapnevet a dátumformátumokban (ami a Microsoft Office 2003-ban hibásan, két ponttal jelenik meg, pl. „szept..”) az OpenOffice.org-ban a jóval gyakrabban (pl. jogi és történelmi anyagokban) használt római számozás helyettesíti: 2009. XII. 25-e. Ennél nagyobb különbség, hogy a Microsoft Excel magyar helyesírás által nem ismert, szóköz és záró pont nélkül írt dátumformátuma (pl. 2009.09.18) helyett az OpenOffice.org az MSZ ISO 8601 szabvány, egyben a magyar helyesírási szabályzatban is szereplő kötőjeles (pl. 2009-09-18) dátumformátumot használja alapértelmezésként a táblázatkezelőjében.

Más nyelvek

Gyakran fordulnak elő idegen szavak, idézetek a dokumentumokban. A Microsoft Office magyar változata angol és német nyelvtámogatást is tartalmaz, más nyelvi eszközöket külön kell megvásárolni. A magyar OpenOffice.org FSF.hu kiadása az angolon és a németen kívül még francia helyesírási, elválasztási és szinonimaszótárral érkezik, és az OpenOffice.org honlapjáról még további száz nyelvhez érhetők el ingyenes szótárak. Az OpenOffice.org-ban újnak számító nyelvhelyesség-ellenőrzéshez is több ingyenes megoldás közül választhatunk, de megvásárolható például a német nyelvhez készült jó nevű Duden Korrektor is.

Elterjedtség

Az OpenOffice.org magyar nyelvtechnológiai fejlesztései 2008-ban elnyerték az OpenOffice.org közösségi innovációs díját. A legnagyobb elismerés azonban, hogy a magyar fejlesztések helyet kaptak az OpenOffice.org-ban és a leginnovatívabb informatikai termékekben: a böngészők közül a Mozilla Firefox, az Opera és a Google Chrome döntött a Hunspell helyesírás-ellenőrző használata mellett, a fordítómemóriáknál a piacvezető SDL Trados és a feltörekvő magyar MemoQ, az operációs rendszereknél az Apple Mac OS X (a legfrissebb Snow Leopard változattól), a különböző Linux terjesztések és az OpenSolaris.6 A Hunspell tette lehetővé nemcsak a magyar, hanem az arab, baszk, kopt, koreai, nepáli stb. nyílt forráskódú helyesírási szótárak elkészítését és más egybeíró (nagy számú összetett szót használó), Unicode karakterkódolást igénylő vagy bonyolult alaktannal rendelkező nyelvek kezelését.

Összefoglalás

Az irodai csomagok nyelvi eszközei nemcsak az ismert hibák, hanem a nyelv változásai miatt is rendszeres frissítést igényelnek, ahol a szabad programok gyártófüggetlensége határozott előny. Mártonfi Attila megállapítása ma is érvényes: a jelek szerint a közeljövőben érdemi fejlődésre nem lehet számítani a Microsoft Office magyar nyelvi támogatásában. A szabad magyar nyelvi eszközöket ezzel szemben folyamatos fejlesztés és innováció jellemzi, az új változatok pedig késedelem nélkül helyet kapnak az OpenOffice.org-ban, Mozilla Firefoxban és más szabad programokban. A fejlesztések legfőbb támogatója a hazai és nemzetközi szabad szoftveres közösség, jelenleg a magyar FSF.hu Alapítványon keresztül.7

Hivatkozások

  1. Szabad a helyesírás, Index, 2005-05-17.
  2. Szövegszerkesztők helyesírásversenye, Origo, 2008-09-23.
  3. Szabad magyar szótár.
  4. Magyar Ispell dokumentáció, 7. fejezet, 2003-05-12.
  5. NUMBERTEXT.org.
  6. Hunspell szócikk, Wikipédia.
  7. FSF.hu Alapítvány a szabad szoftverek magyarországi népszerűsítéséért és honosításáért.

Hozzászólások

  1. Gondolom vannak néhányan, akik még emlékeznek az OpenOffice.org magyarító hétvégéjére.

    Jó látni, hogy mára ez a hová nőtte ki magát!

    Minden elismerésem azoknak, akik az összefolgalóban említett eredmények elérésében munkálkodtak.

    Meggyőződésem, ez az eredmény látványosan mutatja, hogy a nyílt forráskódon alapuló fejlesztés, a megfelelő hozzáértés és a lelkes, kitartó együttműködés mire is képes.

    • Köszönjük szépen! Az eredményeinket látványosan visszaigazolja, hogy nemcsak cégek és magánfelhasználók, hanem állami intézmények, bíróságok, önkormányzatok vagy mint legutóbb az Országos Vérellátó, ismerik fel, hogy a közpénzt már nem kell drága kereskedelmi szoftverek vásárlására költeni.

  2. Az OpenOffice-os táblázatkezelő ismeri már a magyar függvényneveket?

    • Tímár András szerint:

      Nem, de most már tényleg meg akarom csinálni. 🙂 OOo 3.3-ra (fél év múlva) szeretném, természetesen választható módon, hogy az angol függvénynevek is használhatók maradjanak.

  3. Nagyon örülök ezeknek az eredményeknek és mindenkinek tiszta-szívemből gratulálok, aki egy kicsit is részt vett ebben a projektben.

    • Köszönjük szépen! Sokan vagyunk szerencsére. Nemcsak az itt is említett honosító hétvégék több száz résztvevője, hanem az FSF.hu Alapítvány ezernyi támogatója is, akik adójuk 1%-ával járultak hozzá a honosítás sikeréhez. Ennél már csak az lenne jobb, ha nem érné hátrányos megkülönböztetés a szabad szoftvereket az állami szférában.

  4. 1. Nekem az OpenOffice.org Writer-ben lenne szükségem a NUMBERTEXT függvényre. Erre van valami lehetőség?

    2. A NUMBERTEXT ismeri a hivatali bükkfanyelvet is (egyezerkettőszáz vs ezerkétszáz)?

    Köszönettel

    Jenő

    • Telepítőcsomagok:

      Szinonimaszótár és a legfrissebb helyesírási szótárak: http://extensions.services.openoffice.org/project/hu_dicts

      Nyelvhelyesség-ellenőrző (Lightproof): http://extensions.services.openoffice.org/project/lightproof

      NUMBERTEXT: http://extensions.services.openoffice.org/project/numbertext

      A kiterjesztések részei a legutóbb kiadott FSF.hu OpenOffice.org kiadásnak, de a Lightproof nyelvhelyesség-ellenőrző és a NUMBERTEXT használatához frissítésre van szükség (Eszközök->Kiterjesztés-kezelő, Frissítések gomb, új csomag kiválasztása és Telepítés).

      A hivatali bükkfanyelvet nem támogatja alapból, de ha ez valahol tényleg előírás volna, akkor könnyen módosítható, bővíthető a program. (Az angol nyelvhez pl. két változat is van, a második a centeket 12/100 alakban írja ki, l. =MONEYTEXT(234,34;”USD”;”en-US-2″)).

      • A Writerbe a legegyszerűbb OLE-objektumként beilleszteni pár cellát (Beszúrás→Objektum→Munkafüzet), az egyikbe kerülhet a szám, a másodikba a NUMBERTEXT meghívás. Mezőként is beilleszthető talán, de ezzel még nem jártam sikerrel.

    • Úgy tűnik, lesz megoldás a Writerben a szám és számnév kényelmes kezelésére. Készítettem egy példát, ahol a szám számjeggyel és betűvel is kiírt szövege gombként működik és rákattintva elég csak az új számot beírni, a betűkkel írt számot már maga rakja hozzá a NUMBERTEXT függvény segítségével: http://numbertext.org/numbertextwriter.odt. (Előbb menteni kell, nehogy csak olvasható módon töltse be az OpenOffice.org az állományt. Ha szigorú a makrók elleni védelem, akkor ahogy írja, az Eszközök→Beállítások→OpenOffice.org→Biztonság lapon kell közepesre állítani a szintet, hogy engedélyezni lehessen a makrók futását betöltés közben.) Ez a tervek szerint bekerül majd a NUMBERTEXT kiterjesztésbe egy új Writer menüponttal (de a dokumentumban lévő makrók már most is használhatók).

  5. Kenczler Mihály szerint:

    Szép cikk, szép eredmények. Szomorúan gondolok arra, hogy az MS Office hibáit olyan sokan követik el, hogy az Akadémia simán becikkelyezhetné az MHSZ-be. Már csak ezért is kell nyomatni az OOo-t a közszférában.
    Más.
    Milyen hibát követek el, hogy nem sikerül az OpenOffice-t az asszony -> asz-szony jellegű elválasztásra rávennem? (WinXp, 3.1.1 HU)
    Mintha lett volna régebben erről szó, hogy tudja – ezért kísérleteztem.

    • Köszönöm, köszönjük! Az elválasztás nálam megy. Ha a bekezdésformázásban be van jelölve az elválasztás, akkor az asszony szó elé pár szóközt kell még beszúrni, hogy a kívánt helyen válassza el a program.

      • Köszönöm. EZT a helyet (Formázás -> Bekezdés -> Szövegbeosztás) az elválasztás bekapcsolására még nem találtam meg… És tényleg, így működik.
        Viszont, ha kijelölöm a bekezdést és Eszközök -> Nyelv -> Elválasztás-ra kattintok, akkor miért nem? (Elválaszt, de az összesen-t nem ösz-szesen módon pl.hanem ös-szesen !!) Ezt ugyanis többször észleltem.

        • Az újabb elválasztási szótárakkal ez a hiba már nem jelentkezik (aminek az volt az oka, hogy az Unicode-elválasztás támogatására ez a párbeszédablak még nem volt felkészítve). Az automatikus elválasztást a bekezdésformázásban kell kiválasztani, az Elválasztás nyelvi eszköz csak a feltételes elválasztópontok beszúrására jó, amit a Ctrl-kötőjel lenyomásával is meg tudunk adni. Ez csak akkor használatos, ha nem választ el az automatikus elválasztó vagy rossz helyen.

          Még egy hasznos lehetőség elválasztási ügyben: ha egyáltalán nem is akarunk elválasztani (mint pl. a szarvas szót nem javasolt), akkor vegyük fel a szót a bekapcsolt saját szótárak egyikébe egy egyenlőségjelet hozzátéve a végéhez: szarvas= (az egyenlőségjellel tudunk elválasztási pontokat megadni a saját szótárban, és a szó végére téve pedig letiltani az elválasztást, l. súgó).

          • Phew. El kellett volna olvasni a Súgót. Bocs. Így, az OOo-használat 10. éve körül rá kellene szokni a Súgóolvasásra…

  6. Gratula, es egy kis patch:

    A 3. oldalon a “válassza” nem a helyes ragozas abban a mondatban. ( -> választja)

    • Köszönöm szépen az észrevételt! Javítottam és frissítettem a cikket, mivel kaptam visszajelzést arra vonatkozóan is, hogy a Microsoft Office 2007 sem képes még elválasztani a sok helyes összetett szót, amit nem ismer fel a helyesírás-ellenőrzője.

  7. Csak így tovább. Több innovatív dolog ami felülmúlja a konkurenciát és több felhasználó is lesz ekkor…