Magyar nyelvi fejlesztések I.

Az új magyar helyesírási reformhoz kötődő szabad szoftveres magyar nyelvi fejlesztés 2015-ben vette kezdetét (l. ennek részletes ismertetését). Az FSF.hu Alapítvány támogatásának köszönhetően a fejlesztés nem áll le, első eredményeként a LibreOffice helyesírási szótárából eltávolításra kerültek az elavult helyesírású szavak és toldalékolási szabályok (tdf#95024). Példák a már elutasított szóalakokra (a listában szereplő töveket külön vagy más alakban írjuk ma már, a toldalékolt szavakat pedig kötőjellel), gyakorisági sorrendben: zártkörű, nagyméretű, kisméretű, ésszerűtlen, útbaigazít, véghezvisz, nemzetiszínű, ésszerűsödik, cserbenhagy, ésszerűsít, chips, reváns, látencia, bura, napéjegyenlőség, síkraszáll, cigánygyerek, házinyúl, árboc, eszencia, latens, piercing, célratörés, Sydneyt, talián, Zsanettel, sorbaállás, frizsider, sztyep, sósperec, magasrendű, csodaszép, sóskifli, rubeóla, Huxleyt, fejbentartás, samanizmus, Nikolettel, fantaziál, elektroencefalográfia, Nagymedve, Henriettel, dinó, Anettel, harcbavetés, nüánsz, Ivettel, Stanleyről, Disneytől, bedekker, nagyfokú, elektroencefalogram, elektroencefalográf.

A szótár előzetes kiadásának további újdonságai:

Sok új idegen szó és átírás: acerola, albedó, anthrax, baklava, bermuda, bestiarium, biometrikus, blogger, bonmot, bourbon, bowling, break, campanile, campus, ciabatta, defibrillátor, dévédé, dietetika, diszacharid, dragomán, durián, ego, epilátor, europid, euroszkeptikus, falafel, fieszta, gaucho, gnocchi, gouda, guava, hacker, hekker, hospice, illiberalizmus, intimtorna, intró, jalapeño, jujuba, kabrió, kanül, karambola, kesu, klapancia, kolonoszkópia, komment, konnotáció, kozmetológus, lasagne, licsi, lúzer, machinátor, manga, monitoring, monsieur, muffin, nanogép, op-art, outlet, palimpszeszt, pécé, pirszing, píszí, playback, poligráf, pomeló, purhab, rafting, ranch, raszta, remix, rep, retró, roadshow, roaming, rukkola, sármos, shake, showman, ska, slam, stand-up, stria, szadomazó, szaké, szantál, szcenárió, szmájli, sztrók, triller, troll, úzó, varánusz, vok, vombat, xilit, zumba, zsenília stb.

Kimaradt szavak, új szóalkotások: agymosott, bérmaszülő, cicamica, dombornyomott, extraszűz, fogvacogtató, gyorsétkezde, gyorshitel, hitelkárosult, jegestea, kaszat, kényszervágott, melegrekord, nagyember, pihepuha, rezzenetlen, szegényellenes, téligumi, Tina, V4, versenysemleges, Zsombi stb.

Évszámok helyesírása: Az 2001–2099 közötti évszámok új, kötőjel nélküli írásmódjának támogatása (az egyéb számok továbbra is kötőjellel írandók): kétezeregy, kétezerkilencvenkilenc.

Szótárhibák javítása: pl. behaviourizmus (behaviorizmus vagy bihéviorizmus), autóbuszmegálló (autóbusz-megálló), metilalkohol (metil-alkohol), Alpokok (Alpok már többesszámban) stb.

Korpuszelemzés alapján sok, korábban a nem tárgyas ragozású igék csoportjába sorolt szóval bővült a tárgyas ragozású igék csoportja: bezsákolta, elbukta, végigasszisztálja, átpolitizálja, búgta, cincogta, dorombolta, vakkantotta, röfögte,  habogta, makogta, mekegte, susogja, zsongja, vicsorogta, hallucinálta, dudorászta, kicsodálkozta és kidühöngte magát, végigunatkozza, szomjúhozza, öltözzétek fel stb.

A szótári köznevekből képzett tulajdonnevek -beli, -féle toldalékolásának elfogadása: Neveléstudomány-beli, Arany-féle

Rövidítések toldalékolásának bővítése: bt.-beli, kft.-beli, nyrt.-beli, Btk.-beli stb.

A rendhagyó szótári összetett szavak többszörös összetételben való szereplésének javítása: egylégterű (egy légterű), kéttantermes (két tantermes), turistaútleveles (turista-útleveles)

A Hunspell helyesírás-ellenőrző javításai (c44200) kiegészítik az új helyesírásnak megfelelő többszörös szóösszetételek felismerését. Így a 7-szótagos, -i képzőre végződő többszörösen összetett szavak most már minden esetben elfogadásra kerülnek (a képzős tagot – pl. biztosítás – tartalmazó szavak korábban csak további toldalékkal kerültek elfogadásra: nyugdíjbiztosításit). Most már felismert szavak: nyugdíjbiztosítási, műsorszolgáltatási, aláírásgyűjtési, tanügyigazgatási, munkahelyteremtési, elsősegélynyújtási, egyházlátogatási, rendszerirányítási, bérlakásépítési, balesetmentességi, ügyiratkezelési, létszámleépítési, jogszabályalkotási, adóvégrehajtási, védjegylajstromozási, egyházalapítási, nyugdíjfolyósítási, útvonaltervezési, közteherviselési, kényszertartózkodási, alagútépítési, önköltségszámítási, ügyvitelszervezési, sportszakigazgatási, pénzügyigazgatási, létszámgazdálkodási, részköltségszámítási, lakóházépítési, emlékműállítási, színházalapítási, raktárgazdálkodási, baromfitenyésztési, rendszerváltoztatási, rendszerintegrálási, színházlátogatási, rendszerkiépítési, raktárirányítási, leltárértékelési, könyvtárlátogatási, készpénzbefizetési, térfogatszámítási, erőműépítési stb.

Szintén a Hunspell ellenőrzőt érintő javításnak köszönhető a korábban elfogadott, kötőjelet tartalmazó szavak tiltása: n-t (n-et) össze-vissza (összevissza), örökkön-örökké (örökkön örökké).

A szótárfejlesztő eszközök és a szótárleírás megvalósult optimalizálásával felgyorsult a szótárfejlesztés és a parancssori helyesírás-ellenőrzés. Utóbbira példa: az -s és -c végű, de idegen ejtésű szavak toldalékolási szabállyal való leírása nemcsak kisebb szótárat eredményezett a több száz külön felvett toldalékos alak eltávolításával, hanem lehetővé teszi a parancssori Hunspell programban az idegen szavak automatikus toldalékolással való felvételét

Így a felhasználó most már helyesen adhat meg ilyen töveket maga is a parancssori Hunspell felületén, vagy a Hunspell saját szótárában (l. man Hunspell):

Linus/Thomas
corpus/opus
Alec/Cadillac

így a Hunspell a szótári Thomas szerint helyesen ragozza a felhasználó által felvett Linus szót: Linusszal, Linusszá, az opus alapján a corpus szót: corpusszal, corpusszá, a Cadillac alapján az Alec szót: Aleckel, Alecké, vagyis nem a hibás változatokat erőlteti, illetve fogadja el (Linussal, corpussal, Aleccel stb.), mint korábban.

Kisebb LibreOffice fejlesztésként rugalmasabbá vált a LibreLogo program, így a LibreOffice 5.4 következő kiadása már Ubuntu és macOS operációs rendszereken is rendelkezni fog magyar lokalizációval (tdf#113592).

A magyar LibreOffice

A LibreOffice szabad szoftveres fejlesztésként kivételes lehetőséget nyújt a magyar nyelv támogatására, amelynek szép példája a program kiváló és naprakész honosítása. A 7 éves magyar LibreOffice közösséget köszöntve, a következő lista az elmúlt pár év magyar nyelvi vonatkozású fejlesztéseit sorolja fel a LibreOffice programkódjában.

Tovább »

LibreOffice 3.6.5 portable

LibreOffice A LibreOffice 3.6.5-ös verzió megjelenését követően elérhetővé vált a hordozható (portable) változata is.

A szokásoknak megfelelőn kétféle nyelvi változatban (normál és teljes) érhető el. (A magyar nyelvet mindkét változat tartalmazza.)

Mindkét változat elérhető a PortableApps.com-ról.

LibreOffice a HVG-ben

Duplán szerepel a LibreOffice a népszerű hetilapban, egyszer a LibreOffice-t és beépített Hunspell helyesírás-ellenőrzőjét is „felülvizsgáló”, Számítógépes helyesírás-ellenőrzés – Szar vas hibák című cikkben, másodszor pedig egyes cikkek szerkesztési folyamatában.

Bedő Iván cikke a LibreOffice Writer és a Microsoft Word helyesírás-ellenőrzőjét is összehasonlítja három bekezdésnyi szépirodalmi szöveg ellenőrzése alapján. A példából leszűrhető (egyébként korábbi, például Mártonfi Attila és az Index vizsgálatában is tapasztalt) eredmény, hogy a Microsoft Word sokkal több téves hibajelzést ad (itt 11, míg a LibreOffice Writer 7). Az is a LibreOffice javára szól, hogy a szöveg egyetlen valódi hibáját (hibás *Peugeaut alak a helyes Peugeot helyett) nemcsak felismeri, de helyes javaslatot is tud tenni, szemben a hibát felismerő, de javítani nem képes Worddel.
Bár a cikk nem nevezi néven a szövegszerkesztőt, csak a nyomdafestéket egyéb esetben nem tűrő eredményt közli, a „Geist”, „Pirnában” szavakra adott trágár javaslatok a Wordhöz köthetők. (Összehasonlításképp, amíg az obszcén szavak javaslatbeli korlátozására sor nem került a nyílt forráskódú angol szótárban a magyarhoz hasonlóan, volt olyan iskola, ahol az OpenOffice.org-ot emiatt nem, illetve csak cenzúrázott angol szótárral használták.)

És hol szerepelhetett még a cikkben (az ott szereplő példák ellenőrzése mellett) a LibreOffice? Bedő Iván, a HVG munkatársa elárulta, hogy bár a HVG szerkesztőségi rendszeréhez a Word kapcsolódik, és az újságírók szerkesztőségi számítógépein Microsoft irodacsomagok vannak telepítve, munkájához az otthoni MacBook számítógépén lévő LibreOffice-t is használja. Igaz, ott is kikapcsolt helyesírás-ellenőrzővel. A beírás közbeni helyesírás-ellenőrzés vaklárma nélkül is zavaró lehet, sőt a tapasztalt újságírók bizonyos szempontból pontosságban verik a számítógépes helyesírás-ellenőrzőket: ránézésre kiszúrják a kéziratban a sürgősen javítandó súlyos helyesírási hibákat.

Megújult magyar elválasztási minták és programkönyvtár

Nagy Bence, a méltán népszerű moly.hu könyves oldal gazdája a nyáron MPL/GPL/LGPL licenc alatt adta ki a szintén általa gondozott Huhyphn TeX magyar elválasztási mintákat (eddig csak egyedi LGPL engedély birtokában kerültek be az LGPL-es LibreOffice alá a magyar elválasztási minták). A LibreOffice-ba a minták bővített változata kerül be, mivel a TeX szedőrendszerrel szemben a LibreOffice automatikusan is képes elválasztani a kettőzött többjegyű mássalhangzókat (a Hyphen programkönyvtár Liang–Knuth-féle elválasztási algoritmusának magyar fejlesztésű kiterjesztésével.) A fejlesztéshez kapcsolódóan a LibreOffice elválasztási programkönyvtára is (sok) új változattal jelentkezik, ami a magyar elválasztás számára is tartogat érdekességeket. Ilyen például a kötőjeles szavak OpenOffice.org 3.3-mal elromlott elválasztásának javítása: pl. az ideig-ó•ráig, magyar–o•rosz szavakban jelölt hibás elválasztási helyek már nem fognak jelentkezni a LibreOffice javított változatában. Sőt, a kötőjeltől két betű távolságra lévő, ebben az esetben azonban még zavaróan közeli, pl. Kossuth-dí•jas, hé•be-hó•ba, helyesírás-el•lenőrző elválasztások is letilthatók lettek (ez az elválasztási mintaállomány elején található COMPOUNDLEFTHYPHENMIN=3 és COMPOUNDRIGHTHYPHENMIN=3 értékek 2-re állításával kapcsolható vissza).

Tovább »

Magyar mondatellenőrző a LibreOffice bővítménytárában

Az OpenOffice.org kiegészítők elérhetetlensége miatt (ismételt betöltés után jelentkezik be sokszor csak az oldal) a magyar mondatellenőrző (Lightproof magyar modul) elérhetővé vált a LibreOffice kísérleti bővítménytárában is. További leírás a magyar mondatellenőrző legutóbbi kiadásáról, és a LibreOffice bővítménytáráról.

LibreOffice-t a KEH-be!

A KEH nem alszik. Részben talán a hibás magyar Microsoft Office miatt, újabb durva helyesírási hibával borzolja a magyartanárok és rokon lelkeik kedélyét. A LibreOffice segíthetett volna (legalábbis a hivatkozott sajtóközlemény hibás helyezetnek alakjának kiszűrésében, de a Formula 1 Magyar Nagydíj sem jó: helyesen Formula–1 magyar nagydíj vagy az AkH. 146. alapján lehet Formula–1 Magyar Nagydíj is, de a nagykötőjel nem hiányozhat), l. a következő, KEH-nek küldött javaslatban:
Tovább »

Magyar nyelvi ellenőrző a LibreOffice-hoz

Elkészült a nyílt forráskódú magyar nyelvi ellenőrző javított, bővített kiadása, ami most már LibreOffice alatt is menti a beállításait. Az új kiadás többek közt figyelmeztet az olyan nagy médiafigyelmet kapott nyelvi és helyesírási hibákra is, mint „áld meg” és „jó kedvel”, vagy „Budapest Liszt Ferenc Nemzetközi Repülőtér”. A kiegészítő az Eszközök» Kiterjesztéskezelő ablak Hozzáadás gombjával telepíthető. Telepítés után indítsuk újra a programot a gyorsindítóból is kilépve. A működést és az újdonságokat tesztdokumentum segítségével is ellenőrizhetjük.

Az első szembetűnő változás (lásd a mellékelt képre kattintva), hogy bővült az ellenőrző beállítófelülete (ami az Eszközök» Beállítások» Nyelvi beállítások» Magyar nyelvi ellenőrzés menüponton keresztül, és az Eszközök» Kiterjesztéskezelő» Lightproof hu_HU kiválasztása, és a megjelenő Beállítások gomb megnyomásával is elérhető). Az egyik legérdekesebb új korrektúrázási lehetőség az ismertebb angolszász mértékegységek átváltásának felkínálása. Az új opciók lehetővé teszik az olyan ellenőrzések kikapcsolását, amelyek a LibreOffice fejlett Graphite betűkészletei, a Linux Libertine G és Biolinum G használata esetén feleslegesek (ilyen az idézőjelek, gondolatjel, három pont, mínuszjel cseréje, ami a betűkészlet szintjén automatikusan végbemegy vagy mehet, bővebben lásd a Kiadványszerkesztés LibreOffice Writer szövegszerkesztővel jegyzetben).

A magyar köznyelvben nehezen értelmezhető (az iskolai tananyag részét nem képező), ezért átváltásra felkínált mértékegységek a Fahrenheit-fok (°F), mérföld, yard, láb, hüvelyk, gallon, pint, font súly („font súlyú” alakban írva). Az átváltást és a felkínált különböző kerekítéseket a Libreoffice CONVERT_ADD és ROUND táblázatkezelő függvényei végzik el, a toldalékolást (pl. „15 mérfölddel” → 24 kilométerrel) pedig a Hunspell program. Érdekességként, a fejlesztés kapcsán a gallon váltószámának pontosítására is sor került a LibreOffice forráskódjában (l. programfolt, az eltérés 0,02% volt). A mértékegységek felismerése alapértelmezett, de a nyelvi ellenőrző Mértékegységek beállításával kikapcsolható. (Hasonló mértékegység-váltó a Microsoft Office-ban is rendelkezésre állt, de az ezt megvalósító, korábban nagy újdonságként beharangozott intelligens címkéket száműzték a Microsoft Office 2010-ből. A helyére szánt, a kijelölt szövegrészek helyi menüjén keresztül elérhető mértékegység-váltó gyakorlatilag el van rejtve a felhasználók elől körülményes használata miatt.)

Az új mondat-ellenőrzési szabályok számos durva helyesírási hiba felismerésében segítenek: ilyen hibák a „halott róla”, „el kellet mennie”, hord el az irhád!, küzd vissza magad!, vagy a köztársasági elnök újévi köszöntőjének hivatalos átiratából elhíresült tévesztések, „Isten, áld meg a magyart! Jó kedvel, bőséggel!”. (A Himnusz sorai helyesen: „Isten, áldd meg a magyart / Jó kedvvel, bőséggel”!)

A ferihegyi Liszt Ferenc nemzetközi repülőtér jogszabályban rögzített neve, a Budapest Liszt Ferenc Nemzetközi Repülőtér több hibát is tartalmaz: a repülőterek nevének köznévi tagjait kisbetűvel írjuk (AkH. 190.), a helység- és helynevet tartalmazó felsorolásokat pedig vesszővel választjuk el (AkH. 298.): Budapest, Liszt Ferenc nemzetközi repülőtér, vagy Liszt Ferenc nemzetközi repülőtér, Budapest. A Földrajzinév-bizottság elvetette a magyartalan, illetve helyesírási hibás nevet, földrajzi helyesírási hibaként kiemelve még a Ferihegy védett földrajzi név elhagyását (ami jelenleg is érvényes földrajzi név, Budapest egyik városrésze), helyette a kormány javaslatát maximálisan tiszteletben tartva a Liszt Ferenc Nemzetközi Repülőtér, Budapest–Ferihegy elnevezést javasolta. A megfelelő indoklást is tartalmazó határozat azonban nem készülhetett el, mert a bizottság több tagját, köztük az elnököt felmentették, többeket elbocsátottak a munkahelyükről, köztük Mikesy Gábor nyelvészt, az OSOR.eu-n is szereplő Vingis szabad szoftveres állami térinformatikai rendszer egyik fejlesztőjét. A két hivatalos magyarázat szerint azért, mert a minisztériumoktól delegált bizottsági tagok nem kérték ki a tárcák véleményét, vagy azért, mert nem támogatták a „kormány kinyilvánított és egyértelmű kérését”. (Azóta az elbocsátott munkatársak helyzete valamelyest rendeződött, l. Dutkó Andrással, a bizottság volt elnökével készült interjút, ami a bizottságot ért támadásokra is reagál.) A Földrajzinév-bizottság jogkörét külön kormányrendeletben korlátozták, hogy „kiemelt közérdek” esetén a magyar nyelv védelme másodlagos szempont lehessen. A rendelet egyben felmentette a bizottság tagjait, illetve minimalizálta a leendő új tagság létszámát is. Az abszurd ügy hátterét jól megvilágítja a Térinformatika-online cikke, amihez csak annyit lehet hozzátenni, hogy mi okozta az eredeti hibás javaslatot: a kormánypárti javaslattevők a jogszabályokban szereplő „Budapest Ferihegy Nemzetközi Repülőtér” névben a Budapest Ferihegyet (a repülőtér nemzetközi nevét) „Budapest Liszt Ferenccel” helyettesítették. A Földrajzinév-bizottság sárba tiprásával megszületett törvény a joganyagban szereplő különböző meghatározásokat, köztük a „Budapest (Ferihegy)”, „Ferihegy”, „Ferihegyi repülőtér”, „Ferihegyi nemzetközi kereskedelmi repülőtér” elnevezéseket egységesen az új, a bizottság által 20:1 arányban leszavazott névre cserélte le. A magyar nyelvi ellenőrző a „Liszt Ferenc nemzetközi repülőtér”, „ferihegyi Liszt Ferenc nemzetközi repülőtér”, „Ferihegy”, valamint a „Budapest, Liszt Ferenc nemzetközi repülőtér” elnevezések használatát javasolja a nyelvi szakértők által egyöntetűen elutasított hibás megnevezés helyett.

A magyar nyelvi ellenőrző mögött álló Lightproof keretrendszert afrikaans, arab, francia (Grammalecte) és orosz nyelvi ellenőrzők készítésénél is felhasználták. A keretrendszer és a magyar nyelvi ellenőrző modul fejlesztése az FSF.hu Alapítvány támogatásával valósult meg.

Ilyen lett az első LibreOffice

LibreOffice Néhány nappal ezelőtt megérkezett a LibreOffice első kiadása. Az ehhez képest szokatlan verziószám, a 3.3.0 egyértelműen jelzi az irodai programcsomag származását. A nagyobb szabadság ígéretével elérkező összeállítás apai ágon az OpenOffice.org 3.3.0-s verzióján alapul, kiegészítve a leánynevén GO-OO-nak nevezett OpenOffice.org-változattal. Nem új tehát a LibreOffice, de a közösség kezelése és a további fejlesztők bevonásának módja gyökeresen eltér az OpenOffice.org felett bábáskodó, egykor a Sun Microsystems, ma az Oracle tulajdonában lévő StarDivision szemléletétől. A LibreOffice próbál előnyt kovácsolni azokból a lehetőségekből, amelyeket a nyílt forráskód és szabad szoftver biztosít számára.
Tovább »

Előadás az OpenOffice.org konferencián: nyelvtechnológiai újdonságok

Az OpenOffice.org-ba idén számos nyelvtechnológiai újdonság és hibajavítás került be, amelyről november 6-án tartottam egy összefoglaló előadást a VII. OpenOffice.org konferencián, Orvietóban, Olaszországban.
Az egyik leglényegesebb újdonság a mondatellenőrző programozási interfész, amelyet már számos bővítmény (például a LanguageTool és a Lightproof) használ. Működik a tövezés és toldalékolás a szinonimaszótárakat kezelő tezaurusz komponensben (a Hunspell meghívásával), javításra került az OpenOffice.org 3.0-ban elromlott brit angol elválasztás, és számos régi angol elválasztási hiba is kikerült a programból. Az elválasztómodul jobban támogatja most az összetett szavak elválasztását is, ami nemcsak a magyar, hanem a holland, német stb. nyelvek új elválasztási mintáinak fejlesztését is megalapozza. Az összetett szavak helyesírás-ellenőrzése is javult, most már a svéd, norvég, de az indiai nyelvek speciális igényeit is kiszolgálja. A be- és kimeneti karakterátalakítás jól működő koreai szótár elkészítését tette lehetővé, illetve Unicode normalizálást biztosít az olyan speciális ékezetes betűket tartalmazó nyelvek számára, mint a vietnami és az afrikai joruba. További részletek az előadás magyarra fordított diáiban, PDF formátumban vagy a következő képre kattintva Flash formátumban is (köszönhetően az OpenOffice.org Impress PDF és Flash támogatásának). Köszönöm az FSF.hu Alapítvány támogatását, amit a konferencián való részvételhez nyújtott!

Németh László