Magyar nyelvi fejlesztések I.

Az új magyar helyesírási reformhoz kötődő szabad szoftveres magyar nyelvi fejlesztés 2015-ben vette kezdetét (l. ennek részletes ismertetését). Az FSF.hu Alapítvány támogatásának köszönhetően a fejlesztés nem áll le, első eredményeként a LibreOffice helyesírási szótárából eltávolításra kerültek az elavult helyesírású szavak és toldalékolási szabályok (tdf#95024). Példák a már elutasított szóalakokra (a listában szereplő töveket külön vagy más alakban írjuk ma már, a toldalékolt szavakat pedig kötőjellel), gyakorisági sorrendben: zártkörű, nagyméretű, kisméretű, ésszerűtlen, útbaigazít, véghezvisz, nemzetiszínű, ésszerűsödik, cserbenhagy, ésszerűsít, chips, reváns, látencia, bura, napéjegyenlőség, síkraszáll, cigánygyerek, házinyúl, árboc, eszencia, latens, piercing, célratörés, Sydneyt, talián, Zsanettel, sorbaállás, frizsider, sztyep, sósperec, magasrendű, csodaszép, sóskifli, rubeóla, Huxleyt, fejbentartás, samanizmus, Nikolettel, fantaziál, elektroencefalográfia, Nagymedve, Henriettel, dinó, Anettel, harcbavetés, nüánsz, Ivettel, Stanleyről, Disneytől, bedekker, nagyfokú, elektroencefalogram, elektroencefalográf.

A szótár előzetes kiadásának további újdonságai:

Sok új idegen szó és átírás: acerola, albedó, anthrax, baklava, bermuda, bestiarium, biometrikus, blogger, bonmot, bourbon, bowling, break, campanile, campus, ciabatta, defibrillátor, dévédé, dietetika, diszacharid, dragomán, durián, ego, epilátor, europid, euroszkeptikus, falafel, fieszta, gaucho, gnocchi, gouda, guava, hacker, hekker, hospice, illiberalizmus, intimtorna, intró, jalapeño, jujuba, kabrió, kanül, karambola, kesu, klapancia, kolonoszkópia, komment, konnotáció, kozmetológus, lasagne, licsi, lúzer, machinátor, manga, monitoring, monsieur, muffin, nanogép, op-art, outlet, palimpszeszt, pécé, pirszing, píszí, playback, poligráf, pomeló, purhab, rafting, ranch, raszta, remix, rep, retró, roadshow, roaming, rukkola, sármos, shake, showman, ska, slam, stand-up, stria, szadomazó, szaké, szantál, szcenárió, szmájli, sztrók, triller, troll, úzó, varánusz, vok, vombat, xilit, zumba, zsenília stb.

Kimaradt szavak, új szóalkotások: agymosott, bérmaszülő, cicamica, dombornyomott, extraszűz, fogvacogtató, gyorsétkezde, gyorshitel, hitelkárosult, jegestea, kaszat, kényszervágott, melegrekord, nagyember, pihepuha, rezzenetlen, szegényellenes, téligumi, Tina, V4, versenysemleges, Zsombi stb.

Évszámok helyesírása: Az 2001–2099 közötti évszámok új, kötőjel nélküli írásmódjának támogatása (az egyéb számok továbbra is kötőjellel írandók): kétezeregy, kétezerkilencvenkilenc.

Szótárhibák javítása: pl. behaviourizmus (behaviorizmus vagy bihéviorizmus), autóbuszmegálló (autóbusz-megálló), metilalkohol (metil-alkohol), Alpokok (Alpok már többesszámban) stb.

Korpuszelemzés alapján sok, korábban a nem tárgyas ragozású igék csoportjába sorolt szóval bővült a tárgyas ragozású igék csoportja: bezsákolta, elbukta, végigasszisztálja, átpolitizálja, búgta, cincogta, dorombolta, vakkantotta, röfögte,  habogta, makogta, mekegte, susogja, zsongja, vicsorogta, hallucinálta, dudorászta, kicsodálkozta és kidühöngte magát, végigunatkozza, szomjúhozza, öltözzétek fel stb.

A szótári köznevekből képzett tulajdonnevek -beli, -féle toldalékolásának elfogadása: Neveléstudomány-beli, Arany-féle

Rövidítések toldalékolásának bővítése: bt.-beli, kft.-beli, nyrt.-beli, Btk.-beli stb.

A rendhagyó szótári összetett szavak többszörös összetételben való szereplésének javítása: egylégterű (egy légterű), kéttantermes (két tantermes), turistaútleveles (turista-útleveles)

A Hunspell helyesírás-ellenőrző javításai (c44200) kiegészítik az új helyesírásnak megfelelő többszörös szóösszetételek felismerését. Így a 7-szótagos, -i képzőre végződő többszörösen összetett szavak most már minden esetben elfogadásra kerülnek (a képzős tagot – pl. biztosítás – tartalmazó szavak korábban csak további toldalékkal kerültek elfogadásra: nyugdíjbiztosításit). Most már felismert szavak: nyugdíjbiztosítási, műsorszolgáltatási, aláírásgyűjtési, tanügyigazgatási, munkahelyteremtési, elsősegélynyújtási, egyházlátogatási, rendszerirányítási, bérlakásépítési, balesetmentességi, ügyiratkezelési, létszámleépítési, jogszabályalkotási, adóvégrehajtási, védjegylajstromozási, egyházalapítási, nyugdíjfolyósítási, útvonaltervezési, közteherviselési, kényszertartózkodási, alagútépítési, önköltségszámítási, ügyvitelszervezési, sportszakigazgatási, pénzügyigazgatási, létszámgazdálkodási, részköltségszámítási, lakóházépítési, emlékműállítási, színházalapítási, raktárgazdálkodási, baromfitenyésztési, rendszerváltoztatási, rendszerintegrálási, színházlátogatási, rendszerkiépítési, raktárirányítási, leltárértékelési, könyvtárlátogatási, készpénzbefizetési, térfogatszámítási, erőműépítési stb.

Szintén a Hunspell ellenőrzőt érintő javításnak köszönhető a korábban elfogadott, kötőjelet tartalmazó szavak tiltása: n-t (n-et) össze-vissza (összevissza), örökkön-örökké (örökkön örökké).

A szótárfejlesztő eszközök és a szótárleírás megvalósult optimalizálásával felgyorsult a szótárfejlesztés és a parancssori helyesírás-ellenőrzés. Utóbbira példa: az -s és -c végű, de idegen ejtésű szavak toldalékolási szabállyal való leírása nemcsak kisebb szótárat eredményezett a több száz külön felvett toldalékos alak eltávolításával, hanem lehetővé teszi a parancssori Hunspell programban az idegen szavak automatikus toldalékolással való felvételét

Így a felhasználó most már helyesen adhat meg ilyen töveket maga is a parancssori Hunspell felületén, vagy a Hunspell saját szótárában (l. man Hunspell):

Linus/Thomas
corpus/opus
Alec/Cadillac

így a Hunspell a szótári Thomas szerint helyesen ragozza a felhasználó által felvett Linus szót: Linusszal, Linusszá, az opus alapján a corpus szót: corpusszal, corpusszá, a Cadillac alapján az Alec szót: Aleckel, Alecké, vagyis nem a hibás változatokat erőlteti, illetve fogadja el (Linussal, corpussal, Aleccel stb.), mint korábban.

Kisebb LibreOffice fejlesztésként rugalmasabbá vált a LibreLogo program, így a LibreOffice 5.4 következő kiadása már Ubuntu és macOS operációs rendszereken is rendelkezni fog magyar lokalizációval (tdf#113592).

Magyar újdonságok (videóval)

Több új, magyar nyelvvel kapcsolatos képesség és javítás került be a LibreOffice fejlesztői, illetve legfrissebb kiadott változatába az FSF.hu Alapítvány támogatásával:

  • A mintaillesztéses automatikus csere: a cserélendő szó elejére, vagy végére írjunk .* (pont-csillag) karakterláncot, ha szeretnénk, hogy toldalékkal is cserélje a szót a nemrégiben megjelent LibreOffice 4.2.4., ahogy ezt a mellékelt videó példái mutatják:
    automatjavA HUP-.*Hungarian Unix Portal csere megadása esetén a HUP-ról, HUP-nak szavak Hungarian Unix Portalról, Hungarian Unix Portalnak szövegre cserélődnek automatikusan. A „.*…” minta cseréje a három pontra pedig egy régi problémát old meg: a három egymást követő pont cseréje a tipográfiailag megfelelő hármaspont karakterre korábban nem működött, ha a három pont a szóhoz tapadt, vagyis ahogy többnyire használja a magyar nyelv. (Megjegyzés: a fejlesztés eredetileg a Szabad Szoftver Kompetencia Központban készült, de korábban csak a csillag szolgált a szó eleji, vagy végi toldalék megadására, amely valamelyik nyelv automatikus javítási szótáránál, amely használta a csillag karakter, problémát okozott);

  • az előző fejlesztésnek megfelelően frissült több száz bejegyzés – köztük a szóhoz tapadó három pont cseréje – a LibreOffice 4.3 automatikus javítási szótárában: változások listája. Több tucat új bejegyzés is megadásra került, például a szó végi indexszámok közvetlenül beszúrhatók a kalap, és aláhúzás karakterekkel és az automatikus csere segítségével: m^2 → m², CO_2 → CO₂ (az így beszúrt Unicode indexszámokkal itt elkerülhető a dokumentumszerkesztők tipográfiai hibája, az átméretezett, halvány számok használata indexként).
  • Szintén a LibreOffice 4.3-at érintő javítás: a kettőzött többjegyű mássalhangzók feltételes elválasztójelnél való elválasztása az Unicode szabványnak megfelelően (korábban a feltételes elválasztójel beszúrása letiltotta az ilyen elválasztást, l. hibajegy. Részletesebben: például ha az „asszony” szóba beszúrtunk egy feltételes elválasztójel karaktert a Ctrl-kötőjellel az „as” után, akkor a szót nem választotta el a LibreOffice (ami persze még mindig jobb, mint az „as-szony”, ahogy hasonlókat a Firefoxnál látni, amely nem integrálta megfelelően a Hyphen elválasztási könyvtárat). Most viszont már a helyes asz-szony formájában kerül elválasztásra a feltételes elválasztójelet tartalmazó szó a LibreOffice-ban. Az Eszközök–Nyelv–Elválasztás… feltételes elválasztójeleket beszúró párbeszédablakában is már felkínálásra kerülnek a kettőzött többjegyű mássalhangzóknál lévő elválasztási pontok (bár nem ez ajánlott az automatikus elválasztásra, hanem a bekezdésformázás Szövegbeosztás lapján lévő automatikus elválasztás).
  • A LibreOffice 4.3 saját szótárában lehetőség van a kettőzött többjegyű mássalhangzók elválasztásának megadására is a következő új szintaxissal: Rád[zs]dzsal (Ráddzsal → Rádzs-dzsal), ko=nya=kos=meg[y]gye=zik (konyakosmeggyezik → ko-nya-kos-megy-gye-zik). Ezeket a példákat is a LibreOffice korábban nem, vagy csak rosszul tudta elválasztani. (Folt az angol súgóhoz az új szintaxis leírásával.)
  • Minden nyelvet érint a helyesírás-ellenőrzés és a nyelvhelyesség-ellenőrzés felületének javítása, ahol több zavaró hibát is sikerült megoldani (részletesen: a helyesírás-ellenőrzési párbeszédablakban a „Mindent mellőz” funkció választása az ugyanabban a mondatban előforduló ismételt hibára is vonatkozik már; ugyanitt a nyelvhelyességi hibák kék aláhúzása a „Mindent mellőz”-re eltűnik a megjelenített dokumentumból; a nyelvhelyességi hibák helyi menüjében a „Mellőz” nem a „Mindent mellőz” funkciónak felel már meg; illetve a helyi menüben van már „Mindent mellőz” is a „Mellőz” menüpont mellett, hibajegyek: fdo#56954, fdo#73917, fdo#73868), illetve helyreállításra került a magyar és angol nyelvhelyesség-ellenőrző mértékegység-konvertálási lehetősége (folt).
  • Windows hálózati környezetben a magyar és más nyelvű helyesírás-ellenőrzés képessége időnként elveszett a platform fájlnévkezelési sajátosságai miatt. A Hunspell helyesírás-ellenőrző ezért a standard fopen() helyett most már a Windows saját fájlkezelési függvényét használja a LibreOffice windowsos változatában (hibajegy). Ez a hibajavítás a LibreOffice 4.2.5-ben fog megjelenni.

LibreOffice a HVG-ben

Duplán szerepel a LibreOffice a népszerű hetilapban, egyszer a LibreOffice-t és beépített Hunspell helyesírás-ellenőrzőjét is „felülvizsgáló”, Számítógépes helyesírás-ellenőrzés – Szar vas hibák című cikkben, másodszor pedig egyes cikkek szerkesztési folyamatában.

Bedő Iván cikke a LibreOffice Writer és a Microsoft Word helyesírás-ellenőrzőjét is összehasonlítja három bekezdésnyi szépirodalmi szöveg ellenőrzése alapján. A példából leszűrhető (egyébként korábbi, például Mártonfi Attila és az Index vizsgálatában is tapasztalt) eredmény, hogy a Microsoft Word sokkal több téves hibajelzést ad (itt 11, míg a LibreOffice Writer 7). Az is a LibreOffice javára szól, hogy a szöveg egyetlen valódi hibáját (hibás *Peugeaut alak a helyes Peugeot helyett) nemcsak felismeri, de helyes javaslatot is tud tenni, szemben a hibát felismerő, de javítani nem képes Worddel.
Bár a cikk nem nevezi néven a szövegszerkesztőt, csak a nyomdafestéket egyéb esetben nem tűrő eredményt közli, a „Geist”, „Pirnában” szavakra adott trágár javaslatok a Wordhöz köthetők. (Összehasonlításképp, amíg az obszcén szavak javaslatbeli korlátozására sor nem került a nyílt forráskódú angol szótárban a magyarhoz hasonlóan, volt olyan iskola, ahol az OpenOffice.org-ot emiatt nem, illetve csak cenzúrázott angol szótárral használták.)

És hol szerepelhetett még a cikkben (az ott szereplő példák ellenőrzése mellett) a LibreOffice? Bedő Iván, a HVG munkatársa elárulta, hogy bár a HVG szerkesztőségi rendszeréhez a Word kapcsolódik, és az újságírók szerkesztőségi számítógépein Microsoft irodacsomagok vannak telepítve, munkájához az otthoni MacBook számítógépén lévő LibreOffice-t is használja. Igaz, ott is kikapcsolt helyesírás-ellenőrzővel. A beírás közbeni helyesírás-ellenőrzés vaklárma nélkül is zavaró lehet, sőt a tapasztalt újságírók bizonyos szempontból pontosságban verik a számítógépes helyesírás-ellenőrzőket: ránézésre kiszúrják a kéziratban a sürgősen javítandó súlyos helyesírási hibákat.

Helyesírási javaslat: nem szentírás!

Ahogy a mellékelt képen látható, a LibreOffice helyesírás-ellenőrzője, a Hunspell a „bővölködő életet” „szűkölködő életre” javítaná, ha hagynánk. A humoros példát Gusztin Rudolf küldte. Érdekességképpen, a Hunspell korábbi változata még a bővelkedő és a gyűlölködő szavakat is javasolta, amíg holland támogatással sor nem került a furcsa (zavaróan eltérő és sok) helyesírási javaslat korlátozására. Megoldást a bővölködő szó szótári felvétele fog jelenteni, aminek nincs akadálya, mivel bár régies, nem standard alakváltozatról van szó, nagyon hasonló (egy betűben eltérő) szó híján nem rontja a szószintű helyesírás-ellenőrzés minőségét.
A javaslattevés az egyik legösszetettebb művelet a helyesírás-ellenőrzés során. A Hunspell például előnybe részesíti a javaslattevésnél a tipikus tévesztéseket (j-ly, i-í, ggy-gyj, sőt ős-öss, pl. *erössen-erősen stb.), durva szavakat pedig még összetételekben sem javasol. A legújabb LibreOffice-ban kerültek javításra olyan hibák is, hogy az összetételként elfogadható, de a Hunspell által mégis elutasított gyakori tévesztéseket (pl. szervíz, mint szer+víz a helyes szerviz helyett) többszörös összetételek elején sem fogadja el és nem is javasolja: így most már a szervízkocsi is elutasításra kerül, nemcsak a szervíz és a kocsiszervíz.
Végül egy kapcsolódó idézet a Bibliából: „Mert a kinek van, annak adatik, és bővölködik; de a kinek nincs, az is elvétetik tőle, a mije van.” (Máté 25:29, példabeszéd a talentumokról). A bibliai példázat adta a nevét a szociológia és az olvasáspedagógia Máté-hatásként leírt, gyakran visszás jelenségeinek, miszerint a jómódúak és az iskola első két évében jól olvasók még sikeresebbek lesznek, a szegények és az olvasásban lemaradók még rosszabb helyzetbe kerülnek. A példázat eredeti jelentése azért biztatóbb: mindenkinek megadatik a tehetség valamilyen formában és mértékben, amivel nemcsak élni lehet, hanem kötelességünk is élni, l. a magyar gyerekek számára készült hittan óravázlatot. A szabad szoftverekben nyitottságuknál fogva sokkal inkább összeadódhat a fejlesztők, tesztelők, fordítók és hibabejelentők tehetsége és munkája, ami olyan egyre sikeresebb programokat eredményez, mint a Linux operációs rendszer vagy a LibreOffice.

LibreOffice-t a KEH-be!

A KEH nem alszik. Részben talán a hibás magyar Microsoft Office miatt, újabb durva helyesírási hibával borzolja a magyartanárok és rokon lelkeik kedélyét. A LibreOffice segíthetett volna (legalábbis a hivatkozott sajtóközlemény hibás helyezetnek alakjának kiszűrésében, de a Formula 1 Magyar Nagydíj sem jó: helyesen Formula–1 magyar nagydíj vagy az AkH. 146. alapján lehet Formula–1 Magyar Nagydíj is, de a nagykötőjel nem hiányozhat), l. a következő, KEH-nek küldött javaslatban:
Tovább »

LibreOffice 3.4 béta teszt: Hunspell 1.3, Graphite 2

A hétvégén sikerült letesztelni a LibreOffice 3.4-ben frissült Hunspell helyesírás-ellenőrzőt és Graphite betűkezelőt.

A Hunspell 1.3-as változata a Holland Nyelvi Unió és a LibreOffice holland nyelvi eszközei mögött álló OpenTaal Alapítvány támogatásával, és az alapítvány tagja, Ruud Baars hibabejelentési és tesztelési segítségével készült el, a LibreOffice-ba pedig Caolán McNamarának köszönhetően került be nem sokkal a kiadás után. A változások elsősorban az összetettszó-kezelést érintik, ami nemcsak a holland számára hasznos, hanem a hasonlóan bonyolult magyarhoz is: ezzel például javíthatóvá válik, illetve a szótármodulba kihelyezhető a Hunspell programba bedrótozott magyar mozgószabály-kezelés. Ami helyenként már most is tapasztalható az egyéb javításokból, hogy kevesebb a furcsa javaslat: például a „Messzecsuzec” szóra most már csak a helyes Massachusetts alakot kapjuk meg, a „Messze-messze, messzelátás, messzebbiek” javaslatokat már nem (hasonlóan a „csivavát” szóra csak a chihuahuát, a „csivitel, csersavát, Csikvárit” már nem). Összefoglalás a javított hibákról (holland nyelven, angol hibajegyekkel).

A Graphite 2 tesztelése során több súlyos hibára is fény derült, így ezek még időben bejelentésre kerültek: https://bugs.freedesktop.org/show_bug.cgi?id=36703. Míg a ligatúrán belüli elválasztásnál nem tapasztalható egalizálási hiba (az elválasztójel előtt túl nagy köz lehet a korábbi változatokban), nem működik a magyar számára fontos rendhagyó eset, a kettőzött többjegyű mássalhangzók elválasztása (pl. „eggyé”: egy-gyé). Még súlyosabb hiba, hogy bizonyos helyettesítésekre, pl. a „Qu” ligatúrára, vagy a Linux Libertine G betűkészlet fejlesztői változatában már szereplő kurzív „fö” helyettesítésre lefagy a program. A szintén fejlesztés alatt álló ékezetpozicionálás, és részben az egalizálás sem működik a LibreOffice 3.4 béta kiadásával. Ezért kiadványszerkesztési célra (lásd Kiadványszerkesztés LibreOffice Writerrel) csak a LibreOffice jelenlegi stabil kiadását javasolt használni. Ebben megtalálható a magyar tipográfiai támogatással rendelkező Linux Libertine G és Biolinum G Graphite betűkészletek legfrissebb kiadása is. A betűkészletek következő, számos fontos javítást és egyéb fejlesztést tartalmazó kiadása remélhetőleg már a végleges LibreOffice 3.4-ben helyet kaphat az FSF.hu Alapítvány támogatásával.