Helyesírás-ellenőrzés „*perecízebben”

A Hunspell 1.7.2-es kiadása, és az azt tartalmazó LibreOffice 7.5 pontosabb magyar, holland, német stb. helyesírás-ellenőrzést tesz lehetővé: a három vagy több szóból álló lehetséges szóösszetételeket megvizsgálva már nem fogadja el azokat a gyakran furcsa szóalakokat, amelyek valójában elütések vagy hibás egybeírások. A 8 millió helyesnek vélt szóalakot tartalmazó tesztszótár csaknem 1 ezreléke,  6 ezer szóalak került ezzel elutasításra (a Szabad szótár kapcsolódó bővítése előtt 10 ezer szóalak). Példa a már helyesen felismert elütésekre és egybeírásokra  (és hogy milyen szóösszetételként kerültek korábban elfogadásra): “Helyesírás-ellenőrzés „*perecízebben”” bővebben

Hunspell 1.7, LibreOffice vs MS Office

Megjelent a Hunspell helyesírás-ellenőrző 1.7-es változata. Az ellenőrző legfontosabb újdonságai, mint a lényegesen gyorsabb, pontosabb és kevésbé zavaró javaslattevés, már bemutatásra kerültek a korábbi hírekben, mivel már részei a LibreOffice-nak. A kiadással mindezek bekerülhetnek a Linux terjesztésekbe és az ellenőrzőt használó egyéb programokba, mint a Mozilla Firefox és Thunderbird, vagy a Google Chrome, és a macOS (amellett, hogy a LibreOffice-ban is frissítésre került a korábbi Hunspell változat, a kiegészítő foltok eltávolításával).

 

Az MS Office 2016 magyar helyesírás-ellenőrzője a használhatóság határát súroló mennyiségű téves hibajelzést ad, miközben helyesnek fogad el súlyos helyesírási hibákat. A LibreOffice helyesírás-ellenőrzője ezzel szemben nemcsak elfogadható minőségű, hanem kiemelkedően jó is a Hunspell ellenőrzőnek és magyar szótárának köszönhetően. (Úr Balázs gyűjtése)

A tiranai LibreOffice-konferencián a Hunspell újdonságok mellett a LibreOffice toldalékoló saját szótárát, az új Numbertext programkönyvtárral megvalósított számneves számozási stílusokat, a toldalékolt új magyar dátumformátumokat, a régi magyar helyesírás opcionális támogatását, a különleges magyar szótördelést, és a javított mondatellenőrzést is bemutattam harmadik előadásomban, LibreOffice nyelvtechnológia címmel. Az előadás angol nyelvű diái nemcsak ötletet adnak más nyelvek felhasználói számára, hanem példákkal és a javítás pontos helyének megadásával útmutatóul is szolgálnak.
Hogy milyen segítséget jelent a jó helyesírás-ellenőrzés és nyelvtechnológia a felhasználók számára, a mellékelt képernyőképek mutatják, ahol a magyar MS Office téves hibaüzenetekkel bombázza a felhasználókat, szemben a LibreOffice-szal.

Három téves helyesírási hibát is jelez ugyanazon helyes szóra az MS Word, míg a LibreOffice egyet sem.

Köszönöm az FSF.hu Alapítványnak a fejlesztésekhez nyújtott támogatást!

Németh László

 

LibreOffice Language Technology – News & Best practices

After releasing Hunspell 1.7 with several improvements, including the fast and better spelling suggestion, I publish the extended version of my presentation at LiboCon, Tirana: LibreOffice Language Technology – News & Best practices. I suggest checking its content especially for members of native language groups. I have listed several ideas, examples and code pointers to improve the support of your language in LibreOffice, helping your LibreOffice users.

Új magyar dátumformátumok, gyorsabb helyesírási javaslatok

Az FSF.hu Alapítvány által támogatott ez évi szabad szoftveres magyar nyelvi fejlesztések méltó lezárásaként új magyar dátumformátumokkal bővül a LibreOffice, és villámgyorssá válik a hosszú hibás szavakra is a helyesírási javaslattevés (hibajegy: tdf#118162).

A következő videó az új toldalékolt, névelős, illetve számneves dátumformátumok használatát mutatja be, a több mint 30 formátum közül a „2018. július 27-én”, „szerdán”, „2017 júniusában” és a „kétezertizennyolcadik” dátumokon keresztül:

A „kétezertizennyolcadik” az új magyar helyesírásnak megfelelően az évszámok esetében kivételként kötőjel nélkül írandó, a számok esetében továbbra is a kötőjeles „kétezer-tizennyolcadik” a helyes forma. A LibreOffice mindkét formát helyesen kezeli, köszönhetően a libnumbertext programkönyvtárnak és az új NatNum12 számformátumkódnak. Hibajegy: tdf#115007.

Magyar szótövezés LibreOffice makróprogramozással

Az FSF.hu Alapítványon keresztül keresett meg Simonyi Béla egy érdekes feladattal: hogyan lehet szótöveket előállítani egy magyar szólistából? A Linux terjesztések részeként is elérhető Hunspell programmal egyszerűen:

echo "szótöveket előállítani szólistából" | hunspell -d hu_HU -s
szótöveket szótő

előállítani előállít

szólistából szólista

De mi van, ha éppen nem áll rendelkezésre Linux? Használhatjuk a Windows alá elérhető Cygwin keretrendszer, vagy a macOS parancssorát, ahol ingyenesen is elérhető szabad szoftverekkel fordíthatjuk le a Hunspell programot.

A következő LibreOffice makróval még erre sincsen szükség, elég egy magyar LibreOffice, és annak beépített, tövezésre is alkalmassá tett magyar szótára:

“Magyar szótövezés LibreOffice makróprogramozással” bővebben

Magyar nyelvi fejlesztések II–III.

A LibreOffice-hoz kapcsolódó, az FSF.hu Alapítvány támogatásával megvalósított (l. előző hír) magyar nyelvi fejlesztések legfrissebb eredményeinek összefoglalója:

Valódi bővíthető helyesírási szótár.  A korábbi „Nyelvi minta” példa mellett „Grammar By” (angol) és „Grammatik nach” (német) videók is készültek a LibreOffice 6.0 egyik leghasznosabb újdonságáról. Az egyéni szótárba felvett új szavainkat, ha megadunk hozzájuk egy-egy mintaszót is, a LibreOffice helyesírás-ellenőrzője, a Hunspell tökéletesen toldalékolja, és szóösszetételekben is felismeri, egy csapásra eltüntetve a bosszantó piros aláhúzásokat az új szavak minden előfordulásáról a szövegben.

A régi helyesírást (AkH. 11.) tartalmazó toldalékoló felhasználói szótár részlete.

“Magyar nyelvi fejlesztések II–III.” bővebben

Magyar innováció a LibreOffice 6.0-ban

A hamarosan megjelenő LibreOffice 6.0 irodai programcsomag magyar vonatkozású újdonsága a toldalékoló és összetettszó-kezelő felhasználói szótár. A következő egyperces videó ennek működését mutatja be a LibreOffice 6.0 fejlesztői változatában:

Magyar nyelvi fejlesztések I.

Az új magyar helyesírási reformhoz kötődő szabad szoftveres magyar nyelvi fejlesztés 2015-ben vette kezdetét (l. ennek részletes ismertetését). Az FSF.hu Alapítvány támogatásának köszönhetően a fejlesztés nem áll le, első eredményeként a LibreOffice helyesírási szótárából eltávolításra kerültek az elavult helyesírású szavak és toldalékolási szabályok (tdf#95024). Példák a már elutasított szóalakokra (a listában szereplő töveket külön vagy más alakban írjuk ma már, a toldalékolt szavakat pedig kötőjellel), gyakorisági sorrendben: zártkörű, nagyméretű, kisméretű, ésszerűtlen, útbaigazít, véghezvisz, nemzetiszínű, ésszerűsödik, cserbenhagy, ésszerűsít, chips, reváns, látencia, bura, napéjegyenlőség, síkraszáll, cigánygyerek, házinyúl, árboc, eszencia, latens, piercing, célratörés, Sydneyt, talián, Zsanettel, sorbaállás, frizsider, sztyep, sósperec, magasrendű, csodaszép, sóskifli, rubeóla, Huxleyt, fejbentartás, samanizmus, Nikolettel, fantaziál, elektroencefalográfia, Nagymedve, Henriettel, dinó, Anettel, harcbavetés, nüánsz, Ivettel, Stanleyről, Disneytől, bedekker, nagyfokú, elektroencefalogram, elektroencefalográf.

A szótár előzetes kiadásának további újdonságai:

Sok új idegen szó és átírás: acerola, albedó, anthrax, baklava, bermuda, bestiarium, biometrikus, blogger, bonmot, bourbon, bowling, break, campanile, campus, ciabatta, defibrillátor, dévédé, dietetika, diszacharid, dragomán, durián, ego, epilátor, europid, euroszkeptikus, falafel, fieszta, gaucho, gnocchi, gouda, guava, hacker, hekker, hospice, illiberalizmus, intimtorna, intró, jalapeño, jujuba, kabrió, kanül, karambola, kesu, klapancia, kolonoszkópia, komment, konnotáció, kozmetológus, lasagne, licsi, lúzer, machinátor, manga, monitoring, monsieur, muffin, nanogép, op-art, outlet, palimpszeszt, pécé, pirszing, píszí, playback, poligráf, pomeló, purhab, rafting, ranch, raszta, remix, rep, retró, roadshow, roaming, rukkola, sármos, shake, showman, ska, slam, stand-up, stria, szadomazó, szaké, szantál, szcenárió, szmájli, sztrók, triller, troll, úzó, varánusz, vok, vombat, xilit, zumba, zsenília stb.
“Magyar nyelvi fejlesztések I.” bővebben

Magyar újdonságok (videóval)

Több új, magyar nyelvvel kapcsolatos képesség és javítás került be a LibreOffice fejlesztői, illetve legfrissebb kiadott változatába az FSF.hu Alapítvány támogatásával:

  • A mintaillesztéses automatikus csere: a cserélendő szó elejére, vagy végére írjunk .* (pont-csillag) karakterláncot, ha szeretnénk, hogy toldalékkal is cserélje a szót a nemrégiben megjelent LibreOffice 4.2.4., ahogy ezt a mellékelt videó példái mutatják:
    automatjavA HUP-.*Hungarian Unix Portal csere megadása esetén a HUP-ról, HUP-nak szavak Hungarian Unix Portalról, Hungarian Unix Portalnak szövegre cserélődnek automatikusan. A „.*…” minta cseréje a három pontra pedig egy régi problémát old meg: a három egymást követő pont cseréje a tipográfiailag megfelelő hármaspont karakterre korábban nem működött, ha a három pont a szóhoz tapadt, vagyis ahogy többnyire használja a magyar nyelv. (Megjegyzés: a fejlesztés eredetileg a Szabad Szoftver Kompetencia Központban készült, de korábban csak a csillag szolgált a szó eleji, vagy végi toldalék megadására, amely valamelyik nyelv automatikus javítási szótáránál, amely használta a csillag karakter, problémát okozott);

  • az előző fejlesztésnek megfelelően frissült több száz bejegyzés – köztük a szóhoz tapadó három pont cseréje – a LibreOffice 4.3 automatikus javítási szótárában: változások listája. Több tucat új bejegyzés is megadásra került, például a szó végi indexszámok közvetlenül beszúrhatók a kalap, és aláhúzás karakterekkel és az automatikus csere segítségével: m^2 → m², CO_2 → CO₂ (az így beszúrt Unicode indexszámokkal itt elkerülhető a dokumentumszerkesztők tipográfiai hibája, az átméretezett, halvány számok használata indexként).
  • Szintén a LibreOffice 4.3-at érintő javítás: a kettőzött többjegyű mássalhangzók feltételes elválasztójelnél való elválasztása az Unicode szabványnak megfelelően (korábban a feltételes elválasztójel beszúrása letiltotta az ilyen elválasztást, l. hibajegy. Részletesebben: például ha az „asszony” szóba beszúrtunk egy feltételes elválasztójel karaktert a Ctrl-kötőjellel az „as” után, akkor a szót nem választotta el a LibreOffice (ami persze még mindig jobb, mint az „as-szony”, ahogy hasonlókat a Firefoxnál látni, amely nem integrálta megfelelően a Hyphen elválasztási könyvtárat). Most viszont már a helyes asz-szony formájában kerül elválasztásra a feltételes elválasztójelet tartalmazó szó a LibreOffice-ban. Az Eszközök–Nyelv–Elválasztás… feltételes elválasztójeleket beszúró párbeszédablakában is már felkínálásra kerülnek a kettőzött többjegyű mássalhangzóknál lévő elválasztási pontok (bár nem ez ajánlott az automatikus elválasztásra, hanem a bekezdésformázás Szövegbeosztás lapján lévő automatikus elválasztás).
  • A LibreOffice 4.3 saját szótárában lehetőség van a kettőzött többjegyű mássalhangzók elválasztásának megadására is a következő új szintaxissal: Rád[zs]dzsal (Ráddzsal → Rádzs-dzsal), ko=nya=kos=meg[y]gye=zik (konyakosmeggyezik → ko-nya-kos-megy-gye-zik). Ezeket a példákat is a LibreOffice korábban nem, vagy csak rosszul tudta elválasztani. (Folt az angol súgóhoz az új szintaxis leírásával.)
  • Minden nyelvet érint a helyesírás-ellenőrzés és a nyelvhelyesség-ellenőrzés felületének javítása, ahol több zavaró hibát is sikerült megoldani (részletesen: a helyesírás-ellenőrzési párbeszédablakban a „Mindent mellőz” funkció választása az ugyanabban a mondatban előforduló ismételt hibára is vonatkozik már; ugyanitt a nyelvhelyességi hibák kék aláhúzása a „Mindent mellőz”-re eltűnik a megjelenített dokumentumból; a nyelvhelyességi hibák helyi menüjében a „Mellőz” nem a „Mindent mellőz” funkciónak felel már meg; illetve a helyi menüben van már „Mindent mellőz” is a „Mellőz” menüpont mellett, hibajegyek: fdo#56954, fdo#73917, fdo#73868), illetve helyreállításra került a magyar és angol nyelvhelyesség-ellenőrző mértékegység-konvertálási lehetősége (folt).
  • Windows hálózati környezetben a magyar és más nyelvű helyesírás-ellenőrzés képessége időnként elveszett a platform fájlnévkezelési sajátosságai miatt. A Hunspell helyesírás-ellenőrző ezért a standard fopen() helyett most már a Windows saját fájlkezelési függvényét használja a LibreOffice windowsos változatában (hibajegy). Ez a hibajavítás a LibreOffice 4.2.5-ben fog megjelenni.

LibreOffice a HVG-ben

Duplán szerepel a LibreOffice a népszerű hetilapban, egyszer a LibreOffice-t és beépített Hunspell helyesírás-ellenőrzőjét is „felülvizsgáló”, Számítógépes helyesírás-ellenőrzés – Szar vas hibák című cikkben, másodszor pedig egyes cikkek szerkesztési folyamatában.

Bedő Iván cikke a LibreOffice Writer és a Microsoft Word helyesírás-ellenőrzőjét is összehasonlítja három bekezdésnyi szépirodalmi szöveg ellenőrzése alapján. A példából leszűrhető (egyébként korábbi, például Mártonfi Attila és az Index vizsgálatában is tapasztalt) eredmény, hogy a Microsoft Word sokkal több téves hibajelzést ad (itt 11, míg a LibreOffice Writer 7). Az is a LibreOffice javára szól, hogy a szöveg egyetlen valódi hibáját (hibás *Peugeaut alak a helyes Peugeot helyett) nemcsak felismeri, de helyes javaslatot is tud tenni, szemben a hibát felismerő, de javítani nem képes Worddel.
Bár a cikk nem nevezi néven a szövegszerkesztőt, csak a nyomdafestéket egyéb esetben nem tűrő eredményt közli, a „Geist”, „Pirnában” szavakra adott trágár javaslatok a Wordhöz köthetők. (Összehasonlításképp, amíg az obszcén szavak javaslatbeli korlátozására sor nem került a nyílt forráskódú angol szótárban a magyarhoz hasonlóan, volt olyan iskola, ahol az OpenOffice.org-ot emiatt nem, illetve csak cenzúrázott angol szótárral használták.)

És hol szerepelhetett még a cikkben (az ott szereplő példák ellenőrzése mellett) a LibreOffice? Bedő Iván, a HVG munkatársa elárulta, hogy bár a HVG szerkesztőségi rendszeréhez a Word kapcsolódik, és az újságírók szerkesztőségi számítógépein Microsoft irodacsomagok vannak telepítve, munkájához az otthoni MacBook számítógépén lévő LibreOffice-t is használja. Igaz, ott is kikapcsolt helyesírás-ellenőrzővel. A beírás közbeni helyesírás-ellenőrzés vaklárma nélkül is zavaró lehet, sőt a tapasztalt újságírók bizonyos szempontból pontosságban verik a számítógépes helyesírás-ellenőrzőket: ránézésre kiszúrják a kéziratban a sürgősen javítandó súlyos helyesírási hibákat.