Szabad magyar szótár 1.7, Zsort 1.0

A 2018. május 12-i Szabad szoftver konferencián került bejelentésre, és most megjelent az utóbbi évek legnagyobb magyar nyelvi vonatkozású szabad szoftveres fejlesztésének eredménye, a Szabad magyar szótár 1.7-es változata. A magyar szóalaktan leírását is tartalmazó szótár minden eddiginél pontosabb magyar helyesírás-ellenőrzést nyújt a LibreOffice, a Google Chrome, Mozilla Firefox, Scribus vagy akár az olyan kereskedelmi programok, mint a Google Dokumentumok, Adobe InDesign és macOS felhasználói számára.

A béta kiadások sokezres javításaihoz és szókincsbővítéséhez képest a végleges kiadás további 13 ezer szó-, morféma- és betűhatárra vonatkozó szótári bejegyzéssel bővült, amely lehetővé tette az első helyesen működő magyar betűrendbe soroló szabad szoftver, a Zsort elkészítését is.

A nyelvi fejlesztések a nyomdai minőségű automatikus magyar elválasztás megvalósításával folytatódhatnak a jövő évben. Kérjük, hogy ehhez adója 1%-ának felajánlásával segítse az FSF.hu Alapítványt, a magyar nyelvi fejlesztések fő támogatóját! A fejlesztések részletei:

Zsort 1.0

A Zsort (ejtsd zé-szort vagy zsort) a Szabad magyar szótár 1.7-es változatán és a Hunspell helyesírás-ellenőrzőn és morfológiai elemzőn, valamint a GNU sorton alapuló gAWK program, amely a következő előnyös tulajdonságokkal rendelkezik a helyesiras.MTA.hu akhsort webes betűrendbe soroló szolgáltatásához képest: (1) a felbontandó „ál-többjegyű” mássalhangzókat minden szótári szó (pl. más|szor) és heurisztikusan felismert összetett szó (pl. adás|szünet|kérés) esetében felismeri (2) 50 szónál több szó is rendezhető vele, akár több millió is (3) nem fagy le több szóból álló kifejezésekre, címekre, hanem helyesen képes azokat is rendezni (4) szabad program, így működése megismerhető, a kód módosítható és szabadon terjeszthető. További előnyei: (5) működése bár a GNU C Library-n (glibc) alapul, nem függ annak legújabb javításaitól (Koblinger Egmont javításaival a glibc 2.26 végre az IBM ICU/Unicode CLDR adatbázisához hasonlóan rendezi a kettőzött többjegyű mássalhangzók egyszerűsített alakjait). (6) A kifejezésekre vonatkozó rendezési szabályok mellett javítja a glibc különleges hibáját is, a zsanér, zsáner és a hasonlóan azonos alakú, csak a hosszú magánhangzók helyében eltérő szóalakok sorrendjének felcserélését is.

A Zsortot 4 millió különböző szóalakon összehasonlítva az IBM ICU/Unicode CLDR magyar rendezési algoritmusával, azonnal nyilvánvalóvá válik a különbség: 25 ezer szónak változik meg a pozíciója, amennyiben nem tekintünk minden cs, dz, dzs, gy, ly, ny, sz, ty, zs, ccs, ddzs, ggy, lly, nny, ssz, tty és zzs jelsorozatot automatikusan (kettőzött) többjegyű mássalhangzónak, hanem megvizsgáljuk a szavak tövét és toldalékolását, és annak megfelelően döntünk a szavak sorrendjéről, például a község, tizennyolc stb. szavak nem zs, vagy kettőzött ny betűt tartalmaznak. 5 további szó a 25 ezerből (sorkezdő mínuszjel jelöli a régi, és pluszjel jelöli a javított pozíciót):

--- szavak.icu 2018-05-17 15:36:53.958051037 +0200
+++ szavak.zsort 2018-05-17 15:37:07.209816339 +0200
@@ -1331,8 +1331,8 @@
 ablakmélyedéseknél
 ablakmélyedési
 ablakmélyedésig
-ablakmélyedést
 ablakmélyedésszerű
+ablakmélyedést
 ablakmenedzserek
 ablakmenü
 ablakméret
...
 zsoldosseregre
 zsoldosseregünk
 zsoldosseregünkkel
+zsoldosszellem
+Zsoldosszerenádot
+Zsoldosszerenádra
 zsoldost
 Zsoldost
 Zsoldostáborban
@@ -4039942,9 +4039945,6 @@
 zsoldosvezérről
 zsoldosvezért
 zsoldosvilág
-zsoldosszellem
-Zsoldosszerenádot
-Zsoldosszerenádra
 zsoldosztás
 zsoldosztásra
 zsoldot
@@ -4040806,11 +4040806,11 @@
 zsongásról
 zsongássá
 zsongással
+zsongásszerű
 zsongást
 zsongású
 zsongásuk
 zsongásunkat
-zsongásszerű
 zsongat
 zsongatja
 zsongatják

A teljes lista itt tekinthető meg, a program félezer soros, a teszteseteket is tartalmazó forráskódja pedig itt.

Szabad magyar szótár 1.7.

A szótárfejlesztés kiemelt célja a legnépszerűbb, a magyar nyelv támogatásában is élen járó szabad irodai programcsomag, a LibreOffice, ahol a szótár az alapja a magyar szinonimaszótárban és a nyelvhelyesség-ellenőrzőben használt szótövezésnek, toldalékolásnak és morfológiai elemzésnek is, valamint az új toldalékoló felhasználói szótárnak. A legújabb szótár is úton van a LibreOffice 6.1 és 6.0-s változatába.  A bevezetőben is felsorolt, Hunspell helyesírás-ellenőrzőt tartalmazó programok is a Szabad magyar szótár felhasználói, ahogy ez a szótár az alapja a Magyar Tudományos Akadémia helyesiras.mta.hu Helyes-e így? néven futó szolgáltatásának is. A Szabad magyar szótár bár nem helyesírási tanácsadó szolgáltatások üzemeltetésére készült, a legutóbbi fejlesztésekkel közelebb került ehhez: szótára, valamint a Hunspell program több ezer szótári szó esetében támogatja már a kiejtés alapú javaslattevést, pl. Niccse  → Nietzsche, valamint a tipikus egybeírási hibák felismerését és pontos javítását: idegenszavakat → idegen szavakat, rákövetkező → rá következő, csirkefarhát → csirke far-hát stb.

Az új magyar helyesírási reform és a magyar szókincs változásainak követéséről, illetve a kapcsolódó fejlesztésekről részletesen szólnak a béta kiadások hírei.

A szótár- és programhibák a LibreOffice és a magyar fordítók OpenScope felületének hibabejelentője mellett most már a Szabad magyar szótár GitHub projektoldalán is bejelenthetők.

Magyar nyelvi fejlesztések V.

Az FSF.hu Alapítvány támogatásával folyó fejlesztések legfrissebb újdonságai:

  • Bővített nyelvhelyességi szabályok és javított szótördelés az automatikus hivatkozások toldalékának és névelőjének ellenőrzésére, pl. *(2)-ban,  *n)-t – helyesen n)-et –, *az b) pontban (videó);
  • új magyar átírások a helyesírási szótárban: pl. sznekk, soppingol, videófilm (már nem videofilm), a vitatott dínó újra helyes dinóként is, valamint számos más javítás és bővítés, részben Tuna András, Pénzes Dávid, Gyuris Gellért, Úr Balázs gyűjtése alapján.

“Magyar nyelvi fejlesztések V.” bővebben

Okos(abb) magyar helyesírás-ellenőrzés

Jó hír az írással napi szinten foglalkozók számára, hogy a LibreOffice április elején megjelenő 6.0.3-as hibajavító kiadása már nem jelez helyesírási hibát a különleges, de amúgy helyesírásilag tökéletes szóalakokra.

Ilyen a fenti címben szereplő „okos(abb)”, ahol az „abb”-ot a program (hasonlóan pl. a Microsoft Office-hoz) idáig aláhúzta. Mostantól csak akkor, ha a zárójelek nélküli szóalak (itt: „okosabb”) valóban hibás.

A magyar szótördelési algoritmus és a helyesírási szótár javítása (felhasználva az eredetileg az arab és a héber számára kifejlesztett Hunspell-tulajdonságot, a nem kívánt karakterek törlését az ellenőrizendő szóból) a következő alakok helyes kezelését tette lehetővé:

– a ragozott zárójeles hivatkozások: (1)-nek, [2]-ben, a)-ról, b)-hez;

– a szavakon belüli zárójelezés: „oldal(ak)”, kell(ene);

– a megváltozott méretet jelölő kapcsos zárójeles kezdőbetű az idézetekben: „[A]zt” és „[a]mazt”;

– idézőjeles címek toldalékolása: „A Jedi visszatér”-ben, a „Tisza”-ban (a helyes toldalékot jelezte hibásnak a program);

– kérdőjeles és felkiáltójeles nevekben: Yahoo!-ról, Ki nevet a végén?-ből.

Kapcsolódó hibajegy: tdf#116072.

L. még magyar nyelvi fejlesztések az FSF.hu Alapítvány támogatásával.

Magyar nyelvi fejlesztések IV.

Névelős kereszthivatkozások

A LibreOffice Writer egyik leghasznosabb, rengeteg szerkesztési időt megspóroló funkciója az automatikus kereszthivatkozások. Igazi újdonságként a LibreOffice 6.1 fejlesztői változata a kereszthivatkozást megelőző helyes magyar névelő (az 1. oldalon, de a 2. oldalon) kiválasztását is automatizálja.

Magyar területi beállítás esetén a Mezők párbeszédablak új, a kis és nagybetűs névelős kereszthivatkozások beszúrását támogató menüpontokat tartalmaz, l. a képernyőképen és az alábbi videóban.

“Magyar nyelvi fejlesztések IV.” bővebben

Magyar innováció a LibreOffice 6.0-ban

A hamarosan megjelenő LibreOffice 6.0 irodai programcsomag magyar vonatkozású újdonsága a toldalékoló és összetettszó-kezelő felhasználói szótár. A következő egyperces videó ennek működését mutatja be a LibreOffice 6.0 fejlesztői változatában:

Magyar újdonságok (videóval)

Több új, magyar nyelvvel kapcsolatos képesség és javítás került be a LibreOffice fejlesztői, illetve legfrissebb kiadott változatába az FSF.hu Alapítvány támogatásával:

  • A mintaillesztéses automatikus csere: a cserélendő szó elejére, vagy végére írjunk .* (pont-csillag) karakterláncot, ha szeretnénk, hogy toldalékkal is cserélje a szót a nemrégiben megjelent LibreOffice 4.2.4., ahogy ezt a mellékelt videó példái mutatják:
    automatjavA HUP-.*Hungarian Unix Portal csere megadása esetén a HUP-ról, HUP-nak szavak Hungarian Unix Portalról, Hungarian Unix Portalnak szövegre cserélődnek automatikusan. A „.*…” minta cseréje a három pontra pedig egy régi problémát old meg: a három egymást követő pont cseréje a tipográfiailag megfelelő hármaspont karakterre korábban nem működött, ha a három pont a szóhoz tapadt, vagyis ahogy többnyire használja a magyar nyelv. (Megjegyzés: a fejlesztés eredetileg a Szabad Szoftver Kompetencia Központban készült, de korábban csak a csillag szolgált a szó eleji, vagy végi toldalék megadására, amely valamelyik nyelv automatikus javítási szótáránál, amely használta a csillag karakter, problémát okozott);

  • az előző fejlesztésnek megfelelően frissült több száz bejegyzés – köztük a szóhoz tapadó három pont cseréje – a LibreOffice 4.3 automatikus javítási szótárában: változások listája. Több tucat új bejegyzés is megadásra került, például a szó végi indexszámok közvetlenül beszúrhatók a kalap, és aláhúzás karakterekkel és az automatikus csere segítségével: m^2 → m², CO_2 → CO₂ (az így beszúrt Unicode indexszámokkal itt elkerülhető a dokumentumszerkesztők tipográfiai hibája, az átméretezett, halvány számok használata indexként).
  • Szintén a LibreOffice 4.3-at érintő javítás: a kettőzött többjegyű mássalhangzók feltételes elválasztójelnél való elválasztása az Unicode szabványnak megfelelően (korábban a feltételes elválasztójel beszúrása letiltotta az ilyen elválasztást, l. hibajegy. Részletesebben: például ha az „asszony” szóba beszúrtunk egy feltételes elválasztójel karaktert a Ctrl-kötőjellel az „as” után, akkor a szót nem választotta el a LibreOffice (ami persze még mindig jobb, mint az „as-szony”, ahogy hasonlókat a Firefoxnál látni, amely nem integrálta megfelelően a Hyphen elválasztási könyvtárat). Most viszont már a helyes asz-szony formájában kerül elválasztásra a feltételes elválasztójelet tartalmazó szó a LibreOffice-ban. Az Eszközök–Nyelv–Elválasztás… feltételes elválasztójeleket beszúró párbeszédablakában is már felkínálásra kerülnek a kettőzött többjegyű mássalhangzóknál lévő elválasztási pontok (bár nem ez ajánlott az automatikus elválasztásra, hanem a bekezdésformázás Szövegbeosztás lapján lévő automatikus elválasztás).
  • A LibreOffice 4.3 saját szótárában lehetőség van a kettőzött többjegyű mássalhangzók elválasztásának megadására is a következő új szintaxissal: Rád[zs]dzsal (Ráddzsal → Rádzs-dzsal), ko=nya=kos=meg[y]gye=zik (konyakosmeggyezik → ko-nya-kos-megy-gye-zik). Ezeket a példákat is a LibreOffice korábban nem, vagy csak rosszul tudta elválasztani. (Folt az angol súgóhoz az új szintaxis leírásával.)
  • Minden nyelvet érint a helyesírás-ellenőrzés és a nyelvhelyesség-ellenőrzés felületének javítása, ahol több zavaró hibát is sikerült megoldani (részletesen: a helyesírás-ellenőrzési párbeszédablakban a „Mindent mellőz” funkció választása az ugyanabban a mondatban előforduló ismételt hibára is vonatkozik már; ugyanitt a nyelvhelyességi hibák kék aláhúzása a „Mindent mellőz”-re eltűnik a megjelenített dokumentumból; a nyelvhelyességi hibák helyi menüjében a „Mellőz” nem a „Mindent mellőz” funkciónak felel már meg; illetve a helyi menüben van már „Mindent mellőz” is a „Mellőz” menüpont mellett, hibajegyek: fdo#56954, fdo#73917, fdo#73868), illetve helyreállításra került a magyar és angol nyelvhelyesség-ellenőrző mértékegység-konvertálási lehetősége (folt).
  • Windows hálózati környezetben a magyar és más nyelvű helyesírás-ellenőrzés képessége időnként elveszett a platform fájlnévkezelési sajátosságai miatt. A Hunspell helyesírás-ellenőrző ezért a standard fopen() helyett most már a Windows saját fájlkezelési függvényét használja a LibreOffice windowsos változatában (hibajegy). Ez a hibajavítás a LibreOffice 4.2.5-ben fog megjelenni.

LibreOffice a HVG-ben

Duplán szerepel a LibreOffice a népszerű hetilapban, egyszer a LibreOffice-t és beépített Hunspell helyesírás-ellenőrzőjét is „felülvizsgáló”, Számítógépes helyesírás-ellenőrzés – Szar vas hibák című cikkben, másodszor pedig egyes cikkek szerkesztési folyamatában.

Bedő Iván cikke a LibreOffice Writer és a Microsoft Word helyesírás-ellenőrzőjét is összehasonlítja három bekezdésnyi szépirodalmi szöveg ellenőrzése alapján. A példából leszűrhető (egyébként korábbi, például Mártonfi Attila és az Index vizsgálatában is tapasztalt) eredmény, hogy a Microsoft Word sokkal több téves hibajelzést ad (itt 11, míg a LibreOffice Writer 7). Az is a LibreOffice javára szól, hogy a szöveg egyetlen valódi hibáját (hibás *Peugeaut alak a helyes Peugeot helyett) nemcsak felismeri, de helyes javaslatot is tud tenni, szemben a hibát felismerő, de javítani nem képes Worddel.
Bár a cikk nem nevezi néven a szövegszerkesztőt, csak a nyomdafestéket egyéb esetben nem tűrő eredményt közli, a „Geist”, „Pirnában” szavakra adott trágár javaslatok a Wordhöz köthetők. (Összehasonlításképp, amíg az obszcén szavak javaslatbeli korlátozására sor nem került a nyílt forráskódú angol szótárban a magyarhoz hasonlóan, volt olyan iskola, ahol az OpenOffice.org-ot emiatt nem, illetve csak cenzúrázott angol szótárral használták.)

És hol szerepelhetett még a cikkben (az ott szereplő példák ellenőrzése mellett) a LibreOffice? Bedő Iván, a HVG munkatársa elárulta, hogy bár a HVG szerkesztőségi rendszeréhez a Word kapcsolódik, és az újságírók szerkesztőségi számítógépein Microsoft irodacsomagok vannak telepítve, munkájához az otthoni MacBook számítógépén lévő LibreOffice-t is használja. Igaz, ott is kikapcsolt helyesírás-ellenőrzővel. A beírás közbeni helyesírás-ellenőrzés vaklárma nélkül is zavaró lehet, sőt a tapasztalt újságírók bizonyos szempontból pontosságban verik a számítógépes helyesírás-ellenőrzőket: ránézésre kiszúrják a kéziratban a sürgősen javítandó súlyos helyesírási hibákat.

Helyesírási javaslat: nem szentírás!

Ahogy a mellékelt képen látható, a LibreOffice helyesírás-ellenőrzője, a Hunspell a „bővölködő életet” „szűkölködő életre” javítaná, ha hagynánk. A humoros példát Gusztin Rudolf küldte. Érdekességképpen, a Hunspell korábbi változata még a bővelkedő és a gyűlölködő szavakat is javasolta, amíg holland támogatással sor nem került a furcsa (zavaróan eltérő és sok) helyesírási javaslat korlátozására. Megoldást a bővölködő szó szótári felvétele fog jelenteni, aminek nincs akadálya, mivel bár régies, nem standard alakváltozatról van szó, nagyon hasonló (egy betűben eltérő) szó híján nem rontja a szószintű helyesírás-ellenőrzés minőségét.
A javaslattevés az egyik legösszetettebb művelet a helyesírás-ellenőrzés során. A Hunspell például előnybe részesíti a javaslattevésnél a tipikus tévesztéseket (j-ly, i-í, ggy-gyj, sőt ős-öss, pl. *erössen-erősen stb.), durva szavakat pedig még összetételekben sem javasol. A legújabb LibreOffice-ban kerültek javításra olyan hibák is, hogy az összetételként elfogadható, de a Hunspell által mégis elutasított gyakori tévesztéseket (pl. szervíz, mint szer+víz a helyes szerviz helyett) többszörös összetételek elején sem fogadja el és nem is javasolja: így most már a szervízkocsi is elutasításra kerül, nemcsak a szervíz és a kocsiszervíz.
Végül egy kapcsolódó idézet a Bibliából: „Mert a kinek van, annak adatik, és bővölködik; de a kinek nincs, az is elvétetik tőle, a mije van.” (Máté 25:29, példabeszéd a talentumokról). A bibliai példázat adta a nevét a szociológia és az olvasáspedagógia Máté-hatásként leírt, gyakran visszás jelenségeinek, miszerint a jómódúak és az iskola első két évében jól olvasók még sikeresebbek lesznek, a szegények és az olvasásban lemaradók még rosszabb helyzetbe kerülnek. A példázat eredeti jelentése azért biztatóbb: mindenkinek megadatik a tehetség valamilyen formában és mértékben, amivel nemcsak élni lehet, hanem kötelességünk is élni, l. a magyar gyerekek számára készült hittan óravázlatot. A szabad szoftverekben nyitottságuknál fogva sokkal inkább összeadódhat a fejlesztők, tesztelők, fordítók és hibabejelentők tehetsége és munkája, ami olyan egyre sikeresebb programokat eredményez, mint a Linux operációs rendszer vagy a LibreOffice.

Magyar fejlesztésű LibreOffice nyelvi eszközök a Firefoxban és az InDesignban

A Mozilla Firefoxban kísérleti jelleggel megjelent a CSS3 webes szabványban rögzített elválasztás támogatása. A kezdetben még hibás magyar elválasztást azóta részben javították, a Firefox friss fejlesztői változatával ezen az oldalon le is tesztelhető.
Az elválasztást a LibreOffice részben magyar fejlesztésű elválasztási programkönyvtára, a Hyphen beépítésével valósították meg a Firefox esetében, így az említett címről letölthető fejlesztői Firefox változat a LibreOffice elválasztási szótárait tartalmazza. Kivéve a magyar esetében, ahol ideiglenes javításként Nagy Bence eredeti, a kettőzött többjegyű mássalhangzók elválasztását nem tartalmazó elválasztási szótára került be javításként a Firefoxba, amíg a Firefox a LibreOffice-hoz hasonlóan nem fogja a Hyphen ez irányú képességeit kihasználni. A LibreOffice gond nélkül elválasztja pl. az asszonnyá szót asz•szony•nyá formájában. Viszont a LibreOffice elválasztási szótárával a Firefox fejlesztői változata még a hibás as•szon•nyá alakban választ el. Ezért cserélték le a magyar elválasztási szótárat egyszerűbbre a Mozillánál, hiába volna lehetőség a Hyphennel a jó elválasztásra, illetve hiába igénylik a speciális elválasztást hosszú-hosszú idő (pl. itt a svédek 1996) óta.

A piacvezető kereskedelmi kiadványszerkesztő, az Adobe InDesign legutóbbi változatának egyik újdonsága a Hunspell helyesírási szótárak támogatása, a Firefoxot, a Mac OS X-et és más programokat követve ezzel. A Hunspell az OpenOffice.org MySpell helyesírás-ellenőrző komponensének magyar továbbfejlesztésével jött létre. A LibreOffice a legfrissebb változatát tartalmazza, amivel mintegy száz, köztük speciális karakterkódolású vagy a magyarhoz hasonlóan bonyolult toldalékolású nyelvhez nyújt helyesírási segítséget.

Az InDesign 5.5 a bejelentés szerint a Hyphen könyvtárat is tartalmazza már, de ahogy egy katalán hibabejelentésből kiderült, ugyanúgy várni kell még arra, hogy a Hyphen által helyesen kezelt speciális elválasztású szavakat (a katalánban a hosszú l·l-ből esik ki a pont az elválasztásnál) ténylegesen el is tudja választani a szövegszedés során.