Taghatáron való elválasztás – egyedülálló újdonság a Writerben

A magyar nyelv egyik különlegessége a sok hosszú szó. Míg egy angol és német szövegben az átlagos szavak 4, illetve 5 karakter hosszúak, a magyarban 6 karakter hosszúak, amelynek következménye a lényegesen gyakoribb, ráadásul sokszor értelemzavaró elválasztás (pl. pácsa-vak pác-savak helyett). A LibreOffice Writer új lehetőségével, az elválasztás taghatártól való 2 vagy több karakteres távolságban való tiltásával minőségi javulás érhető el a címek, az ezeket tartalmazó tartalomjegyzék, egyéb jegyzékek, egyéb nem sorkizárt bekezdések automatikus szedésében, amely példa nélküli a dokumentumszerkesztők és kiadványszerkesztők körében.

„Compound characters at line end” – Elválasztás taghatáron a bekezdésbeállítások Behúzás és térköz lapján (a magyar fordítás még nem készült el a LibreOffice 25.2 fejlesztői változata számára). Az értéket 3-ra vagy többre állítva a Writer a Hunspell helyesírás-ellenőrző és morfológiai elemző program segítségével kiválasztja a taghatárokat a hyphen elválasztási programkönvtár által megadott elválasztási helyekből, és azok közelében korlátozza az elválasztást, pl. a *pácsa-vak helyett a pác-savak elválasztást választva.

Tanulmány a LibreOffice új képességéről és használatáról, a magyar nyelv különlegességéről és tipográfiai követelményeiről, a szabad magyar szótárak javításáról : Összetett szavak taghatáron való automatikus elválasztása a LibreOffice Writer nyílt forráskódú dokumentumszerkesztőben.

A fejlesztéseket az FSF.hu Alapítvány támogatta.

A LibreOffice-ba bekerült fejlesztések listája:

https://git.libreoffice.org/core/+/c899d3608d30f3ab4c2bc193c1fcd765221614a4%5E%21 tdf#158885 sw: don’t hyphenate right after a stem boundary

 
 
 
https://gerrit.libreoffice.org/c/dictionaries/+/165166 Updated Hungarian hyphenation dictionary to version v20240321

 

Helyesírás-ellenőrzés „*perecízebben”

A Hunspell 1.7.2-es kiadása, és az azt tartalmazó LibreOffice 7.5 pontosabb magyar, holland, német stb. helyesírás-ellenőrzést tesz lehetővé: a három vagy több szóból álló lehetséges szóösszetételeket megvizsgálva már nem fogadja el azokat a gyakran furcsa szóalakokat, amelyek valójában elütések vagy hibás egybeírások. A 8 millió helyesnek vélt szóalakot tartalmazó tesztszótár csaknem 1 ezreléke,  6 ezer szóalak került ezzel elutasításra (a Szabad szótár kapcsolódó bővítése előtt 10 ezer szóalak). Példa a már helyesen felismert elütésekre és egybeírásokra  (és hogy milyen szóösszetételként kerültek korábban elfogadásra): “Helyesírás-ellenőrzés „*perecízebben”” bővebben

Hunspell 1.7, LibreOffice vs MS Office

Megjelent a Hunspell helyesírás-ellenőrző 1.7-es változata. Az ellenőrző legfontosabb újdonságai, mint a lényegesen gyorsabb, pontosabb és kevésbé zavaró javaslattevés, már bemutatásra kerültek a korábbi hírekben, mivel már részei a LibreOffice-nak. A kiadással mindezek bekerülhetnek a Linux terjesztésekbe és az ellenőrzőt használó egyéb programokba, mint a Mozilla Firefox és Thunderbird, vagy a Google Chrome, és a macOS (amellett, hogy a LibreOffice-ban is frissítésre került a korábbi Hunspell változat, a kiegészítő foltok eltávolításával).

 

Az MS Office 2016 magyar helyesírás-ellenőrzője a használhatóság határát súroló mennyiségű téves hibajelzést ad, miközben helyesnek fogad el súlyos helyesírási hibákat. A LibreOffice helyesírás-ellenőrzője ezzel szemben nemcsak elfogadható minőségű, hanem kiemelkedően jó is a Hunspell ellenőrzőnek és magyar szótárának köszönhetően. (Úr Balázs gyűjtése)

A tiranai LibreOffice-konferencián a Hunspell újdonságok mellett a LibreOffice toldalékoló saját szótárát, az új Numbertext programkönyvtárral megvalósított számneves számozási stílusokat, a toldalékolt új magyar dátumformátumokat, a régi magyar helyesírás opcionális támogatását, a különleges magyar szótördelést, és a javított mondatellenőrzést is bemutattam harmadik előadásomban, LibreOffice nyelvtechnológia címmel. Az előadás angol nyelvű diái nemcsak ötletet adnak más nyelvek felhasználói számára, hanem példákkal és a javítás pontos helyének megadásával útmutatóul is szolgálnak.
Hogy milyen segítséget jelent a jó helyesírás-ellenőrzés és nyelvtechnológia a felhasználók számára, a mellékelt képernyőképek mutatják, ahol a magyar MS Office téves hibaüzenetekkel bombázza a felhasználókat, szemben a LibreOffice-szal.

Három téves helyesírási hibát is jelez ugyanazon helyes szóra az MS Word, míg a LibreOffice egyet sem.

Köszönöm az FSF.hu Alapítványnak a fejlesztésekhez nyújtott támogatást!

Németh László

 

LibreOffice Language Technology – News & Best practices

After releasing Hunspell 1.7 with several improvements, including the fast and better spelling suggestion, I publish the extended version of my presentation at LiboCon, Tirana: LibreOffice Language Technology – News & Best practices. I suggest checking its content especially for members of native language groups. I have listed several ideas, examples and code pointers to improve the support of your language in LibreOffice, helping your LibreOffice users.

Új magyar dátumformátumok, gyorsabb helyesírási javaslatok

Az FSF.hu Alapítvány által támogatott ez évi szabad szoftveres magyar nyelvi fejlesztések méltó lezárásaként új magyar dátumformátumokkal bővül a LibreOffice, és villámgyorssá válik a hosszú hibás szavakra is a helyesírási javaslattevés (hibajegy: tdf#118162).

A következő videó az új toldalékolt, névelős, illetve számneves dátumformátumok használatát mutatja be, a több mint 30 formátum közül a „2018. július 27-én”, „szerdán”, „2017 júniusában” és a „kétezertizennyolcadik” dátumokon keresztül:

A „kétezertizennyolcadik” az új magyar helyesírásnak megfelelően az évszámok esetében kivételként kötőjel nélkül írandó, a számok esetében továbbra is a kötőjeles „kétezer-tizennyolcadik” a helyes forma. A LibreOffice mindkét formát helyesen kezeli, köszönhetően a libnumbertext programkönyvtárnak és az új NatNum12 számformátumkódnak. Hibajegy: tdf#115007.

Magyar szótövezés LibreOffice makróprogramozással

Az FSF.hu Alapítványon keresztül keresett meg Simonyi Béla egy érdekes feladattal: hogyan lehet szótöveket előállítani egy magyar szólistából? A Linux terjesztések részeként is elérhető Hunspell programmal egyszerűen:

echo "szótöveket előállítani szólistából" | hunspell -d hu_HU -s
szótöveket szótő

előállítani előállít

szólistából szólista

De mi van, ha éppen nem áll rendelkezésre Linux? Használhatjuk a Windows alá elérhető Cygwin keretrendszer, vagy a macOS parancssorát, ahol ingyenesen is elérhető szabad szoftverekkel fordíthatjuk le a Hunspell programot.

A következő LibreOffice makróval még erre sincsen szükség, elég egy magyar LibreOffice, és annak beépített, tövezésre is alkalmassá tett magyar szótára:

“Magyar szótövezés LibreOffice makróprogramozással” bővebben

Magyar nyelvi fejlesztések II–III.

A LibreOffice-hoz kapcsolódó, az FSF.hu Alapítvány támogatásával megvalósított (l. előző hír) magyar nyelvi fejlesztések legfrissebb eredményeinek összefoglalója:

Valódi bővíthető helyesírási szótár.  A korábbi „Nyelvi minta” példa mellett „Grammar By” (angol) és „Grammatik nach” (német) videók is készültek a LibreOffice 6.0 egyik leghasznosabb újdonságáról. Az egyéni szótárba felvett új szavainkat, ha megadunk hozzájuk egy-egy mintaszót is, a LibreOffice helyesírás-ellenőrzője, a Hunspell tökéletesen toldalékolja, és szóösszetételekben is felismeri, egy csapásra eltüntetve a bosszantó piros aláhúzásokat az új szavak minden előfordulásáról a szövegben.

A régi helyesírást (AkH. 11.) tartalmazó toldalékoló felhasználói szótár részlete.

“Magyar nyelvi fejlesztések II–III.” bővebben

Magyar innováció a LibreOffice 6.0-ban

A hamarosan megjelenő LibreOffice 6.0 irodai programcsomag magyar vonatkozású újdonsága a toldalékoló és összetettszó-kezelő felhasználói szótár. A következő egyperces videó ennek működését mutatja be a LibreOffice 6.0 fejlesztői változatában:

Magyar nyelvi fejlesztések I.

Az új magyar helyesírási reformhoz kötődő szabad szoftveres magyar nyelvi fejlesztés 2015-ben vette kezdetét (l. ennek részletes ismertetését). Az FSF.hu Alapítvány támogatásának köszönhetően a fejlesztés nem áll le, első eredményeként a LibreOffice helyesírási szótárából eltávolításra kerültek az elavult helyesírású szavak és toldalékolási szabályok (tdf#95024). Példák a már elutasított szóalakokra (a listában szereplő töveket külön vagy más alakban írjuk ma már, a toldalékolt szavakat pedig kötőjellel), gyakorisági sorrendben: zártkörű, nagyméretű, kisméretű, ésszerűtlen, útbaigazít, véghezvisz, nemzetiszínű, ésszerűsödik, cserbenhagy, ésszerűsít, chips, reváns, látencia, bura, napéjegyenlőség, síkraszáll, cigánygyerek, házinyúl, árboc, eszencia, latens, piercing, célratörés, Sydneyt, talián, Zsanettel, sorbaállás, frizsider, sztyep, sósperec, magasrendű, csodaszép, sóskifli, rubeóla, Huxleyt, fejbentartás, samanizmus, Nikolettel, fantaziál, elektroencefalográfia, Nagymedve, Henriettel, dinó, Anettel, harcbavetés, nüánsz, Ivettel, Stanleyről, Disneytől, bedekker, nagyfokú, elektroencefalogram, elektroencefalográf.

A szótár előzetes kiadásának további újdonságai:

Sok új idegen szó és átírás: acerola, albedó, anthrax, baklava, bermuda, bestiarium, biometrikus, blogger, bonmot, bourbon, bowling, break, campanile, campus, ciabatta, defibrillátor, dévédé, dietetika, diszacharid, dragomán, durián, ego, epilátor, europid, euroszkeptikus, falafel, fieszta, gaucho, gnocchi, gouda, guava, hacker, hekker, hospice, illiberalizmus, intimtorna, intró, jalapeño, jujuba, kabrió, kanül, karambola, kesu, klapancia, kolonoszkópia, komment, konnotáció, kozmetológus, lasagne, licsi, lúzer, machinátor, manga, monitoring, monsieur, muffin, nanogép, op-art, outlet, palimpszeszt, pécé, pirszing, píszí, playback, poligráf, pomeló, purhab, rafting, ranch, raszta, remix, rep, retró, roadshow, roaming, rukkola, sármos, shake, showman, ska, slam, stand-up, stria, szadomazó, szaké, szantál, szcenárió, szmájli, sztrók, triller, troll, úzó, varánusz, vok, vombat, xilit, zumba, zsenília stb.
“Magyar nyelvi fejlesztések I.” bővebben

Magyar újdonságok (videóval)

Több új, magyar nyelvvel kapcsolatos képesség és javítás került be a LibreOffice fejlesztői, illetve legfrissebb kiadott változatába az FSF.hu Alapítvány támogatásával:

  • A mintaillesztéses automatikus csere: a cserélendő szó elejére, vagy végére írjunk .* (pont-csillag) karakterláncot, ha szeretnénk, hogy toldalékkal is cserélje a szót a nemrégiben megjelent LibreOffice 4.2.4., ahogy ezt a mellékelt videó példái mutatják:
    automatjavA HUP-.*Hungarian Unix Portal csere megadása esetén a HUP-ról, HUP-nak szavak Hungarian Unix Portalról, Hungarian Unix Portalnak szövegre cserélődnek automatikusan. A „.*…” minta cseréje a három pontra pedig egy régi problémát old meg: a három egymást követő pont cseréje a tipográfiailag megfelelő hármaspont karakterre korábban nem működött, ha a három pont a szóhoz tapadt, vagyis ahogy többnyire használja a magyar nyelv. (Megjegyzés: a fejlesztés eredetileg a Szabad Szoftver Kompetencia Központban készült, de korábban csak a csillag szolgált a szó eleji, vagy végi toldalék megadására, amely valamelyik nyelv automatikus javítási szótáránál, amely használta a csillag karakter, problémát okozott);

  • az előző fejlesztésnek megfelelően frissült több száz bejegyzés – köztük a szóhoz tapadó három pont cseréje – a LibreOffice 4.3 automatikus javítási szótárában: változások listája. Több tucat új bejegyzés is megadásra került, például a szó végi indexszámok közvetlenül beszúrhatók a kalap, és aláhúzás karakterekkel és az automatikus csere segítségével: m^2 → m², CO_2 → CO₂ (az így beszúrt Unicode indexszámokkal itt elkerülhető a dokumentumszerkesztők tipográfiai hibája, az átméretezett, halvány számok használata indexként).
  • Szintén a LibreOffice 4.3-at érintő javítás: a kettőzött többjegyű mássalhangzók feltételes elválasztójelnél való elválasztása az Unicode szabványnak megfelelően (korábban a feltételes elválasztójel beszúrása letiltotta az ilyen elválasztást, l. hibajegy. Részletesebben: például ha az „asszony” szóba beszúrtunk egy feltételes elválasztójel karaktert a Ctrl-kötőjellel az „as” után, akkor a szót nem választotta el a LibreOffice (ami persze még mindig jobb, mint az „as-szony”, ahogy hasonlókat a Firefoxnál látni, amely nem integrálta megfelelően a Hyphen elválasztási könyvtárat). Most viszont már a helyes asz-szony formájában kerül elválasztásra a feltételes elválasztójelet tartalmazó szó a LibreOffice-ban. Az Eszközök–Nyelv–Elválasztás… feltételes elválasztójeleket beszúró párbeszédablakában is már felkínálásra kerülnek a kettőzött többjegyű mássalhangzóknál lévő elválasztási pontok (bár nem ez ajánlott az automatikus elválasztásra, hanem a bekezdésformázás Szövegbeosztás lapján lévő automatikus elválasztás).
  • A LibreOffice 4.3 saját szótárában lehetőség van a kettőzött többjegyű mássalhangzók elválasztásának megadására is a következő új szintaxissal: Rád[zs]dzsal (Ráddzsal → Rádzs-dzsal), ko=nya=kos=meg[y]gye=zik (konyakosmeggyezik → ko-nya-kos-megy-gye-zik). Ezeket a példákat is a LibreOffice korábban nem, vagy csak rosszul tudta elválasztani. (Folt az angol súgóhoz az új szintaxis leírásával.)
  • Minden nyelvet érint a helyesírás-ellenőrzés és a nyelvhelyesség-ellenőrzés felületének javítása, ahol több zavaró hibát is sikerült megoldani (részletesen: a helyesírás-ellenőrzési párbeszédablakban a „Mindent mellőz” funkció választása az ugyanabban a mondatban előforduló ismételt hibára is vonatkozik már; ugyanitt a nyelvhelyességi hibák kék aláhúzása a „Mindent mellőz”-re eltűnik a megjelenített dokumentumból; a nyelvhelyességi hibák helyi menüjében a „Mellőz” nem a „Mindent mellőz” funkciónak felel már meg; illetve a helyi menüben van már „Mindent mellőz” is a „Mellőz” menüpont mellett, hibajegyek: fdo#56954, fdo#73917, fdo#73868), illetve helyreállításra került a magyar és angol nyelvhelyesség-ellenőrző mértékegység-konvertálási lehetősége (folt).
  • Windows hálózati környezetben a magyar és más nyelvű helyesírás-ellenőrzés képessége időnként elveszett a platform fájlnévkezelési sajátosságai miatt. A Hunspell helyesírás-ellenőrző ezért a standard fopen() helyett most már a Windows saját fájlkezelési függvényét használja a LibreOffice windowsos változatában (hibajegy). Ez a hibajavítás a LibreOffice 4.2.5-ben fog megjelenni.