Magyar újdonságok (videóval)

Több új, magyar nyelvvel kapcsolatos képesség és javítás került be a LibreOffice fejlesztői, illetve legfrissebb kiadott változatába az FSF.hu Alapítvány támogatásával:

  • A mintaillesztéses automatikus csere: a cserélendő szó elejére, vagy végére írjunk .* (pont-csillag) karakterláncot, ha szeretnénk, hogy toldalékkal is cserélje a szót a nemrégiben megjelent LibreOffice 4.2.4., ahogy ezt a mellékelt videó példái mutatják:
    automatjavA HUP-.*Hungarian Unix Portal csere megadása esetén a HUP-ról, HUP-nak szavak Hungarian Unix Portalról, Hungarian Unix Portalnak szövegre cserélődnek automatikusan. A „.*…” minta cseréje a három pontra pedig egy régi problémát old meg: a három egymást követő pont cseréje a tipográfiailag megfelelő hármaspont karakterre korábban nem működött, ha a három pont a szóhoz tapadt, vagyis ahogy többnyire használja a magyar nyelv. (Megjegyzés: a fejlesztés eredetileg a Szabad Szoftver Kompetencia Központban készült, de korábban csak a csillag szolgált a szó eleji, vagy végi toldalék megadására, amely valamelyik nyelv automatikus javítási szótáránál, amely használta a csillag karakter, problémát okozott);

  • az előző fejlesztésnek megfelelően frissült több száz bejegyzés – köztük a szóhoz tapadó három pont cseréje – a LibreOffice 4.3 automatikus javítási szótárában: változások listája. Több tucat új bejegyzés is megadásra került, például a szó végi indexszámok közvetlenül beszúrhatók a kalap, és aláhúzás karakterekkel és az automatikus csere segítségével: m^2 → m², CO_2 → CO₂ (az így beszúrt Unicode indexszámokkal itt elkerülhető a dokumentumszerkesztők tipográfiai hibája, az átméretezett, halvány számok használata indexként).
  • Szintén a LibreOffice 4.3-at érintő javítás: a kettőzött többjegyű mássalhangzók feltételes elválasztójelnél való elválasztása az Unicode szabványnak megfelelően (korábban a feltételes elválasztójel beszúrása letiltotta az ilyen elválasztást, l. hibajegy. Részletesebben: például ha az „asszony” szóba beszúrtunk egy feltételes elválasztójel karaktert a Ctrl-kötőjellel az „as” után, akkor a szót nem választotta el a LibreOffice (ami persze még mindig jobb, mint az „as-szony”, ahogy hasonlókat a Firefoxnál látni, amely nem integrálta megfelelően a Hyphen elválasztási könyvtárat). Most viszont már a helyes asz-szony formájában kerül elválasztásra a feltételes elválasztójelet tartalmazó szó a LibreOffice-ban. Az Eszközök–Nyelv–Elválasztás… feltételes elválasztójeleket beszúró párbeszédablakában is már felkínálásra kerülnek a kettőzött többjegyű mássalhangzóknál lévő elválasztási pontok (bár nem ez ajánlott az automatikus elválasztásra, hanem a bekezdésformázás Szövegbeosztás lapján lévő automatikus elválasztás).
  • A LibreOffice 4.3 saját szótárában lehetőség van a kettőzött többjegyű mássalhangzók elválasztásának megadására is a következő új szintaxissal: Rád[zs]dzsal (Ráddzsal → Rádzs-dzsal), ko=nya=kos=meg[y]gye=zik (konyakosmeggyezik → ko-nya-kos-megy-gye-zik). Ezeket a példákat is a LibreOffice korábban nem, vagy csak rosszul tudta elválasztani. (Folt az angol súgóhoz az új szintaxis leírásával.)
  • Minden nyelvet érint a helyesírás-ellenőrzés és a nyelvhelyesség-ellenőrzés felületének javítása, ahol több zavaró hibát is sikerült megoldani (részletesen: a helyesírás-ellenőrzési párbeszédablakban a „Mindent mellőz” funkció választása az ugyanabban a mondatban előforduló ismételt hibára is vonatkozik már; ugyanitt a nyelvhelyességi hibák kék aláhúzása a „Mindent mellőz”-re eltűnik a megjelenített dokumentumból; a nyelvhelyességi hibák helyi menüjében a „Mellőz” nem a „Mindent mellőz” funkciónak felel már meg; illetve a helyi menüben van már „Mindent mellőz” is a „Mellőz” menüpont mellett, hibajegyek: fdo#56954, fdo#73917, fdo#73868), illetve helyreállításra került a magyar és angol nyelvhelyesség-ellenőrző mértékegység-konvertálási lehetősége (folt).
  • Windows hálózati környezetben a magyar és más nyelvű helyesírás-ellenőrzés képessége időnként elveszett a platform fájlnévkezelési sajátosságai miatt. A Hunspell helyesírás-ellenőrző ezért a standard fopen() helyett most már a Windows saját fájlkezelési függvényét használja a LibreOffice windowsos változatában (hibajegy). Ez a hibajavítás a LibreOffice 4.2.5-ben fog megjelenni.

Szebb szövegtördelés, javított interoperabilitás a Writerben

A milánói LibreOffice konferencia magyar vonatkozású eredménye a Writer szövegtördelésének helyrehozása: a kötőjeleket tartalmazó és írásjelekkel érintkező szavak hiányzó, vagy pontatlan elválasztása javításra került a fejlesztői kódban. A következő kép mutatja a régi, rossz és az új, javított tördelést: “Szebb szövegtördelés, javított interoperabilitás a Writerben” bővebben

Elválasztás a Calcban és a Draw-ban

Calc_elvalasztasA LibreOffice fejlesztői változata egy friss javítással már a táblázatcellákban és a Rajz eszköztárral beszúrt alakzatokban is helyesen választ el magyarul. Viszonylag ritkán használt funkciókról van szó: a táblázatcellákban a cellaformázás Igazítás lapjának Automatikus szövegtördelés » Elválasztás aktív jelölőnégyzetével kapcsolható be az elválasztás, az alakzatoknál pedig a kijelölés és a Szöveg » Szöveg tördelése az alakzatba beállítása után az Eszközök » Nyelv » Elválasztás menüpont bekapcsolásával (itt ez az automatikus elválasztás kapcsolója, nem pedig a feltételes elválasztójelek manuális beszúrását végző párbeszédablaké, mint a Writerben).
A problémára a magyar szabad szoftveres honosítók OpenScope oldalának egyik új bejelentése hívta fel a figyelmet, ahol az elválasztási hiba háttere ugyanaz, mint ami a magyar kettőzött többjegyű mássalhangzók elválasztási gondjai (pl. asszony » az-szony) mögött állt. A mostani javítás nemcsak a magyar, hanem a hasonlóan rendhagyó katalán (paral·lel » paral-lel) elválasztást is javítja a táblázatkezelőben és az alakzatokban, illetve lehetővé teszi a holland elválasztás kiegészítését is (l. a mellékelt kép nagyításán). Ugyan a Calc és a Draw, szemben a Writerrel, még nem választja el helyesen a briddzsel, briddzsé szavakat, a két szó ritkaságánál fogva ez már jóval kisebb problémát jelent, és a hibás elválasztás akár egyedileg, akár kivételszótárral is egyszerűen letiltható.

Magyar fejlesztésű LibreOffice nyelvi eszközök a Firefoxban és az InDesignban

A Mozilla Firefoxban kísérleti jelleggel megjelent a CSS3 webes szabványban rögzített elválasztás támogatása. A kezdetben még hibás magyar elválasztást azóta részben javították, a Firefox friss fejlesztői változatával ezen az oldalon le is tesztelhető.
Az elválasztást a LibreOffice részben magyar fejlesztésű elválasztási programkönyvtára, a Hyphen beépítésével valósították meg a Firefox esetében, így az említett címről letölthető fejlesztői Firefox változat a LibreOffice elválasztási szótárait tartalmazza. Kivéve a magyar esetében, ahol ideiglenes javításként Nagy Bence eredeti, a kettőzött többjegyű mássalhangzók elválasztását nem tartalmazó elválasztási szótára került be javításként a Firefoxba, amíg a Firefox a LibreOffice-hoz hasonlóan nem fogja a Hyphen ez irányú képességeit kihasználni. A LibreOffice gond nélkül elválasztja pl. az asszonnyá szót asz•szony•nyá formájában. Viszont a LibreOffice elválasztási szótárával a Firefox fejlesztői változata még a hibás as•szon•nyá alakban választ el. Ezért cserélték le a magyar elválasztási szótárat egyszerűbbre a Mozillánál, hiába volna lehetőség a Hyphennel a jó elválasztásra, illetve hiába igénylik a speciális elválasztást hosszú-hosszú idő (pl. itt a svédek 1996) óta.

A piacvezető kereskedelmi kiadványszerkesztő, az Adobe InDesign legutóbbi változatának egyik újdonsága a Hunspell helyesírási szótárak támogatása, a Firefoxot, a Mac OS X-et és más programokat követve ezzel. A Hunspell az OpenOffice.org MySpell helyesírás-ellenőrző komponensének magyar továbbfejlesztésével jött létre. A LibreOffice a legfrissebb változatát tartalmazza, amivel mintegy száz, köztük speciális karakterkódolású vagy a magyarhoz hasonlóan bonyolult toldalékolású nyelvhez nyújt helyesírási segítséget.

Az InDesign 5.5 a bejelentés szerint a Hyphen könyvtárat is tartalmazza már, de ahogy egy katalán hibabejelentésből kiderült, ugyanúgy várni kell még arra, hogy a Hyphen által helyesen kezelt speciális elválasztású szavakat (a katalánban a hosszú l·l-ből esik ki a pont az elválasztásnál) ténylegesen el is tudja választani a szövegszedés során.

Megújult magyar elválasztási minták és programkönyvtár

Nagy Bence, a méltán népszerű moly.hu könyves oldal gazdája a nyáron MPL/GPL/LGPL licenc alatt adta ki a szintén általa gondozott Huhyphn TeX magyar elválasztási mintákat (eddig csak egyedi LGPL engedély birtokában kerültek be az LGPL-es LibreOffice alá a magyar elválasztási minták). A LibreOffice-ba a minták bővített változata kerül be, mivel a TeX szedőrendszerrel szemben a LibreOffice automatikusan is képes elválasztani a kettőzött többjegyű mássalhangzókat (a Hyphen programkönyvtár Liang–Knuth-féle elválasztási algoritmusának magyar fejlesztésű kiterjesztésével.) A fejlesztéshez kapcsolódóan a LibreOffice elválasztási programkönyvtára is (sok) új változattal jelentkezik, ami a magyar elválasztás számára is tartogat érdekességeket. Ilyen például a kötőjeles szavak OpenOffice.org 3.3-mal elromlott elválasztásának javítása: pl. az ideig-ó•ráig, magyar–o•rosz szavakban jelölt hibás elválasztási helyek már nem fognak jelentkezni a LibreOffice javított változatában. Sőt, a kötőjeltől két betű távolságra lévő, ebben az esetben azonban még zavaróan közeli, pl. Kossuth-dí•jas, hé•be-hó•ba, helyesírás-el•lenőrző elválasztások is letilthatók lettek (ez az elválasztási mintaállomány elején található COMPOUNDLEFTHYPHENMIN=3 és COMPOUNDRIGHTHYPHENMIN=3 értékek 2-re állításával kapcsolható vissza).

“Megújult magyar elválasztási minták és programkönyvtár” bővebben

Esettanulmány: elválasztás beállítása, furcsa elválasztási hibák javítása

A LibreOffice kiváló automatikus elválasztással rendelkezik, legalábbis a Microsoft Office-hoz képest, amely nem tudja elválasztani a helyesírási szótára általa nem ismert, de amúgy helyes magyar szavakat. (Ezekből pedig sok van, ráadásul éppen a kritikus hosszú szavak, mint például agykamratágulat, fagylaltporgyártó, kakaóbabméret. Gyakorlatilag minden olyan többszörösen összetett szót, amit a helyesírás-ellenőrzője nem tud felbontani két szótári szóra, hibásnak jelez a Microsoft Word, és nem is választja el). A LibreOffice elválasztása minta alapú, ami megbirkózik a helyesírástól függetlenül minden szóval. (Még ha nem is mindig tökéletesen, például a minták még nem lettek felkészítve a vörösiszap szó elválasztására, ezért a hibás vörö-siszap kézi javításra szorul a később ismertetett módok valamelyikével.) Az automatikus elválasztás beállításához kattintsunk a szövegre a másodlagos egérgombbal, majd válasszuk ki a Bekezdés stílusának szerkesztése… menüpontot. A megjelenő beállítóablakban kattintsunk a Szövegbeosztás fülre, majd jelöljük be az Automatikusan jelölőnégyzetet. Ezzel minden ilyen stílusú bekezdésben beállítottuk az elválasztást.

A napokban egy újabb magyar vonatkozású elválasztási hibára derült fény a LibreOffice-ban (a másik a Graphite ligatúrák gyakran egalizálási hibával járó elválasztása, amivel bővebben foglalkozik a Kiadványszerkesztés LibreOffice Writer szövegszerkesztővel jegyzet): Ha a mondatkezdő „Összefoglalásként” szót az első, speciális elválasztást igénylő helyen választja el a LibreOffice, az „ÖSz-szefoglalásként” elválasztást kapjuk (tehát a szó második betűje is nagy lesz). A programhibát javító egysoros folt elkészült a LibreOffice-hoz, de hogyan kerülhetjük el az ilyen és hasonló (akár a minta alapú elválasztás említett tévedéseiként adódó) elválasztási hibákat szövegszerkesztés közben? Az egyedi (Ctrl-mínusz vagy Beszúrás » Formázási jel » Opcionális elválasztójel) és a kivételszótári elválasztásnál sajnos az Ösz-sze típusú speciális elválasztások nem adhatók meg (legfeljebb az utóbbival letiltható a hibás elválasztás, pl. az „Össze=fog=la=lás=ként” minta megadásával, l. Formátum » Beállítások » Nyelvi beállítások » Írástámogatás » Egyéni szótárak/Szerkesztés). Gyors, de sérülékeny megoldás, ha „Öszszefoglalásként”-ra vagy „Ösz-szefoglalásként”-ra írjuk át az elválasztott szót, amivel már helyes elválasztást kapunk. Hátránya, amint az sok napilap esetében megfigyelhető, hogy az elválasztás helyének megváltozása esetén a szándékosan hibásan írt szó felismerhetővé válik (a napilapoknál ez jelzi, hogy tördelőprogramjuk nem támogatja a magyar kettőzött többjegyű mássalhangzók elválasztását).
Jobb megoldás, ha csekély mértékben változtatunk a dokumentum, vagy az adott bekezdés tipográfiáján, hogy az elválasztás más helyre kerüljön: ha nem számít, akkor pár mm-rel növeljük vagy csökkentsük a laptükör szélességét, vagy módosítsuk az adott bekezdésben, hogy mennyi betű maradjon minimum az elválasztásnál a sor végén, illetve elején. Sőt, ami még szebb eredményhez vezethet, a LibreOffice-ban az ügyesebb kiadványszerkesztők vagy a modern TeX szedőrendszerek trükkjeit is használhatjuk erre a célra, igaz, kézzel beállítva: a karakterbeállítások Pozíció lapján 1-2 százalékkal szélesíthetjük vagy keskenyíthetjük a betűket, és egy tized ponttal a betűk közötti távolságot. Ezzel nemcsak elválasztási, hanem tipográfiai hibákat is javíthatunk (túl nagy szóközök sorkizárt szedésnél), feltéve, ha megmaradunk ezeknél a minimális, kevésbé feltűnő betűtorzítást és betűritkulást okozó értékeknél. Ennél már csak az lehetne kényelmesebb, ha a próbálkozásokat a LibreOffice kérésre automatikusan is elvégezné, hasonlóan egy-két DTP programhoz. Köztes megoldásként pedig már egy kényelmesebben hozzáférhető kezelőfelület is bőven megfelelne, például a tipográfiai eszköztár bővítése a jelenleg csak a Betűbűvész eszköztáron megtalálható, az alapszövegre nem használható betűköz-beállító ikonokkal.

Előadás az OpenOffice.org konferencián: nyelvtechnológiai újdonságok

Az OpenOffice.org-ba idén számos nyelvtechnológiai újdonság és hibajavítás került be, amelyről november 6-án tartottam egy összefoglaló előadást a VII. OpenOffice.org konferencián, Orvietóban, Olaszországban.
Az egyik leglényegesebb újdonság a mondatellenőrző programozási interfész, amelyet már számos bővítmény (például a LanguageTool és a Lightproof) használ. Működik a tövezés és toldalékolás a szinonimaszótárakat kezelő tezaurusz komponensben (a Hunspell meghívásával), javításra került az OpenOffice.org 3.0-ban elromlott brit angol elválasztás, és számos régi angol elválasztási hiba is kikerült a programból. Az elválasztómodul jobban támogatja most az összetett szavak elválasztását is, ami nemcsak a magyar, hanem a holland, német stb. nyelvek új elválasztási mintáinak fejlesztését is megalapozza. Az összetett szavak helyesírás-ellenőrzése is javult, most már a svéd, norvég, de az indiai nyelvek speciális igényeit is kiszolgálja. A be- és kimeneti karakterátalakítás jól működő koreai szótár elkészítését tette lehetővé, illetve Unicode normalizálást biztosít az olyan speciális ékezetes betűket tartalmazó nyelvek számára, mint a vietnami és az afrikai joruba. További részletek az előadás magyarra fordított diáiban, PDF formátumban vagy a következő képre kattintva Flash formátumban is (köszönhetően az OpenOffice.org Impress PDF és Flash támogatásának). Köszönöm az FSF.hu Alapítvány támogatását, amit a konferencián való részvételhez nyújtott!

Németh László

A Microsoft Office és az OpenOffice.org magyar nyelve

Ahogy több független (az egyik esetben Mártonfi Attila, az MTA Nyelvtudományi Intézet munkatársa, a mérvadó, Osiris Kiadónál megjelent Helyesírás című kötet társszerzője segítségével készült) vizsgálat korábban megmutatta, a magyar szavak helyesírás-ellenőrzésében a Microsoft Office elmarad az ingyenes, nyílt forráskódú OpenOffice.org-tól.1,2 Az elmúlt évek fejlesztéseinek köszönhetően a többi nyílt forráskódú nyelvi eszköz (elválasztóprogram, nyelvhelyesség-ellenőrző, szinonimaszótár) is felzárkózott és számos pontban felül is múlja zárt vetélytársát. “A Microsoft Office és az OpenOffice.org magyar nyelve” bővebben