Hunspell 1.7, LibreOffice vs MS Office

Megjelent a Hunspell helyesírás-ellenőrző 1.7-es változata. Az ellenőrző legfontosabb újdonságai, mint a lényegesen gyorsabb, pontosabb és kevésbé zavaró javaslattevés, már bemutatásra kerültek a korábbi hírekben, mivel már részei a LibreOffice-nak. A kiadással mindezek bekerülhetnek a Linux terjesztésekbe és az ellenőrzőt használó egyéb programokba, mint a Mozilla Firefox és Thunderbird, vagy a Google Chrome, és a macOS (amellett, hogy a LibreOffice-ban is frissítésre került a korábbi Hunspell változat, a kiegészítő foltok eltávolításával).

 

Az MS Office 2016 magyar helyesírás-ellenőrzője a használhatóság határát súroló mennyiségű téves hibajelzést ad, miközben helyesnek fogad el súlyos helyesírási hibákat. A LibreOffice helyesírás-ellenőrzője ezzel szemben nemcsak elfogadható minőségű, hanem kiemelkedően jó is a Hunspell ellenőrzőnek és magyar szótárának köszönhetően. (Úr Balázs gyűjtése)

A tiranai LibreOffice-konferencián a Hunspell újdonságok mellett a LibreOffice toldalékoló saját szótárát, az új Numbertext programkönyvtárral megvalósított számneves számozási stílusokat, a toldalékolt új magyar dátumformátumokat, a régi magyar helyesírás opcionális támogatását, a különleges magyar szótördelést, és a javított mondatellenőrzést is bemutattam harmadik előadásomban, LibreOffice nyelvtechnológia címmel. Az előadás angol nyelvű diái nemcsak ötletet adnak más nyelvek felhasználói számára, hanem példákkal és a javítás pontos helyének megadásával útmutatóul is szolgálnak.
Hogy milyen segítséget jelent a jó helyesírás-ellenőrzés és nyelvtechnológia a felhasználók számára, a mellékelt képernyőképek mutatják, ahol a magyar MS Office téves hibaüzenetekkel bombázza a felhasználókat, szemben a LibreOffice-szal.

Három téves helyesírási hibát is jelez ugyanazon helyes szóra az MS Word, míg a LibreOffice egyet sem.

Köszönöm az FSF.hu Alapítványnak a fejlesztésekhez nyújtott támogatást!

Németh László

 

NISZ, LibreOffice-konferencia, Tirana

Három hónap, több mint harminc, köztük számos súlyos interoperabilitási hiba javítása, ez a mérlege a NISZ LibreOffice fejlesztői projektjének, amelynek nemzetközi érdeklődésre is számot tartó eredményeit az idei LibreOffice-konferencián mutattam be kollégáimmal. Eredményeink ismertetése, és rövid képes beszámoló a konferenciáról:

Hogyan fejlesszünk LibreOffice-fejlesztőcsapatot?

A fenti címmel megjelent angol nyelvű bemutatóban részletesen szerepelnek eredményeink. Ezek rövid összefoglalója: Súlyos tartalom- és formátumvesztést okozó interoperabilitási hibákat, illetve szoftverergonómia problémákat javítottunk, olyanokat mint széteső űrlapok, eltűnő táblázatok, megváltozott szövegtartalom, nem jelzett dokumentumvédelem. A legérdekesebbek: (1) a Calc táblázatokat most már „normálisan” lehet beszúrni Writer táblázatokba, azaz OLE-objektum beszúrása (l. a fenti dia bal oldalán) helyett (l. a fenti dia jobb oldalán) felülírva a régi cellák tartalmát, hasonlóan a Writeren és Calcon belüli táblázatmásoláshoz. (Ennek a hibának a javítását még a hamburgi StarDivision cég ígérte az OpenOffice.org 3.3-ra, de azóta sok víz lefolyt az Elbán.) (2) A DOCX változáskövetés import/exportja már megüti a használható szintet a legalapvetőbb hibák javításával, például az odébb mozgatott szövegtartalmat már változásként tárolja a LibreOffice is, és nem is rontja el a dokumentum tartalmát azzal, hogy a régi helyén is szerepelteti az onnan elmozgatott szöveget (3) A diagramok DOCX/XLSX import/export hibái közül közel tucatnyi került javításra. “NISZ, LibreOffice-konferencia, Tirana” bővebben

LibreOffice Language Technology – News & Best practices

After releasing Hunspell 1.7 with several improvements, including the fast and better spelling suggestion, I publish the extended version of my presentation at LiboCon, Tirana: LibreOffice Language Technology – News & Best practices. I suggest checking its content especially for members of native language groups. I have listed several ideas, examples and code pointers to improve the support of your language in LibreOffice, helping your LibreOffice users.

Build your LibreOffice development team!

Our success story in a nutshell and on 54 slides (extended version of my presentation at LiboCon, Tirana) : fixing more than 30 serious interoperability and usability problems of LibreOffice during 3 months, gallery of our nice results and introduction of our mentoring program with the secret sauce: Building a LibreOffice development team.

 

 

Új magyar dátumformátumok, gyorsabb helyesírási javaslatok

Az FSF.hu Alapítvány által támogatott ez évi szabad szoftveres magyar nyelvi fejlesztések méltó lezárásaként új magyar dátumformátumokkal bővül a LibreOffice, és villámgyorssá válik a hosszú hibás szavakra is a helyesírási javaslattevés (hibajegy: tdf#118162).

A következő videó az új toldalékolt, névelős, illetve számneves dátumformátumok használatát mutatja be, a több mint 30 formátum közül a „2018. július 27-én”, „szerdán”, „2017 júniusában” és a „kétezertizennyolcadik” dátumokon keresztül:

A „kétezertizennyolcadik” az új magyar helyesírásnak megfelelően az évszámok esetében kivételként kötőjel nélkül írandó, a számok esetében továbbra is a kötőjeles „kétezer-tizennyolcadik” a helyes forma. A LibreOffice mindkét formát helyesen kezeli, köszönhetően a libnumbertext programkönyvtárnak és az új NatNum12 számformátumkódnak. Hibajegy: tdf#115007.

Magyar szótövezés LibreOffice makróprogramozással

Az FSF.hu Alapítványon keresztül keresett meg Simonyi Béla egy érdekes feladattal: hogyan lehet szótöveket előállítani egy magyar szólistából? A Linux terjesztések részeként is elérhető Hunspell programmal egyszerűen:

echo "szótöveket előállítani szólistából" | hunspell -d hu_HU -s
szótöveket szótő

előállítani előállít

szólistából szólista

De mi van, ha éppen nem áll rendelkezésre Linux? Használhatjuk a Windows alá elérhető Cygwin keretrendszer, vagy a macOS parancssorát, ahol ingyenesen is elérhető szabad szoftverekkel fordíthatjuk le a Hunspell programot.

A következő LibreOffice makróval még erre sincsen szükség, elég egy magyar LibreOffice, és annak beépített, tövezésre is alkalmassá tett magyar szótára:

“Magyar szótövezés LibreOffice makróprogramozással” bővebben

„10 Ft, azaz tíz forint” automatikusan

A szerződésekben, okiratokban szereplő számok automatikusan alakíthatók át számnevekké a LibreOffice fejlesztői változatában:

Mike Kaganski, a Collabora fejlesztője által bevezetett új NatNum12, (ideiglenesen még NatNum13 és NatNum14 is) natív számnévformátummal nemcsak a fejezet, oldal, ábra- és táblázatszámozásban, hanem az egyéni számformátumokban, dátumokban stb. is elérhetővé válnak a tőszámnévvé, sorszámnévvé és sorszámrövidítéssé való átalakítások. Sőt, tesztelés alatt áll a minden egyéb libnumbertext által biztosított függvényt elérhetővé tévő folt is, amely a tervek szerint a magyar esetében még a számok toldalékolását is magába foglalhatja a jövőben, automatizálva például a képletekre való automatikus hivatkozást egy készülő tankönyvben, pl. (5)-ben, (6)-ban, (7)-tel, (8)-cal stb.

A funkció jelenleg még fejlesztés alatt áll, például a nem végleges formátum mentése csak most vált elérhetővé a tesztelés számára, de a LibreOffice 6.1 előzetes változatában már kipróbálható lesz az új lehetőség.

Szabad magyar szótár 1.7, Zsort 1.0

A 2018. május 12-i Szabad szoftver konferencián került bejelentésre, és most megjelent az utóbbi évek legnagyobb magyar nyelvi vonatkozású szabad szoftveres fejlesztésének eredménye, a Szabad magyar szótár 1.7-es változata. A magyar szóalaktan leírását is tartalmazó szótár minden eddiginél pontosabb magyar helyesírás-ellenőrzést nyújt a LibreOffice, a Google Chrome, Mozilla Firefox, Scribus vagy akár az olyan kereskedelmi programok, mint a Google Dokumentumok, Adobe InDesign és macOS felhasználói számára.

A béta kiadások sokezres javításaihoz és szókincsbővítéséhez képest a végleges kiadás további 13 ezer szó-, morféma- és betűhatárra vonatkozó szótári bejegyzéssel bővült, amely lehetővé tette az első helyesen működő magyar betűrendbe soroló szabad szoftver, a Zsort elkészítését is.

A nyelvi fejlesztések a nyomdai minőségű automatikus magyar elválasztás megvalósításával folytatódhatnak a jövő évben. Kérjük, hogy ehhez adója 1%-ának felajánlásával segítse az FSF.hu Alapítványt, a magyar nyelvi fejlesztések fő támogatóját! A fejlesztések részletei:

Zsort 1.0

A Zsort (ejtsd zé-szort vagy zsort) a Szabad magyar szótár 1.7-es változatán és a Hunspell helyesírás-ellenőrzőn és morfológiai elemzőn, valamint a GNU sorton alapuló gAWK program, amely a következő előnyös tulajdonságokkal rendelkezik a helyesiras.MTA.hu akhsort webes betűrendbe soroló szolgáltatásához képest: (1) a felbontandó „ál-többjegyű” mássalhangzókat minden szótári szó (pl. más|szor) és heurisztikusan felismert összetett szó (pl. adás|szünet|kérés) esetében felismeri (2) 50 szónál több szó is rendezhető vele, akár több millió is (3) nem fagy le több szóból álló kifejezésekre, címekre, hanem helyesen képes azokat is rendezni (4) szabad program, így működése megismerhető, a kód módosítható és szabadon terjeszthető. További előnyei: (5) működése bár a GNU C Library-n (glibc) alapul, nem függ annak legújabb javításaitól (Koblinger Egmont javításaival a glibc 2.26 végre az IBM ICU/Unicode CLDR adatbázisához hasonlóan rendezi a kettőzött többjegyű mássalhangzók egyszerűsített alakjait). (6) A kifejezésekre vonatkozó rendezési szabályok mellett javítja a glibc különleges hibáját is, a zsanér, zsáner és a hasonlóan azonos alakú, csak a hosszú magánhangzók helyében eltérő szóalakok sorrendjének felcserélését is.

A Zsortot 4 millió különböző szóalakon összehasonlítva az IBM ICU/Unicode CLDR magyar rendezési algoritmusával, azonnal nyilvánvalóvá válik a különbség: 25 ezer szónak változik meg a pozíciója, amennyiben nem tekintünk minden cs, dz, dzs, gy, ly, ny, sz, ty, zs, ccs, ddzs, ggy, lly, nny, ssz, tty és zzs jelsorozatot automatikusan (kettőzött) többjegyű mássalhangzónak, hanem megvizsgáljuk a szavak tövét és toldalékolását, és annak megfelelően döntünk a szavak sorrendjéről, például a község, tizennyolc stb. szavak nem zs, vagy kettőzött ny betűt tartalmaznak. 5 további szó a 25 ezerből (sorkezdő mínuszjel jelöli a régi, és pluszjel jelöli a javított pozíciót):

--- szavak.icu 2018-05-17 15:36:53.958051037 +0200
+++ szavak.zsort 2018-05-17 15:37:07.209816339 +0200
@@ -1331,8 +1331,8 @@
 ablakmélyedéseknél
 ablakmélyedési
 ablakmélyedésig
-ablakmélyedést
 ablakmélyedésszerű
+ablakmélyedést
 ablakmenedzserek
 ablakmenü
 ablakméret
...
 zsoldosseregre
 zsoldosseregünk
 zsoldosseregünkkel
+zsoldosszellem
+Zsoldosszerenádot
+Zsoldosszerenádra
 zsoldost
 Zsoldost
 Zsoldostáborban
@@ -4039942,9 +4039945,6 @@
 zsoldosvezérről
 zsoldosvezért
 zsoldosvilág
-zsoldosszellem
-Zsoldosszerenádot
-Zsoldosszerenádra
 zsoldosztás
 zsoldosztásra
 zsoldot
@@ -4040806,11 +4040806,11 @@
 zsongásról
 zsongássá
 zsongással
+zsongásszerű
 zsongást
 zsongású
 zsongásuk
 zsongásunkat
-zsongásszerű
 zsongat
 zsongatja
 zsongatják

A teljes lista itt tekinthető meg, a program félezer soros, a teszteseteket is tartalmazó forráskódja pedig itt.

Szabad magyar szótár 1.7.

A szótárfejlesztés kiemelt célja a legnépszerűbb, a magyar nyelv támogatásában is élen járó szabad irodai programcsomag, a LibreOffice, ahol a szótár az alapja a magyar szinonimaszótárban és a nyelvhelyesség-ellenőrzőben használt szótövezésnek, toldalékolásnak és morfológiai elemzésnek is, valamint az új toldalékoló felhasználói szótárnak. A legújabb szótár is úton van a LibreOffice 6.1 és 6.0-s változatába.  A bevezetőben is felsorolt, Hunspell helyesírás-ellenőrzőt tartalmazó programok is a Szabad magyar szótár felhasználói, ahogy ez a szótár az alapja a Magyar Tudományos Akadémia helyesiras.mta.hu Helyes-e így? néven futó szolgáltatásának is. A Szabad magyar szótár bár nem helyesírási tanácsadó szolgáltatások üzemeltetésére készült, a legutóbbi fejlesztésekkel közelebb került ehhez: szótára, valamint a Hunspell program több ezer szótári szó esetében támogatja már a kiejtés alapú javaslattevést, pl. Niccse  → Nietzsche, valamint a tipikus egybeírási hibák felismerését és pontos javítását: idegenszavakat → idegen szavakat, rákövetkező → rá következő, csirkefarhát → csirke far-hát stb.

Az új magyar helyesírási reform és a magyar szókincs változásainak követéséről, illetve a kapcsolódó fejlesztésekről részletesen szólnak a béta kiadások hírei.

A szótár- és programhibák a LibreOffice és a magyar fordítók OpenScope felületének hibabejelentője mellett most már a Szabad magyar szótár GitHub projektoldalán is bejelenthetők.

„Első fejezet” – új számozási stílusok

A LibreOffice 6.1 újdonságaként a fejezetcímekben és felsorolásokban magyar számneves számozási stílust is választhatunk már, ahogy ezt a következő videó bemutatja:

A fejlesztés az előző hírben már szereplő Numbertext programkönyvtáron alapul, amelynek LibreOffice integrációja az FSF.hu Alapítvány támogatásával valósult meg.

Angol, francia és német példa:

Kapcsolódó hibajegy: tdf#117171