Újdonságok az OpenOffice.org magyar mondatellenőrzőjében

Az FSF.hu Alapítvány támogatásával elkészült az OpenOffice.org magyar mondatellenőrzőjének új változata, jelentősen bővített magyar nyelvi szabályokkal. Példák az újonnan felismert típushibákra: *megszeretném nézni; *meglett csinálva, *had ne kelljen, *több, mint zavaró, *olyat amilyet, *macska illetve kutya, *a fészer mellet, *a csomagban helyett kapott stb. (l. tesztállomány). Ha már telepítve volt korábban, a mondatellenőrző OpenOffice.org-bővítmény az Eszközök→Kiterjesztéskezelő segítségével is frissíthető az OpenOffice.org-ban.

Mondatellenőrzés az OpenOffice.org-ban

Az újdonságok hátterében az áll, hogy a Lightproof 1.2 mondatellenőrző most már együttműködik az OpenOffice.org Hunspell morfológiai (szóalaktani) elemzőjével. A program új változatában tetszőleges, szófaji és toldalékolási (de gyakorlatilag bármilyen egyéb szótári) információt is tartalmazó kifejezésekkel írhatók le a nyelvi hibajelenségek.

A kiadással a fejlesztés nem zárult le. A következő változatban jelennek meg a választható mondat-ellenőrzési szabályok, amelyek között nemcsak a rossz helyesírók, hanem a korrektúrával napi szinten foglalkozók számára készült szabályokat is találni majd. Az utóbbira példa a korábban már említett, a legújabb fejlesztéssel már kipróbált (de a kiadásban még nem szereplő) összetettszó-tiltó szabály, amely kérésre aláhúzza azokat a gyanús összetett szavakat, amelyek elütés vagy hibás optikai karakterfelismerés révén előálló értelmetlen szavak is lehetnek.

A nyílt forráskódú Lightproof OpenOffice.org-bővítmény mérete az új fejlesztésekkel és a mellékelt forráskóddal sem haladja meg a 40 kB-ot. A kis méret annak is köszönhető, hogy a bővítmény a Hunspell morfológiai elemzőt és a morfológiai adatokat is tartalmazó magyar helyesírási szótárát az OpenOffice.org UNO programozási felületén keresztül használja. A tömörség másik oka a magas szintű Python programozási nyelv, amiben például egy programsor értékeli ki az új mondat-ellenőrzési szabályok logikai kifejezéseit.

A magyar fejlesztésű Lightproof program nemcsak platformfüggetlen, hanem nyelvfüggetlen is. A Hunspell-integrációnak köszönhetően pedig már kezeli a bonyolult alaktannal rendelkező és az egybeíró (sok összetett szót használó) nyelveket is, így sikeresen mutatkozhat be november elején a következő OpenOffice.org konferencián az OpenOffice.org szélesebb nemzetközi közönsége előtt.

A Microsoft Office és az OpenOffice.org magyar nyelve

Ahogy több független (az egyik esetben Mártonfi Attila, az MTA Nyelvtudományi Intézet munkatársa, a mérvadó, Osiris Kiadónál megjelent Helyesírás című kötet társszerzője segítségével készült) vizsgálat korábban megmutatta, a magyar szavak helyesírás-ellenőrzésében a Microsoft Office elmarad az ingyenes, nyílt forráskódú OpenOffice.org-tól.1,2 Az elmúlt évek fejlesztéseinek köszönhetően a többi nyílt forráskódú nyelvi eszköz (elválasztóprogram, nyelvhelyesség-ellenőrző, szinonimaszótár) is felzárkózott és számos pontban felül is múlja zárt vetélytársát. “A Microsoft Office és az OpenOffice.org magyar nyelve” bővebben

Új helyesírási szótár az MR2 és a Sláger Rádió hallgatóinak (is)

Hamarosan több millió magyar felhasználóhoz jut el a szabad magyar helyesírási szótár legújabb, 1.5-ös változata a frissített Firefox- és OpenOffice.org kiterjesztések révén.

Az új szótár részben az OpenOffice.org tövező-toldalékoló szinonimaszótárának működését javítja, részben pedig bővített és javított szókincset tartalmaz. Példák az új szavakra:

ABBA, afrodiziákum, allergológia, árvaellátás, blog, blogol, cigányellenesség, dekupázs, episztémé, feta, fröccsöntött, íjászkodik, immunanyag, impaktfaktor, infokommunikáció, Jobbik, középszürke, lovári, mediáció, melegfelvonulás, mém, MR2, narratíva, netbook, Obama, offshore, ORFK, ökogazdálkodás, pita, plakátol, PSZÁF, Renée, romológia, szender, szexel, szupercella, szuperóriás, szitár, szonár, szopizik, szórványmagyar, sztenderdizál, szútra, talajvesztett, tangram, társasozik, tenyésztojás, termálkút, tofu, vegykezelt stb.;

Az új szókincs egy része más szálon is kötődik az OpenOffice.org-hoz: például az OVSZ, trombocita, immunhematológia, szervátültetett stb. szavak bekerülésének egyik apropója, hogy az Országos Vérellátó Szolgálat OpenOffice.org használatára áll át idén a Novell Magyarország segítségével, a csere mintegy 500 felhasználót érint. A hibás *Novellel alak helyett most már csak a Novell-lel a helyes. A felismert Boros, Bochkor szavak mellé a Voga is csatlakozott, nem kis részben a Sláger Rádió 2009. szeptember 7-i Bumeráng adásának köszönhetően, ahol a névadók több mint egymillió rádióhallgatóval ismertették meg az OpenOffice.org Writert és Impresst, az OpenOffice.org szövegszerkesztőjét és bemutatókészítőjét. Akik elmulasztották volna: OpenOffice.org a Sláger Rádióban. Az OpenOffice.org magyar honosításáért felelő FSF.hu Alapítvány neve is régóta hiányzott a szótárból, ennek pótlására is most került sor.

A változások részletes listája.

Dokumentumok egymás közt

Kenczler Mihály cikke ezen a címen jelent meg a mai Népszabadságban. Témája az OpenDocument és az Office Open XML nyílt dokumentumszabvány, a korábban itt is ismertetett Fraunhofer-jelentés alapján. A cikkhez a következő megjegyzést fűztem:

A PDF ISO szabvány 2008 óta (ISO/IEC 32000-1:2008), hibrid formában pedig tökéletesen szerkeszthető: az egyik legnépszerűbb, ingyenes OpenOffice.org-bővítmény, a Sun PDF Import Extension telepítése után az OpenOffice.org képes hibrid ODF-PDF állományok mentésére és olvasására. Az ilyen PDF állományok tartalmazzák az ODF forrást is, így miközben a PDF minden előnyével rendelkeznek (pontos megjelenítés és nyomtatás minden platformon az ingyenes Adobe Readerrel és más PDF-megjelenítő programokkal), megnyithatók és szerkeszthetők OpenOffice.org-gal!

Természetesen a tökéletes kompatibilitás még egyetlen egy irodai csomag különböző változatai között sem áll fenn (a legsúlyosabb, mikor egyáltalán nem nyitja meg a régi formátumú állományokat a program új változata). Az OpenOffice.org ilyen szempontból jobban áll, hiszen régóta foglalkozik a kompatibilitási problémákkal (többek között a Microsoft Office régebbi zárt, nem publikus fájlformátumaival) és elsők között vezette be a nagyobb kompatibilitást nyújtó XML-alapú állományformátumokat.

Az ismert kompatibilitási problémák miatt az OpenOffice.org jelenlegi marketingje a hangsúlyt arra fekteti, hogy az OpenOffice.org kiváló, könnyen kezelhető és szabadon használható szoftver: http://hu.openoffice.org/why/, amely nem mellékesen kiváló magyar honosítással is rendelkezik (fejlesztői blog: http://www.openoffice.hu/). Nemcsak érdekesség, hogy a magyar OpenOffice.org-fejlesztők, honosítók és forgalmazók jövőre Budapestre várják az OpenOffice.org fejlesztőit és felhasználóit az OpenOffice.org rendes évi nemzetközi konferenciájának megrendezésével.

Sajnos a formátum és a szoftver nem válik el a cikkben sem, mindez amiatt, mert az Office Open XML-t jelenleg az MS Office, az ODF-et pedig az OpenOffice.org kezeli legjobban. A Microsoft Halloween dokumentumok alapján, amely az inkompatibilitás megőrzésében látják a szoftveróriás monopolhelyzetének megőrzését, a Microsofttól nem is várható az MS Office-ban elfogadható minőségű ODF kezelés, emiatt külső kiegészítő modulokra (mint az ingyenes Sun ODF plugin for Microsoft Office) vagy az OpenOffice.org használatára van szükség.

Még egy fontos szempont a formátumokhoz: a Microsoft és disztribútorainak évi 25-100 milliárd forint nagyságrendű állami támogatása súlyos teher az adófizetőknek. Nem véletlen, hogy nem csak az üzleti világban, hanem az állami szférában is egyre több helyen használnak szabad szoftvereket, már hazánkban is. A kompatibilitás (a szabad szoftver használta nyílt szabvánnyal) a lehető legjobb lesz, és a Microsoft még mindig adhatja ingyen a programjait az iskolásoknak. (Jelenleg több milliárd forintot fizet az állam csak az iskolások és tanáraik Microsoft szoftverhasználata után, de így sem kapják meg ingyen a Windows operációs rendszert, ami az „ingyen” programok használatához szükséges, sőt a többi programot sem, mert az iskola elvégzése vagy az elbocsátás után meg kell vásárolniuk a programokat, ha továbbra is használni szeretnék azokat. [Gondban is vagyok, hogy akkor most feleségem, miután állást nem tudtak neki biztosítani idén az egyetemen, de óraadóként teljes óraszámban tanít és tanársegédként szerepel a rendszerben, minek is számít.])

Hunspell a Mac OS X-ben

Az OpenOffice.org Hunspell helyesírás-ellenőrzője része lett a Apple Mac OS X legújabb, Snow Leopard (magyarul hópárduc) néven megjelent változatának. Az OpenOffice.org és a Firefox után a közelmúltban a Google Chrome, az Opera 10 és az SDL Trados választotta még a Hunspellt helyesírás-ellenőrzőt. A Hunspell több mint 100 nyelvet támogat, a magyaron kívül olyan nehezen kezelhető nyelveket, mint például az arab, baszk, kopt, zulu és nepáli, legújabb fejlesztéseivel pedig lehetővé vált a koreai és hasonló nyelvek támogatása is. A Hunspell fejlesztését az elkövetkező két hónapban az FSF.hu Alapítvány támogatása teszi lehetővé. Források: Plastik Media, Middle Eastern Mac User Group, http://www.apple.com/opensource/.

NUMBERTEXT.org ünnepi kiadás

A szabad szoftvereket és a Unix programozást is népszerűsítő NUMBERTEXT.org oldal mintegy 25 nyelvre, illetve írásrendszerre fordít le számokat és egyben honlapja az OpenOffice.org-hoz kapcsolódó NUMBERTEXT fejlesztésnek. Az augusztus 20-án kiadott NUMBERTEXT OpenOffice.org Calc kiterjesztés egyik újdonsága a japán és koreai mellett a számrovás, a magyar rovásírás számrendszerének támogatása.

A 2009-es szám számrovással, japán és koreai számok az OpenOffice.org táblázatkezelőjében

Firefox 3.5-ös böngészővel (ami a Konqueror, Opera, Safari böngészőkhöz hasonlóan szabványos módon képes letölteni és megjeleníteni TrueType betűkészleteket) a honlapon megtekinthető és ki is próbálható a számok számrovásra alakítása a rovásírás betűkészlet operációs rendszer szintű telepítése nélkül is. A honlaphoz GIMP, Inkscape, FontForge szabad programokkal készült unicode-os (még nem teljes) TrueType rovásírás betűkészlet talán az első példája, hogy milyen előnyökkel jár a magyar rovásírás jelkészletének (még csak tervezetben létező) Unicode szabványosítása: a jobbról balra író Unicode írásrendszer-tartományba helyezett jeleket a Firefox automatikusan jobbról balra jeleníti meg. A Firefox 3 nem csak ezt és az alávágást, hanem az OpenType ligatúrakezelését is támogatja, így a magyar rovásírás egyik sajátossága, a nagy számú ligatúra (ikerbetű, betűösszevonás) is kezelhető válik a legelterjedtebb nyílt forráskódú böngészőben.

A NUMBERTEXT OpenOffice.org kiterjesztés (és a magyar rovásírás ISO Alpha–4 kódjáról elnevezett Hung TrueType betűkészlet telepítése) után a NUMBERTEXT(2009;”Hung”) függvénnyel jeleníthetjük meg számainkat számrovással az OpenOffice.org Calc táblázatkezelő celláiban. A mellékelt kép a 2009-es számot mutatja számrovással, valamint japán kandzsi és koreai hangul írásjelekkel az OpenOffice.org Calc táblázatkezelőjében.

A NUMBERTEXT.org mögött álló fejlesztést a holland NLnet alapítvány támogatta. A működő NUMBERTEXT prototípus OpenOffice.org kiterjesztésként már korábban elkészült az FSF.hu Alapítvány jóvoltából a Lightproof magyar nyelvhelyesség-ellenőrzővel egy időben. Ahogy a korábbi bejelentésben már szerepelt, a NUMBERTEXT fejlesztés célja, hogy az ISO/ECMA Office Open XML dokumentumszabvány thai számnévre és pénznemre átalakító BAHTTEXT számfüggvényét egy valódi nemzetközi szabvánnyal helyettesítse. A NUMBERTEXT/MONEYTEXT szabványtervezet sikere a szabad szoftveres projekttől (NUMBERTEXT.org) és a megvalósításhoz kifejlesztett új programnyelvtől (Soros nyelv) várható. A NUMBERTEXT.org nemcsak specifikációkat és OpenOffice.org Calc kiterjesztést, hanem Python és JavaScript Soros értelmezőt és fejlesztői környezetet is nyújt a fejlesztőknek.

A NUMBERTEXT szabványtervezet a Soros programnyelv specifikációjával pár hete az Oasis OpenDocument Formula albizottsága elé került. A NUMBERTEXT OpenOffice.org kiterjesztés Eike Rathke, a Calc projekt vezetője, egyben az OASIS OpenDocument Formula albizottságának tagja szerint az OpenOffice.org standard része lehet a közeljövőben, ami hozzájárulhat a NUMBERTEXT és MONEYTEXT függvények OASIS/ISO szabványosításához is.

Univerzális szám-számnév átalakítás az OpenOffice.org-ban

Letölthető a Numbertext OpenOffice.org kiterjesztés, amivel a számokat tetszőleges nyelven, tetszőleges pénznemben lehet számnévként megjeleníteni a cellákban. Az első változat a magyaron kívül az angol, eszperantó, holland, kínai, német, olasz és thai nyelveket támogatja. Letöltés. A letöltött kiterjesztést az OpenOffice.org Eszközök-Kiterjesztéskezelő-Hozzáadás menüpontjával lehet telepíteni. Újraindítás után két új Calc függvény válik elérhetővé, a NUMBERTEXT és a MONEYTEXT. Használatukat a következő példák szemléltetik:

=NUMBERTEXT(1234,56)
=NUMBERTEXT(1234,56;”th-TH”)
=MONEYTEXT(1234,56)
=MONEYTEXT(1234,56;”EUR”)
=MONEYTEXT(1234,56;”INR”;”en-US”)

Az eredmény két kínai példával kiegészítve (nagyítás: kattintás a képre):


numbertext
A fejlesztés a magyar FSF.hu és a holland NLnet alapítványok támogatásával valósulhatott meg, és a Budapest New Technology Meetup május 6-i rendezvényén mutatkozott be egy rövid előadással. A fejlesztésről hamarosan részletes beszámoló következik.

Nyílt forráskódú magyar nyelvhelyesség-ellenőrző

Az FSF.hu Alapítvány támogatásával elkészült az OpenOffice.org nyílt forráskódú magyar nyelvhelyesség-ellenőrzője. A program jelenleg OpenOffice.org kiterjesztésként érhető el az irodai csomag 3.0.1-es változatához, később pedig alapértelmezett részévé válik az OpenOffice.org magyar nyelvű kiadásának. Letöltés itt.

A több mint kétszáz megadott nyelvi szabály a következő hibák felismerését és javítását teszi lehetővé: írásjel-használati hibák, dupla szóközök, dátumok, tipikus tévesztések (egyelőre, megfedd, eltussol stb.), pár szóismétlés és névelőhasználati hiba felismerése, nagy számok hiányzó tagolása és nem törő szóközökkel való javítása stb.

A nyelvhelyesség-ellenőrző Lightproof névre hallgató motorja nyelvfüggetlen. Az OpenOffice.org-kiterjesztés a nyelvi modulok fejlesztését szolgáló teljes környezetet is tartalmazza egy tesztelő és szintaxis-ellenőrző szabályfordítóval. Elkészült egy rövid angol szabályleírás is, ami mintaként szolgál az OpenOffice.org mintegy száz támogatott nyelvének hasonló nyelvi fejlesztéseihez. A mintaszabályok minimális módosításával és kiegészítésével, hibaüzeneteinek lefordításával villámgyorsan elkészíthető egy új nyelvhelyesség-ellenőrző akár a zulu vagy a nepáli nyelvhez is. A nyílt forráskódú közösségi fejlesztési modellnek köszönhetően ez nemcsak a felhasználókat érinti, mert a még szélesebb körű felhasználás a nyelvhelyesség-ellenőrző és az irodai csomag fejlesztését is nagyban elő fogja segíteni.

Működés közben a magyar nyelvhelyesség-ellenőrző