Előadás az OpenOffice.org konferencián: nyelvtechnológiai újdonságok

Az OpenOffice.org-ba idén számos nyelvtechnológiai újdonság és hibajavítás került be, amelyről november 6-án tartottam egy összefoglaló előadást a VII. OpenOffice.org konferencián, Orvietóban, Olaszországban.
Az egyik leglényegesebb újdonság a mondatellenőrző programozási interfész, amelyet már számos bővítmény (például a LanguageTool és a Lightproof) használ. Működik a tövezés és toldalékolás a szinonimaszótárakat kezelő tezaurusz komponensben (a Hunspell meghívásával), javításra került az OpenOffice.org 3.0-ban elromlott brit angol elválasztás, és számos régi angol elválasztási hiba is kikerült a programból. Az elválasztómodul jobban támogatja most az összetett szavak elválasztását is, ami nemcsak a magyar, hanem a holland, német stb. nyelvek új elválasztási mintáinak fejlesztését is megalapozza. Az összetett szavak helyesírás-ellenőrzése is javult, most már a svéd, norvég, de az indiai nyelvek speciális igényeit is kiszolgálja. A be- és kimeneti karakterátalakítás jól működő koreai szótár elkészítését tette lehetővé, illetve Unicode normalizálást biztosít az olyan speciális ékezetes betűket tartalmazó nyelvek számára, mint a vietnami és az afrikai joruba. További részletek az előadás magyarra fordított diáiban, PDF formátumban vagy a következő képre kattintva Flash formátumban is (köszönhetően az OpenOffice.org Impress PDF és Flash támogatásának). Köszönöm az FSF.hu Alapítvány támogatását, amit a konferencián való részvételhez nyújtott!

Németh László

Újdonságok az OpenOffice.org magyar mondatellenőrzőjében

Az FSF.hu Alapítvány támogatásával elkészült az OpenOffice.org magyar mondatellenőrzőjének új változata, jelentősen bővített magyar nyelvi szabályokkal. Példák az újonnan felismert típushibákra: *megszeretném nézni; *meglett csinálva, *had ne kelljen, *több, mint zavaró, *olyat amilyet, *macska illetve kutya, *a fészer mellet, *a csomagban helyett kapott stb. (l. tesztállomány). Ha már telepítve volt korábban, a mondatellenőrző OpenOffice.org-bővítmény az Eszközök→Kiterjesztéskezelő segítségével is frissíthető az OpenOffice.org-ban.

Mondatellenőrzés az OpenOffice.org-ban

Az újdonságok hátterében az áll, hogy a Lightproof 1.2 mondatellenőrző most már együttműködik az OpenOffice.org Hunspell morfológiai (szóalaktani) elemzőjével. A program új változatában tetszőleges, szófaji és toldalékolási (de gyakorlatilag bármilyen egyéb szótári) információt is tartalmazó kifejezésekkel írhatók le a nyelvi hibajelenségek.

A kiadással a fejlesztés nem zárult le. A következő változatban jelennek meg a választható mondat-ellenőrzési szabályok, amelyek között nemcsak a rossz helyesírók, hanem a korrektúrával napi szinten foglalkozók számára készült szabályokat is találni majd. Az utóbbira példa a korábban már említett, a legújabb fejlesztéssel már kipróbált (de a kiadásban még nem szereplő) összetettszó-tiltó szabály, amely kérésre aláhúzza azokat a gyanús összetett szavakat, amelyek elütés vagy hibás optikai karakterfelismerés révén előálló értelmetlen szavak is lehetnek.

A nyílt forráskódú Lightproof OpenOffice.org-bővítmény mérete az új fejlesztésekkel és a mellékelt forráskóddal sem haladja meg a 40 kB-ot. A kis méret annak is köszönhető, hogy a bővítmény a Hunspell morfológiai elemzőt és a morfológiai adatokat is tartalmazó magyar helyesírási szótárát az OpenOffice.org UNO programozási felületén keresztül használja. A tömörség másik oka a magas szintű Python programozási nyelv, amiben például egy programsor értékeli ki az új mondat-ellenőrzési szabályok logikai kifejezéseit.

A magyar fejlesztésű Lightproof program nemcsak platformfüggetlen, hanem nyelvfüggetlen is. A Hunspell-integrációnak köszönhetően pedig már kezeli a bonyolult alaktannal rendelkező és az egybeíró (sok összetett szót használó) nyelveket is, így sikeresen mutatkozhat be november elején a következő OpenOffice.org konferencián az OpenOffice.org szélesebb nemzetközi közönsége előtt.

A Microsoft Office és az OpenOffice.org magyar nyelve

Ahogy több független (az egyik esetben Mártonfi Attila, az MTA Nyelvtudományi Intézet munkatársa, a mérvadó, Osiris Kiadónál megjelent Helyesírás című kötet társszerzője segítségével készült) vizsgálat korábban megmutatta, a magyar szavak helyesírás-ellenőrzésében a Microsoft Office elmarad az ingyenes, nyílt forráskódú OpenOffice.org-tól.1,2 Az elmúlt évek fejlesztéseinek köszönhetően a többi nyílt forráskódú nyelvi eszköz (elválasztóprogram, nyelvhelyesség-ellenőrző, szinonimaszótár) is felzárkózott és számos pontban felül is múlja zárt vetélytársát. “A Microsoft Office és az OpenOffice.org magyar nyelve” bővebben

Új helyesírási szótár az MR2 és a Sláger Rádió hallgatóinak (is)

Hamarosan több millió magyar felhasználóhoz jut el a szabad magyar helyesírási szótár legújabb, 1.5-ös változata a frissített Firefox- és OpenOffice.org kiterjesztések révén.

Az új szótár részben az OpenOffice.org tövező-toldalékoló szinonimaszótárának működését javítja, részben pedig bővített és javított szókincset tartalmaz. Példák az új szavakra:

ABBA, afrodiziákum, allergológia, árvaellátás, blog, blogol, cigányellenesség, dekupázs, episztémé, feta, fröccsöntött, íjászkodik, immunanyag, impaktfaktor, infokommunikáció, Jobbik, középszürke, lovári, mediáció, melegfelvonulás, mém, MR2, narratíva, netbook, Obama, offshore, ORFK, ökogazdálkodás, pita, plakátol, PSZÁF, Renée, romológia, szender, szexel, szupercella, szuperóriás, szitár, szonár, szopizik, szórványmagyar, sztenderdizál, szútra, talajvesztett, tangram, társasozik, tenyésztojás, termálkút, tofu, vegykezelt stb.;

Az új szókincs egy része más szálon is kötődik az OpenOffice.org-hoz: például az OVSZ, trombocita, immunhematológia, szervátültetett stb. szavak bekerülésének egyik apropója, hogy az Országos Vérellátó Szolgálat OpenOffice.org használatára áll át idén a Novell Magyarország segítségével, a csere mintegy 500 felhasználót érint. A hibás *Novellel alak helyett most már csak a Novell-lel a helyes. A felismert Boros, Bochkor szavak mellé a Voga is csatlakozott, nem kis részben a Sláger Rádió 2009. szeptember 7-i Bumeráng adásának köszönhetően, ahol a névadók több mint egymillió rádióhallgatóval ismertették meg az OpenOffice.org Writert és Impresst, az OpenOffice.org szövegszerkesztőjét és bemutatókészítőjét. Akik elmulasztották volna: OpenOffice.org a Sláger Rádióban. Az OpenOffice.org magyar honosításáért felelő FSF.hu Alapítvány neve is régóta hiányzott a szótárból, ennek pótlására is most került sor.

A változások részletes listája.

Elérhető az OxygenOffice Professional ingyenes irodai programcsomag 3.1.1.25 verziója

Megérkezett az OxygenOffice Professional 3.1.1.25-ös verziója. Ezen kiadás alapját is az ooo-build rendszer adja, amely az OpenOffice.org továbbfejlesztett változatát biztosítja.

Megérkezett az OxygenOffice Professional 3.1.1.25-ös verziója. Ezen kiadás alapját is az ooo-build rendszer adja, amely az OpenOffice.org továbbfejlesztett változatát biztosítja. A most elérhetővé tett változat tartalmazza az OpenOffice.org 3.1-es verziójának valamennyi újdonságát és a 3.1.1-es verzió összes hibajavítását is.

Ez a kiadás a Hunspellről helyesírás-ellenőrzőjéről méltán ismert Németh László újabb fejlesztéseit tartalmazza: a Lightproof nyelvhelyesség-ellenőrző modult valamint a „numbertext” – számokat szöveges megfelelőjüknek alakító – Calc függvényeket. Frissítésre kerültek a sablontárak is, így a Sun által közzétett kiterjesztésként telepíthető sablonkészletei is részei a csomagnak. Ez a csomag magyar nyelven is elérhető, így a magyar nyelven elérhető sablonok száma is bővült. Az igen kiterjedt – több, mint háromezer elemet tartalmazó – képtár is bővítésre került.

Jelentős – szerkesztés közben tapasztalható – sebességnövekedést is sikerült elérni a Linux változatoknál. Új alapbeállítás, hogy a z OxygenOffice Professional ezentúl mindig készít biztonsági másolatot a mentett dokumentumok előző állapotáról. Apró újdonság az állapotsorban megjelenő „*” karaktert leváltó grafikus jelző, amely a dokumentum mentésére hívja fel a figyelmet, ha azon változtatás történik. Mindezek mellett ez a változat tartalmazza az összes olyan továbbfejlesztést és javítást, amely csak az ooo-build alapokra helyezett kiadásokra jellemző: javított exportálási és importálási képességek, nagy táblázat támogatás (fejlesztés alatt), KDE4 támogatás, sebességnövelő javítások és működést korrigáló javítások. Részletesebb leírást a bejelentés végén talál.

Letöltés

Az OxygenOffice Professional – nyílt forráskódú – irodai programcsomag ingyenesen beszerezhető, letölthető a következő helyekről:

Windows verziók beszerzése

https://sourceforge.net/projects/ooop/files/Binary-Windows32bit/3.1.1.25/

ftp://ftp.devall.hu/kami/oxygenoffice/3.1.1.25/win32/

Linux verziók beszerzése

DEB és RPM-alapú rendszerek, 32 valamint 64 bites rendszerek

Részletes leírás:

http://hup.hu/node/76177

Linux verzió esetén az újabb verziók telepítése automatikusan kerül majd végrehajtásra…

“Elérhető az OxygenOffice Professional ingyenes irodai programcsomag 3.1.1.25 verziója” bővebben

Hunspell a Mac OS X-ben

Az OpenOffice.org Hunspell helyesírás-ellenőrzője része lett a Apple Mac OS X legújabb, Snow Leopard (magyarul hópárduc) néven megjelent változatának. Az OpenOffice.org és a Firefox után a közelmúltban a Google Chrome, az Opera 10 és az SDL Trados választotta még a Hunspellt helyesírás-ellenőrzőt. A Hunspell több mint 100 nyelvet támogat, a magyaron kívül olyan nehezen kezelhető nyelveket, mint például az arab, baszk, kopt, zulu és nepáli, legújabb fejlesztéseivel pedig lehetővé vált a koreai és hasonló nyelvek támogatása is. A Hunspell fejlesztését az elkövetkező két hónapban az FSF.hu Alapítvány támogatása teszi lehetővé. Források: Plastik Media, Middle Eastern Mac User Group, http://www.apple.com/opensource/.

Nyílt forráskódú magyar nyelvhelyesség-ellenőrző

Az FSF.hu Alapítvány támogatásával elkészült az OpenOffice.org nyílt forráskódú magyar nyelvhelyesség-ellenőrzője. A program jelenleg OpenOffice.org kiterjesztésként érhető el az irodai csomag 3.0.1-es változatához, később pedig alapértelmezett részévé válik az OpenOffice.org magyar nyelvű kiadásának. Letöltés itt.

A több mint kétszáz megadott nyelvi szabály a következő hibák felismerését és javítását teszi lehetővé: írásjel-használati hibák, dupla szóközök, dátumok, tipikus tévesztések (egyelőre, megfedd, eltussol stb.), pár szóismétlés és névelőhasználati hiba felismerése, nagy számok hiányzó tagolása és nem törő szóközökkel való javítása stb.

A nyelvhelyesség-ellenőrző Lightproof névre hallgató motorja nyelvfüggetlen. Az OpenOffice.org-kiterjesztés a nyelvi modulok fejlesztését szolgáló teljes környezetet is tartalmazza egy tesztelő és szintaxis-ellenőrző szabályfordítóval. Elkészült egy rövid angol szabályleírás is, ami mintaként szolgál az OpenOffice.org mintegy száz támogatott nyelvének hasonló nyelvi fejlesztéseihez. A mintaszabályok minimális módosításával és kiegészítésével, hibaüzeneteinek lefordításával villámgyorsan elkészíthető egy új nyelvhelyesség-ellenőrző akár a zulu vagy a nepáli nyelvhez is. A nyílt forráskódú közösségi fejlesztési modellnek köszönhetően ez nemcsak a felhasználókat érinti, mert a még szélesebb körű felhasználás a nyelvhelyesség-ellenőrző és az irodai csomag fejlesztését is nagyban elő fogja segíteni.

Működés közben a magyar nyelvhelyesség-ellenőrző