Picit pöszít még a PC

Amióta számítógép létezik, azóta játszik az ember a gondolattal: egyszer majd közvetlenül beszélgethet a masináival, mindenféle gomb és képernyő közvetítése nélkül. Ettől - egyelőre - messze vagyunk, hiszen a gépet először meg kellene tanítani az emberi nyelvre. A feladat bonyolultabb, mint gondolnánk - az áhított cél eléréséhez nyelvészeknek és programozóknak kell összefogniuk. A magyar számítógépes nyelvészettel foglalkozó, a múlt hét végén Szegeden tartott konferencián annak jártunk utána, milyen eredményeket mutathatnak fel a hazai kutatók.

KultúraTanács Gábor2004. 12. 17. péntek2004. 12. 17.
Picit pöszít még a PC


A számítógépes nyelvészet természetesen nem elsősorban beszélő masinák előállításával foglalkozik, az egyes kutatói csoportok egymás munkáit, programjait felhasználva igyekeznek különböző feladatokat megoldani. Az egyik cél az, hogy a számítógép  közérthetően fel tudjon olvasni begépelt mondatokat - ennek nagy hasznát lehetne venni például a vakok oktatásában. Ugyanilyen cél az is, hogy a lediktált szöveget a gép írásba tudja átfordítani vagy pedig felismerjen egyes szavakat. Ezzel sokkal könnyebb lehetne az ügyintézés, hiszen ha az automata megértené a kérelmező nevét, fel tudná venni az adatait, sokkal gyorsabban lehetne kiváltani az okmányokat. Kevéssé látványosak, mégis nagy segítséget nyújthatnak a jövőben a fordítóprogramok: jelenleg még csak nyersfordításra képesek, de félig-meddig pontos magyar szöveget már most elő tudnak állítani egy angol szövegből, jelezve azt is, hogy hol bizonytalanok a dolgukban.
A felsoroltak csak a töredékét képezik azoknak a feladatoknak, amelyet a számítógépes nyelvészet kutatói próbálnak megoldani, ráadásul a mieink csak kevéssé támaszkodhatnak a külföldi tapasztalatokra. A magyar nyelv ugyanis gyökeresen különbözik például az angoltól, mely a hasonló területen dolgozók többségének anyanyelve. Először nyelvtani elemző programokat kell készíteni, amelyek szabályokat tudnak felállítani arra, hogyan is épül fel egy mondat. Az angol programoknak könnyű: ha azt a főnevet akarják egy mondatba illeszteni, hogy "fa", két szó áll a rendelkezésükre: tree (fa), és trees (fák), ezzel vége. A magyar azonban tobzódik a toldalékokban: fa, fára, fával, fának - sorolhatnánk tovább a végtelenségig, hiszen egy főnévnek nálunk (tessék megkapaszkodni) több mint hatszáz alakja van. Ezt mi könnyedén kezeljük, de a számítógépnek nagyon pontos szabályokat kell lefektetni, másból nem ért. Meg kell tehát alkotni azokat a programokat, amelyek felismerik, hogy az adott szóban (mondjuk: fá-i-tok-kal) milyen jelentéselemek (azaz morfémák) vannak.
{p}
A következő csapda a szórend. Más nyelvekben ez kötött, például ha azt mondjuk angolul, hogy "A kutya alszik", nem cserélhetjük meg a mondatrészek helyét, mert akkor hibás mondatot kapnánk. Magyarul tetszőleges sorrendben lerakhatjuk a szavakat, és haloványan eltérő jelentéseket kapunk. Külön programok kellenek arra is tehát, hogy a mondatok felépítésére vonatkozó szabályokat sajtoljanak ki bizonyos szövegekből úgy, hogy az azokban szereplő mondatokat elemzik. Ilyen módon a nyelvészek által már ismert szabályosságok mellé újakat illesztenek. Ekkor még mindig nem értük el a célt, hiszen a mondatokat is össze kell valahogy kötnie a számítógépnek ahhoz, hogy értelmes szöveg kerekedjen ki belőle - ám ettől egyelőre igen messze vagyunk.
A kutatásokat azért is nehéz összegezni, mert az egyes csoportok egymás eredményeit használva araszolnak előre. Az egyik egyetemi tudományos műhely például kidolgoz egy programot, amely megtalálja a szótöveket és elválasztja a toldalékoktól. Egy másik mondatelemző programot készít; a harmadik csak egy olyan programszeletkét munkál ki, amellyel mások alkotásának hatékonysága fokozható. A sor végén állnak azok, akik már - mint vállalkozók - valamilyen felhasználói programot, szótárt, olvasót, pszichológiai elemző programot állítanak elő, amelyet a piacra lehet vinni. Mindenesetre, ha apró léptekkel is, de haladnak a kutatások.
S most szóljunk az egyik legérdekesebb területről, a beszédfelismerő programokról. Készítésük során nagyon aprólékos vizsgálatnak kell alávetni az egy-egy kiejtett hang (teszem azt: g, a, s) által keltett rezgések tulajdonságait, hogy a gép meg tudja különböztetni őket egymástól. Arról nem is beszélve, hogy az összeolvadások (például: mondja) és általában a hangtani szabályok ugyanúgy programozást igényelnek. A nehézségek ellenére ma már létezik olyan mobilszolgáltató, amelynek közvetítésével e kutatások alapján az automata fel tudja olvasni a beérkezett SMS-eket.
A számítógépes nyelvészet fejlődése egyenletes tempóban halad: a kitűzött cél eléréséért minden eddiginél alaposabban fel kell térképezni a magyar nyelvet, amelyet még mindig nem ismerünk kellőképpen. Ez akkor derül ki igazán, amikor egy nálunknál gyorsabban, de sokkal sarkosabban gondolkodó mesterséges intelligenciának akarjuk megtanítani.

Google News
A legfrissebb hírekért kövess minket a Szabadföld Google News oldalán is!

Ezek is érdekelhetnek