A másik I. helyezett munka: - 2005/8 (GIS,térinformatika,térkép,geodézia)


  
 
 

A másik I. helyezett munka: - 2005/8

BE Konferencia Prága 2006

 
 
 

Egy térinformatikai rendszer alkotóelemei közül a legfontosabb és egyben a legköltségesebb összetevőt az adatok jelentik; ebből eredően a költség-minimalizációra való törekvés ezen a területen a legfontosabb. Ez a cél, valamint az, hogy valamilyen jellegű adat szinte minden esetben rendelkezésre áll (akár megvásárolható formában) vezetett ahhoz, hogy manapság a másodlagos adatnyerési eljárások alkalmazása került előtérbe. Az ilyen típusú adatnyerés forrásai származhatnak adatszolgáltatóktól, vállalaton belülről, vagy akár az internetről is. Bárhonnan is származzanak az adatok, általánosságban elmondható, hogy struktúrájuk jellemzően nem egyezik a kialakítandó rendszer adatstruktúrájával, legyen szó akár geometriai, akár attribútum adatokról. Ez utóbbi esetén az is előfordulhat, hogy a forrásadatok szövegesen (például a vállalat belső dokumentumrendszeréből) állnak rendelkezésre, míg a kialakítandó rendszer adatbázisokkal dolgozik. Ebben az esetben az adatnyerés folyamán kiemelt problémát jelent a két struktúra közötti különbség áthidalása, hiszen sok esetben nagymennyiségű adatokról van szó.
Diplomamunkámban a fenti probléma egy lehetséges megoldását mutatom be, szövegbányászati módszerek alkalmazásával. A szövegbányászat célja a különböző szöveges forrásból történő automatikus tudáskinyerés. Mivel a folyamat során az írott emberi nyelv gépi feldolgozására kerül sor, a szövegbányászat jelentős mértékben támaszkodik a természetesnyelv-feldolgozás (NLP) módszereire és eredményeire. Az információkinyerés (pl. írott szövegből postai címek kigyűjtése), az összefoglalás (pl. terjedelmes dokumentum rövid, tömör összegzése) vagy az osztályozás (pl. vállalati dokumentumok kezelése) mind-mind olyan NLP technika, amely a szövegbányászat során felhasználható.

A 2005/8 szám tartalma >>>

 
 


©GIS Figyelő