bezár
 

irodalom

2021. 05. 31.
Mesterséges intelligencia és digitális örökség
A Digitális Örökség Nemzeti Laboratórium (DH-LAB) bemutatkozó online konferenciájáról
Tartalom értékelése (0 vélemény alapján):
Május 20-án rendezték meg a Digitális Örökség Nemzeti Laboratórium (DH-LAB) bemutatkozó online konferenciáját, melyet a tárgykör specifikus és szaktudományos jellege ellenére meglehetősen magas érdeklődés övezett. A hatórás konferencia kifejezetten részletgazdag, tematikáját tekintve sok szempontból aktuális, igen szerteágazó és kiterjedt volt. Fókuszpontjai a nyelvtechnológiai fejlesztések, automatikus szemantikai analízisek, szövegkivonatolás és a webaratás voltak, a részvevő intézmények pedig a BME, az ELTH TK, az ELTE Digitális Bölcsészet Tanszék, az ELTE TáTK, a Magyar Nemzeti Levéltár, az MTA-KIK, a Miskolci Egyetem, a Monguz Kft., a Semmelweis Egyetem ­ Szaknyelvi Intézet és a Szegedi Egyetem.

A konferencia három szekcióját megelőzően Toma Tasovac-nak, a  Digital Research Infrastructure for the Arts and Humanities igazgatójának bevezető értekezését hallhattuk, melyben többek között a könyvtárak és tudásadatbázisok használatának és mibenlétének történeti sajátosságait emelte ki, a kutatási infrastruktúra kialakulását, az alexandriai könyvtár szerepét tárgyalta. Az A ókori világ legnagyobb könyvtára nem egyszerű archívumként, de a pusztulás elleni védelem templomaként is működött. Intézményileg nem csupán értékrendet képviselt, de őrizte és fenntartotta tudás használatához kapcsolódó rítusokat is. Előadásában rámutatott, a technopesszimista attitűd, vagy technofóbia nem újkeletű, kortárs, vagy későmodern jelenség, Filippo de Strata bencés szerzetes példájával szemléltette, hogy már a 15. század végén jelentkezett a könyvnyomtatás elleni lázadás formájában. Mindezek mellett természetesen kitért a digitális kutatási infrastruktúra jelenlegi szerkezetére és működésmódjára is.

prae.hu

Az első szekcióban – melynek moderálását Dr. Tószegi Zsuzsanna, a DH-LAB vezető szakértője végezte – a mesterséges intelligencia lehetséges felhasználását és alkalmazását tárgyalták a memóriaintézmények, repozitóriumok, kutatási adatbázisok rendszereiben. Palkó Gábor, a ELTE Digitális Bölcsészet Tanszék, valamint a DH-LAB vezetője, és Kiss Tamás, a Monguz Információtechnológiai Kft. munkatársának előadása bepillantást nyújtott egy konkrét eszközrendszer fejlesztésének első szakaszába. Rövid bevezetőjében a DH-LAB célkitűzését Palkó Gábor az alábbi módon foglalta össze: „[A] Digitális Örökség Nemzeti Laboratóriumának célja, hogy konzorciumi és további szakmai partnereivel együttműködve kidolgozza a nemzeti kulturális örökség mesterséges intelligencia alapú feldolgozásának, kutatásának, oktatásának és közzétételének módszertanát”. Hozzátette, természetesen nem csupán egyetlen módszertanról lehet szó, sokkal inkább módszertani ajánlásokról, melyeket a konferencia további részében igyekeznek majd feltárni és bemutatni az előadók.

Szatucsek Zoltán és Hegedűs István, az Országos Levéltár és a Magyar Nemzeti Levéltár munkatársai a levéltári agyagok feldolgozásában jelentkező innovációs lehetőségekről számoltak be, Világ Gabriella, az MTA KIK és a Monguz Kft. kollégája és Sándor Ákos, a DH-LAB kutatója és a Szegedi Tudományegyetem Informatikai és Szolgáltatási Igazgatóságának munkatársa pedig a Digitális Örökség Nemzeti Laboratórium szervezésében újonnan induló adatgazda, vagy Data steward képzésről beszélt, kitérve arra is, milyen okokból merülhetett fel az igény egy ilyen jellegű képzés létrehozására, illetve milyen kihívásokkal kellett szembenéznie.

A konferencia második szekciója a kulturális örökség és nyelvtechnológia viszonyát tárgyalta. Az ELTE Digitális Bölcsészet Tanszék képviseletében Horváth Péter és Szemes Botond előadása a távoli olvasáshoz kapcsolódó két folyamatban lévő projektet mutatta be. Elsőként az ELTE verskorpusz projektjét, melynek célja egy olyan adatbázis létrehozása volt, amely a magyar költészeti kánont tartalmazza a 20. század közepéig, s melynek online felülete bárki számára könnyen hozzáférhetővé és kereshetővé válhat. Ennek alapján a jelenleg 46 költő összes versét magában foglaló szövegkorpuszt 3 tulajdonság gépi annotálásával analizálták (a versek szerkezeti egységei mellett a szavak grammatikai tulajdonságait és a vershangzás bizonyos jellemzőit annotálták). A másik jelenleg is futó projekt, a verskorpuszhoz egészen hasonló módon, szintén egy folyamatosan bővülő adatbázis, egy drámatörténeti szövegkorpusz létrehozását célozza. Tekintettel arra, hogy a drámakorpusz egyelőre csupán tervezet formájában létezik, Szemes Botond a létrehozást vezérlő elvekről, a korpusz összetételéről, a keresőfelület működéséről és az egyes vizualizációs eljárásokról számolt be részletesen. A létrejövő szövegkorpuszt a verskorpuszhoz hasonló módon tei xml formátumban archiválják, melyben a nyelvstatisztikai lekérdezések mellett, többek között a drámákon belüli karakterhálózatok automatikus felrajzolása és a különböző szereplők nyelvi megalkotottságának vizsgálata is lehetővé válhat.

A DH-LAB munkatársa, Dömötör Andrea azt ismertette, mit jelent a „gold standard” korpusz fogalma, mi a célja és szerepe, valamint milyen kritériumok alapján létesülhet. Az előadás rámutatott, ennek a korpuszok szempontjából elsősorban minőségbiztosítási jelentősége van, hiszen létrehozása jelentős humán erőforrást, illetve felülvizsgálatot igényel, emellett pedig fontos célkitűzése a reprezentativitás. Indig Balázs, az ELTE Digitális Bölcsészet Központ és a Nyelvtudományi Intézet munkatársa előadásában a korpuszról mint szolgáltatásról értekezett, valamint, egyebek mellett, a Sketch Engine nyílt forrású és felhőben futó korpuszlekérdező rendszert is bemutatta.

Kmetty Zoltán, az ELKH Társadalomtudományi Kutatóközpontjának kutatója egy fiatal kutatócsapat együttműködésével, (Boros Krisztián, Katona Eszter, Knap Árpád, Molnár Anna és Mogyorósi Pálma) mesterséges intelligencia felhasználásával vonta vizsgálat alá az oltásellenességgel kapcsolatba hozható, a digitális térben keletkezett szövegeket, azok tartalmi és szentiment alapú klasszifikációja alapján. A kutatás az oltásellenesség időben való változásait, valamint a tárgykörben felmerülő különböző narratívák alakulását vizsgálta, tette ezt a fertőzés megjelenését követő év 9-10 hónapjára vonatkozó adatok begyűjtésével és feldolgozásával. Előadásának első része a korpuszépítés, az adatgyűjtés és -előkészítés részleteit vázolta, majd kitért rá, a téma milyen domináns módon uralta le a közéleti diskurzust, melyet a kutatás során a cikkek és posztok, illetve a kommentek különválasztásával vizsgáltak. A kiszűrt tartalom megközelítőleg kétszázezer cikk és poszt volt, melyhez több mint kétmillió komment tartozott. A kutatás topikmodellezés segítségével elemezte, mely vakcinákhoz milyen szavak kapcsolódnak. A Szputnyik vakcina például láthatóan politikus nevekhez kötődött erősen, ebből arra lehet következtetni, hogy nagy mértékben volt jelen a politikai diskurzusokban, ezzel szemben a Pfizer vakcina sokkal inkább a hatékonyság szempontjából került tárgyalásra, azaz inkább a szakmai jellegű diskurzusokban került elő.

A harmadik szekció a Webes források a kutatás szolgálatában címszó alatt négy előadásban mutatta fel a digitális forrásokra irányuló kutatások jelenlegi helyzetét.

Sárközi-Lindner Zsófia, az ELTE DH kutatója az Indig Balázs vezetésével zajló webaratás projekt jelenleg is zajló munkafolyamatát, eredményeit, valamint a jövőbeli fejlesztések várható törekvéseit ismertette. A projekt filológiai irányultságú tevékenysége a webes felületeken közzétett cikkeinek mint a jövő forrásanyagainak, illetve napjainkban a digitális térben keletkező kulturális örökség megőrzése érdekében egy webes forrású cikkarchívum fejlesztésén fáradozik.

Ezt követte Makrai Márk és Szaszák György nyelvmodellekkel foglalkozó munkaprogramjának bemutatása, mely projekt immáron utolsó événél tart a BME Távközlési és Médiainformatikai Tanszékén folyó kutatás ütemtervében. Szaszák György előadása első részében a magyar hírek automatikus kivonatolására előtanított mély nyelvmodelleket ismertette, majd beszámolt az automatikus kivonatolás kapcsán jelentkező problémákról is, valamint a fentebb már említést nyert projekt részleteiről.

A Semmelweis Egyetem Szaknyelvi Intézetének munkatársa, Varga Éva Katalin Zimonyi Ákos kollégájával végzett, jelenleg is futó kutatásába nyújtott betekintést, mely a szaknyelvi terminológia közéletbe áramlásának vizsgálatával foglalkozott. A kutatás a kialakulóban lévő új nyelvészeti ág – melyet Istók Béla és Lőrincz Gábor virolingvisztikának nevezett – paradigmájához kapcsolódva, Indig Balázs közreműködésével a Covid korpusz anyagát vizsgálta, melyben az ún. koroneologizmusok mellett a szaknyelvi terminusok, vagy orvosi szleng köznyelvbe áramlásának jelenségével, illetve a különböző jelentésszűküléssel, -tapadással és -bővüléssel, tükörjelenségekkel foglalkoztak.

A konferencia harmadik szekcióját az ELTE Társadalomtudományi Tanszékének Research Center for Computational Social Science (rc2s2) két munkatársának, Barna Ildikónak és Németh Renátának előadása zárta, mely a webaratás társadalomtudományi hasznosítását taglalta.

Palkó Gábor, a DH-LAB vezetője a konferenciát lezáró felszólalásában a köszönetnyilvánítás mellett jelezte a végzett és tervezett kutatások relevanciáját, melyet a közel 300 résztvevő és érdeklődő magas létszáma is legitimált, és kiemelte, hogy a fejlesztések egy részéről nem volt mód hírt adni jelen konferencián, így azok a soron következő konferencia tárgyalandó anyagát képezik majd.

A konferenciáról készült felvételek hamarosan elérhetők lesznek a DH-LAB honlapján, ahol az érdeklődők már most is olvashatnak további beszámolót az eseményről.

nyomtat

Szerzők

-- Szemigán Dotti --


További írások a rovatból

Horváth Iván (1948-2024)
Kilenc szabad növény és Boszorkányok nyara – Recenzió Sánta Miriám és Sárkány Tímea 2023-as köteteiről
Interjú Horváth Florenciával és Karádi Gergővel a Valójában senki című zenés irodalmi est kapcsán

Más művészeti ágakról

A Present Eye Looking to the Past című kiállításról
A Friss Hús Határhelyzetek című nemzetközi szekciójáról
A teremtett „képzelet” határtalansága


bezár
Regisztráció


bezár
Bejelentkezés