„Menjünk mind az istállóba!”
- lengyel karácsonyi dalok szövegének elemzése változatos statisztikai módszertanok segítségével
A Lengyel Nemzeti Rádió 2016-os felmérése szerint a lengyelek közel 80%-a szokott a családjával karácsonyi dalokat (koledákat) énekelni az asztal körül. A lengyel karácsonyi dalok még a középkorban honosodtak meg az országban, eleinte latin, vagy cseh nyelven énekelt liturgikus énekekként, majd a 17. századtól kezdve egyre nagyobb népszerűségnek örvendtek az egész nemzet otthoni életében és tudatában. Sőt, a culture.pl honlap szerint sok lengyel egyenesen azt állítja, nincs még egy nemzet a földön, melynek annyi karácsonyi dala lenne, mint nekik. Az év ezen szakaszában, ahogy az angolszász kultúrában is, az éneklők házról-házra járnak, hogy senki se maradhasson ki az ünnep szelleméből.
Statisztika szakos egyetemi hallgatóként izgalmasnak találtam a feladatot, hogy különböző digitális adatfeldolgozó eljárások segítségével kicsivel mélyebben utána menjek a lengyel koledák szerkezetének és tartalmi összefüggéseinek. Munkám elvégzéséhez szöveganalitikai (Text Analytics) módszertanokat használtam, melyek segítségével szövegalapú adatbázisokból (pl. versek, könyvek, Facebook bejegyzések, újságcikkek, stb.) nyerhetünk ki számszerűsíthető adatokat. Az elemzéseket az RStudio statisztikai programcsomagjában végeztem el.
A lengyel karácsonyi dalok szövegéből álló adathalmazomat a kaggle.com-ról töltöttem le, ami az egyik legismertebb, ingyenesen felhasználható adatbázisokat tartalmazó oldalak egyike. A több, mint 200 db. dalszöveget tartalmazó file-t (továbbiakban korpuszt) több technikával is kielemeztem. Először létrehoztam egy dokumentumkifejezési mátrixot, ami azt mutatta meg, hogy az adott karácsonyi dalban hányszor fordul elő az adott szó. A mátrix adatait könnyedén egy egyszerű szófelhővé tudtam alakítani. A leggyakoribb szavak között rengeteg személyes névmás van (pl. sie – magamat; nam – nekünk; nas - minket ). Ebből is látszik az ünnep intim mivolta a szöveg létrehozói számára. Hangsúlyosak még a swiat – világ; nieba-ég és bóg – Isten szavak is, melyek az ünnep univerzalitására és szakralitására, földöntúli dimenzióinak fontosságára utalnak.
Második módszerem az LDA témamodellezés volt, melynek segítségével megfejthetjük, milyen fontosabb témák mentén íródott az adott korpusz szövege. Ehhez az RStudio olyan szópárokat keres, melyek a különböző karácsonyi dalokban gyakran fordulnak elő egymás mellett. Így, a gyakran együtt szereplő szavak halmazai akár jól elkülöníthető témákat is alkothatnak. Például egy felvételi procedúra emailes korpuszában gyakran szerepelhetnek együtt a „gratulálunk”, és a „továbbjutott”, valamint a „sajnálattal” és a „legközelebb” szavak. Vagyis, az előbbi szópár a sikeres, az utóbbi pedig a sikertelen felvételi témáját alakíthatja. Az LDA témamodellezésnél fontos lépés azon szavak kiszűrése is, melyek mindkét témában egyformán hangsúlyosan szerepelnek, így a végső eredmény kettő vagy több, szókincsében igen szélsőséges témát fog mutatni.
Az egyik LDA témakörömbe olyan szavak kerültek, mint például a trzej – három, kadzidlo – tömjén, mirre - mirha, snu – aludni, aniol – angyal, melyek egyértelműen a betlehemi történetre utalnak. A másik főbb témaköröm alkotóiként a gép többek között a ziemio – föld, staje – valamivé válni, czlowiekiem – emberek, chwali – imádni, lzami – könnyek és tron – trón szavakat határozta meg, melyek egy jóval általánosabb, a konkrét karácsonyi eseményektől elvonatkoztató, szakrális dimenziót jelölnek ki. Az LDA témamodellezésem eredménye is arról tanúskodik, hogy a lengyelek számára akár tradicionálisan, akár korunkat nézve, rendkívül fontos a karácsony ünnepének vallással átitatott mivolta.
A korpusz elemzésére használt harmadik módszertanom a hangulatelemzés (sentiment analysis) nevet viseli. Az interneten ma már fellelhetőek a világ számos nyelvén íródott lexikonok, melyek az adott nyelv szavaihoz érzelmi töltetet is rendelnek. Ezek közül a legismertebb talán az AFINN-lexikon, mely az angol nyelv szavaival (persze a töltelékszavakat, névmásokat, egyebeket leszámítva) teszi meg ezt egy -5 és +5 közötti skálán, ahol -5-ösek a legnegatívabb, 0-ásak a semleges, és +5-ösek a legpozitívabb szavak. Mivel az RStudioban nem találtam olyan függvényt, mely a lengyel korpuszt angol nyelvűre fordítani (persze ez csak nyersfordítás, de arra elég jó, hogy az egyes lengyel szavakat hasonlóan erős érzelmi töltetű, angol szavakkal helyettesítse), lengyel nyelvű hangulatlexikont pedig nehéz fellelni az interneten, így a crazypolishguy.wordpress.com szerzője szerinti top 10 lengyel karácsonyi dal szövegét fordítottam le a GoogleTranslate-tel angolra, majd alkalmaztam az így létrejött korpuszra a hangulatelemzést. Ezek után mind a tíz dal esetében megnéztem, mekkora az adott szövegben található szavaknak az átlagos érzelmi töltete. Így, bizonyos keretek között számszerűsíthetővé tettem, hogy az adott karácsonyi dal mennyire vidám, vagy éppen szomorú (már ha megbízunk a hangulatlexikon eredeti szóskálázásában). A top 10 karácsonyi dal címe, valamint az azokhoz rendelt átlagos érzelmi töltetek:
Bóg Się Rodzi (Isten megszületett) +1.267
Gdy Się Chrystus Rodzi (Mikor Krisztus megszületett) +1.500
Anioł Pasterzom Mówił (Az angyal azt mondta a pásztoroknak) -0.222
Gdy Śliczna Panna (Amikor a kedves Szűz Mária) +1.600
Przybieżeli do Betlejem (Betlehembe érkeztek) +1.956
W Dzień Bożego Narodzenia (Karácsony napján) -0.429
Wśród Nocnej Ciszy (Az éj csendjében) +1.438
Dzisiaj w Betlejem (Ma Betlehemben) +1.250
Pójdźmy Wszyscy do Stajenki (Menjünk mind az istállóba) +1.429
Lulajże Jezuniu (Aludj, Kis Jézus) +1.000
Látható, hogy a tíz dalból nyolc érzelmi töltete inkább pozitív, mint negatív, valamint a tízből egyik dalszöveg érzelmi töltete sem mozog kirívóan szélsőséges tartományban, egy kivételével mindegyik megmarad a -1.6-+1.6-os skálán belül. A legszélsőségesebben pozitív érzelmi töltetű dalnak a Przybieżeli do Betlejem (Betlehembe érkeztek) +1.956, míg a legszélsőségesebben negatív érzelmi töltetű dalnak a W Dzień Bożego Narodzenia (Karácsony napján) -0.429 bizonyult. A szövegeket jobban megvizsgálva ez nem is olyan meglepő, hiszen a Betlehembe érkeztek szövegében körülbelül 40 alkalommal hangzik el a „Dicsőség a magasságban” frázis. Mindezek mellett olyan más, erős érzelmekkel bíró szavak is szerepelnek ebben a dalban, mint az angyal, a béke, a szív, vagy az Úr. A dalt Jan z Lublina, vagyis Lublini János szerezte, aki egy 16. század elején élő lengyel szerzetes volt. Lublin egyébként a mai Lengyelország kilencedik legnépesebb városa. Azért illették Jant a Lublini névvel, mert feltehetőleg egy, a városhoz közel eső kolostor orgonistája volt. Nem véletlen, hogy az ő nevéhez köthető a világ legnagyobb, és egyik legrégebbi orgonakotta gyűjteménye, melyben több, mint 350 orgonadarabot, valamint elméleti okfejtéseket szedett össze.
A leginkább negatív érzelmi töltetű dal (Karácsony napján) pontszámát pedig valószínűleg olyan szavaknak köszönheti, mint a kiáltás, a szenvedés, vagy éppen az árnyék. Ezt a dalt a 17. században szerezték, és a honlap szerzője szerint ma már ritkán éneklik a lengyel templomokban. Végül, érdemes még kiemelnünk az Isten megszületett címet viselő karácsonyi éneket, melyet 1792-ben írt a lengyel romantikus költő, Franciszek Karpinski. A dal olyan sok patriotikus érzelemmel bír, hogy 100 évvel később egy ideig még azt is fontolóra vették, hogy használhatnák akár Lengyelország himnuszaként is. Ha himnusz nem is lett Karpinski szövegéből, annyi biztos, hogy még ma is sok lengyel család énekli átszellemülten az igen csak magasztos hangulatú dalt az ünnepi asztalnál.
Az adatbázis elérési helye:
https://www.kaggle.com/datasets/wojciech1103/polish-christmas-carols
Felhasznált irodalom:
https://crazypolishguy.wordpress.com/2014/12/15/best-polish-christmas-carols/
https://culture.pl/en/article/the-power-of-polish-christmas-carols
https://en.wikipedia.org/wiki/Jan_z_Lublina