„Menjünk mind az istállóba!”

Lengyel karácsonyi dalok szövegének elemzése változatos statisztikai módszertanok segítségével. A cikket Iványi Domokos Xavér írta és küldte be a tudományos és ismeretterjesztő cikkek írását ösztönző Visztula 2022-es pályázatára.

„Menjünk mind az istállóba!”
- lengyel karácsonyi dalok szövegének elemzése változatos statisztikai módszertanok segítségével

A Lengyel Nemzeti Rádió 2016-os felmérése szerint a lengyelek közel 80%-a szokott a családjával karácsonyi dalokat (koledákat) énekelni az asztal körül. A lengyel karácsonyi dalok még a középkorban honosodtak meg az országban, eleinte latin, vagy cseh nyelven énekelt liturgikus énekekként, majd a 17. századtól kezdve egyre
nagyobb népszerűségnek örvendtek az egész nemzet ünnepi életében és tudatában. Sőt, a culture.pl honlap szerint sok lengyel egyenesen azt állítja, nincs még egy nemzet a földön, melynek annyi karácsonyi dala lenne, mint nekik. Az év ezen szakaszában, ahogy az angolszász kultúrában is, az éneklők házról-házra járnak, hogy senki ne maradhasson ki az ünnep szelleméből.

Statisztika szakos egyetemi hallgatóként izgalmasnak találtam a feladatot, hogy különböző digitális adatfeldolgozó eljárások segítségével mélyebben is utána menjek a lengyel koledák tartalmi és formai sajátosságainak. Munkám elvégzéséhez különböző szöveganalitikai (Text Analytics) módszereket használtam, melyek segítségével írott forrásokból (pl. versek, könyvek, Facebook bejegyzések, újságcikkek stb.) nyerhetünk ki számszerűsíthető adatokat. A különböző elemzéseket az RStudio nevű statisztikai szoftver segítségével végeztem el.

A lengyel karácsonyi dalok szövegéből álló adathalmazomat a kaggle.com-ról töltöttem le, ami az egyik legismertebb, ingyenesen felhasználható adatbázisokat tartalmazó oldalak egyike. A több, mint 200 db. dalszöveget tartalmazó file-t (továbbiakban korpuszt) több technikával is elemzés alá vetettem. Először létrehoztam egy dokumentumkifejezési mátrixot, ami azt mutatta meg, hogy az adott karácsonyi dalban hányszor fordul elő az aktuálisan vizsgált szó. A leggyakoribb szavak között rengeteg személyes névmás van (pl. sie – magamat; nam – nekünk; nas - minket ). Ebből arra következtethetünk, hogy a szövegek létrehozói számára sokszor igen fontos volt az ünnep intim mivolta. A korpuszban hangsúlyosak még a swiat – világ; nieba - ég és bóg – Isten szavak is, melyek az ünnep univerzalitására és szakralitására, földöntúli dimenzióinak fontosságára utalnak. Második módszerem az LDA (Latent Dirichlet Allocation) témamodellezés volt, mellyel viszonylag egyszerűen megfejthetjük, milyen fontosabb témák mentén íródott egy adott korpusz szövege. Ehhez az RStudio olyan szópárokat keres, melyek a különböző karácsonyi dalokban gyakran fordulnak elő egymás mellett. Így a gyakran együtt szereplő szavak halmazai akár jól elkülöníthető témákat is alkothatnak. Például egy felvételi procedúra emailes korpuszában gyakran szerepelhetnek együtt a „gratulálunk”, és a „továbbjutott”, valamint a „sajnálattal” és a „legközelebb” szavak. Vagyis, az előbbi szópár a sikeres, az utóbbi pedig a sikertelen felvételik témáit alakíthatja. Az LDA témamodellezésnél fontos lépés azon szavak kiszűrése is, melyek mindkét témában egyformán hangsúlyosan szerepelnek, így a végső eredmény kettő vagy több, szókincsében igen szélsőséges tematikát fog mutatni.

Az egyik LDA témakörömbe olyan szavak kerültek, mint például a trzej – három, kadzidlo – tömjén, mirre - mirha, snu – aludni és aniol – angyal, melyek egyértelműen a betlehemi történetre utalnak. A másik főbb témaköröm alkotóiként a gép többek között a ziemio – föld, staje – valamivé válni, czlowiekiem – emberek, chwali – imádni, lzami – könnyek és tron – trón szavakat határozta meg, melyek egy jóval általánosabb, a konkrét karácsonyi eseményektől elvonatkoztató, szakrális dimenziót jelölnek ki. Tehát az LDA témamodellezésem eredménye is arról a korábbi megállapításomról tanúskodik, hogy a lengyelek számára akár tradicionálisan, akár korunkat nézve, rendkívül fontos a karácsony ünnepének vallással átitatott mivolta.

A korpusz elemzésére használt harmadik módszertanom a hangulatelemzés (Sentiment Analysis) nevet viseli. Az interneten ma már nagy számban fellelhetők olyan, a világ számos nyelvén íródott lexikonok, melyek az adott nyelv szinte teljes szókincsének minden eleméhez számszerűsített érzelmi tölteteket is rendelnek. Ezek közül a legismertebb talán az AFINN-lexikon, mely az angol nyelv szavaival (persze a töltelékszavakat, névmásokat, egyebeket leszámítva) teszi meg egy -5-től 5-ig tartó skálén mindezt, ahol -5-ös számozással szerepelnek a legnegatívabb, 0-ással a semleges, +5-össel pedig a legpozitívabb szavak. Mivel az RStudioban nem találtam olyan függvényt, mely képes lenne a lengyel korpuszt angol nyelvűre fordítani (perszeez csak nyersfordítás, de arra elég jó, hogy az egyes lengyel szavakat hasonlóan erős érzelmi töltetű, angol szavakkal helyettesítse), lengyel nyelvű hangulatlexikont pedig nehéz fellelni az interneten, így ennél a részfeladatnál nem az eredeti adatbázist használtam, hanem a crazypolishguy.wordpress.com szerzője szerinti top 10 lengyel karácsonyi dal szövegét fordítottam le a GoogleTranslate-tel angolra, majd az így létrejött korpuszon végeztem el a számításokat. Ezek után mind a tíz dal esetében megnéztem, mekkora az adott szövegben található szavaknak az átlagos érzelmi töltete. Így, bizonyos keretek között számszerűsíthetővé tettem, hogy az adott karácsonyi dal átlagosan mennyire vidám, vagy éppen szomorú (már ha megbízunk a hangulatlexikon eredeti szóskálázásában).

A top 10 karácsonyi dal címe, valamint az azokhoz rendelt átlagos érzelmi töltetek:


Bóg Się Rodzi (Isten megszületett) +1.267
Gdy Się Chrystus Rodzi (Mikor Krisztus megszületett) +1.500
Anioł Pasterzom Mówił (Az angyal azt mondta a pásztoroknak) -0.222
Gdy Śliczna Panna (Amikor a kedves Szűz Mária) +1.600
Przybieżeli do Betlejem (Betlehembe érkeztek) +1.956
W Dzień Bożego Narodzenia (Karácsony napján) -0.429
Wśród Nocnej Ciszy (Az éj csendjében) +1.438
Dzisiaj w Betlejem (Ma Betlehemben) +1.250
Pójdźmy Wszyscy do Stajenki (Menjünk mind az istállóba) +1.429
Lulajże Jezuniu (Aludj, Kis Jézus) +1.000


Látható, hogy a tíz dalból nyolc érzelmi töltete inkább pozitív, mint negatív, valamint a tízből egyik dalszöveg érzelmi töltete sem mozog kirívóan szélsőséges tartományban, egy kivételével mindegyik megmarad a -1.6-+1.6-os skálán belül. A
legszélsőségesebben pozitív érzelmi töltetű dalnak a Przybieżeli do Betlejem (Betlehembe érkeztek) +1.956, míg a legszélsőségesebben negatív érzelmi töltetű dalnak a W Dzień Bożego Narodzenia (Karácsony napján) -0.429 bizonyult. A szövegeket jobban megvizsgálva ez nem is olyan meglepő, hiszen a Betlehembe érkeztek szövegében körülbelül 40 alkalommal hangzik el a „Dicsőség a magasságban” frázis. Mindezek mellett olyan más, erős érzelmekkel bíró szavak is szerepelnek ebben a dalban, mint az angyal, a béke, a szív, vagy az Úr. A dalt Jan z Lublina, vagyis Lublini János szerezte, aki egy 16. század elején élő lengyel szerzetes volt. Lublin egyébként a mai Lengyelország kilencedik legnépesebb városa. Azért illették Jant a Lublini névvel, mert feltehetőleg egy, a városhoz közel eső kolostor orgonistája volt. Nem véletlen, hogy az ő nevéhez köthető a világ legnagyobb, és egyik legrégebbi orgonakotta gyűjteménye, melyben több, mint 350 darabot, valamint egyéb különböző elméleti okfejtéseket szedett össze.

A leginkább negatív érzelmi töltetű dal (Karácsony napján) pontszámát pedig valószínűleg olyan szavaknak köszönheti, mint a kiáltás, a szenvedés, vagy éppen az
árnyék. A művet a 17. században szerezték, és a honlap szerzője szerint ma már ritkán éneklik a lengyel templomokban. Végül, érdemes még kiemelnünk az Isten
megszületett címet viselő karácsonyi éneket, melyet 1792-ben írt a lengyel romantikus költő, Franciszek Karpinski. A dal olyan sok hazafias érzelemmel bír, hogy 100 évvel később egy ideig még azt is fontolóra vették, hogy használhatnák akár Lengyelország himnuszaként is. Ha himnusz nem is lett Karpinski szövegéből, annyi biztos, hogy még ma is sok lengyel család énekli átszellemülten az igen csak magasztos hangulatú dalt az ünnepi asztalnál.

Az adatbázis elérési helye:
https://www.kaggle.com/datasets/wojciech1103/polish-christmas-carols 

Felhasznált irodalom:
https://crazypolishguy.wordpress.com/2014/12/15/best-polish-christmas-carols/ 
https://culture.pl/en/article/the-power-of-polish-christmas-carols 
https://en.wikipedia.org/wiki/Jan_z_Lublina