Kirjasammon data HS Open #2 -työpajassa 23.5.2011

Ajankohtaista
3.6.2011

Toimitukselta: Kirjailija | Teema | Teos | Täky

Kaunokirjallisuuden verkkopalvelu Kirjasampo on toteutettu semanttisen webin työkaluilla, joten sinne tallennettua tietoa voidaan käyttää, muokata ja prosessoida monipuolisesti, myös tutkimustarkoituksiin. Kirjasammon data oli mukana toukokuussa pidetyssä HS Open #2 -työpajassa, jossa tutkittiin avoimen datan käyttö- ja yhdistelymahdollisuuksia. Kirjasammon datasta saatiin ulos mm. tällaisia tuloksia:

Tyypillinen suomalainen romaani Kirjasampoon tallennetun perusteella näyttäisi koostuvan näistä elementeistä:

- sen tärkeimmät teemat ovat arkielämä, ihmissuhteet tai rakkaus
- se sijoittuu maaseudulle ja sen yleisin "tarkka tapahtumapaikka" on Helsinki
- se sijoittuu sota-aikaan ja 1940-luvulle
- sen henkilöt ovat todennäköisemmin naisia, kirjailijoita, sotilaita tai äitejä
- sen päähenkilöiden nimet ovat yleisimmin Adolf Hitler, Viivi, Wagner, Jeesus, Kustaa III, Väinämöinen... tai kenties Riitta, mutta tämä ensimmäinen normaali etunimi jää esim. Kapteeni Kuolion taakse
- se on nimeltään Mies on ja ei. Se on yhdistelmä niistä sanoista, joita on eniten käytetty kirjojen nimissä

Kymmenen eniten apurahoitettua teemaa kaunokirjallisuudessa olivat vuosina 2005-2010:

- ihmissuhteet
- arkielämä
- miehet
- Helsinki
- naiset
- rakkaus
- kuolema
- kaupunki
- Suomi
- elämänmuutokset

Lisäksi tilaisuudessa tarkasteltiin mm. dekkareiden sivumäärien kehitystä ja sitä, kuinka moni eri vuosikymmeninä debytoineista kirjailijoista on julkaissut vain yhden teoksen sekä näytettiin teosten tapahtumapaikat karttasovelluksessa. Tulosten asettaminen aikajanalle havainnollistaa kirjallisuuden ilmiöiden ja muiden historiallisten tapahtumien yhteyksiä. Mitä enemmän Kirjasammon tiedot karttuvat, sitä luotettavampia ja parempia tutkimustuloksia sen pohjalta saadaan jatkossa. Ihmistyönä huolellisesti tehtyjen sisällönkuvailujen pohjalta voidaan koneellisen päättelyn avulla löytää kirjallisuuden kehityslinjoja ja ominaispiirteitä, joiden hahmottamiseen ei kenenkään yksittäisen henkilön lukeneisuus riitä.