Kuinka monessa prosentissa suomen kielen sanoista esiintyy kirjain A, E, I, N, S tai T? Ja miksi nämä kirjaimet ovat niin yleisiä monissa kielissä?

Kysytty
12.2.2019

Kuinka monessa prosentissa suomen kielen sanoista esiintyy kirjain A, E, I, N, S tai T? Ja miksi nämä kirjaimet ovat niin yleisiä monissa kielissä?

Vastaus

Vastattu
13.2.2019

Suomen kielen kirjaimistoon liittyvistä tilastotiedoista kiinnostuneen kannattaa hankkia käsiinsä Matti Pääkkösen kirja Grafeemit ja konteksti : tilastotietoja suomen yleiskielen kirjaimistosta (SKS, 1990). Pääkkösen aineistona on ollut Oulun yliopiston suomen ja saamen kielen laitokseen vuosina 1968-70 kerätty tilastolliseen otantaan perustuva laaja tutkimusmateriaali nykysuomen yleiskieltä mm. sanoma- ja aikakauslehdistä, alkuperäisestä suomenkielisestä tieto- ja kaunokirjallisuudesta sekä radio-ohjelmista. Tiivistetty versio tutkimuksesta löytyy Kielikello-lehden numerosta 1/1991.

Pääkkösen aineistossa yleisin grafeemi oli a, jonka frekvenssi koko tutkimusmateriaalissa oli 11,62%. Seuraavaksi yleisimmät olivat i (10,71%), t (9,88%), n (8,67%), e (8,21%) ja s (7,86%). On arveltu, että äänteiden esiintymistaajuus olisi universaalisti, kaikissa kielissä vallitsevana ilmiönä, kytköksissä niiden ääntämisen helppouteen siten, että yksinkertaisimmin ja helpoimmin äännettävät olisivat yleisimpiä. Pääkkönen kuitenkin huomauttaa, ettei hänen oma tutkimuksensa tue tätä käsitystä. Todellinen syy lieneekin tätä monitahoisempi, niin kuin Pääkkösen selvitys Kielikello-artikkelin osuudessa "Miksi a, i, t, n, e, s, l?" osoittaa. Suomen kielen seitsemän suurtaajuisinta grafeemia ovat a, i, t, n, e, s, ja l. Nämä samat (+ ä) ovat useimmiten yleisimpiä myös saneiden lopussa neljässä viimeisessä positiossa. Näyttää siis siltä, että saneenloppuiset grafeemijonot määräävät ainakin näiden suurtaajuisimpien grafeemien (ja suomen kielessä myös foneemien) keskinäisen yleisyysjärjestyksen. Päätteissä, liitteissä ja johtimissa yleisimmät grafeemit ovat myös yleisyystaulukon kärkisijoilla. Samaten persoonan ja omistuksen morfit, persoonaa ja omistajaa osoittavat kielenainekset muodostuvat pääosin näistä suurtaajuisista aineksista.

Lähteet:
Matti Pääkkönen, Grafeemit ja kontekstit : tilastotietoja suomen yleiskielen kirjaimistosta. SKS, 1990
Matti Pääkkönen, A:sta ö:hön : suomen yleiskielen kirjaintilastoja. Kielikello 1/1991  (http://jkorpela.fi/kielikello/kirjtil.html).

5 ääntä
Oliko vastauksesta sinulle hyötyä?
 
Haluatko jättää uuden kysymyksen? Lähetä se kysymyslomakkeen kautta.

Kommentoi vastausta

Ei muotoiluja

  • Sallitut HTML-tagit: <i> <b> <s>
  • Rivit ja kappaleet päätetään automaattisesti.
  • Verkko- ja sähköpostiosoitteet muutetaan automaattisesti linkeiksi.