Vārdu biežums

“Expeditiones Linguarum” uzsāk jauno gadu ar statistiski-filosofisku apceri par vārdu biežumu. Cerams, ka šogad ieraksti parādīsies nedaudz biežāk. Sāksim ar valodas lietām.

Tīmeklī uzdūros milzīgai datubāzei InvokeIT, kas ģenerē vārdu biežumu 57 valodām pēc filmu tulkojumu subtitriem no atvērtās 2016.gada opensubtitles.org datubāzes. Jāņem vērā žanra specifika un īpatnējā filmu tulku valoda, kurai kopumā atbilstu sarunvalodas leksika, taču bija ārkārtīgi interesanti ieskatīties šajos sarakstos…

FreqPOS

Latviešu subtitru vārdu biežuma saraksta augšgalu ieņem dažnedažādi palīgvārdi, vietniekvārdi dažādos locījumos un darbības vārda būt formas. Apskatot pirmos 1000 vārdus pa 100 vārdiem iedalījumā pēc vārdšķiras, var redzēt, ka mazie vārdiņi dominē biežuma saraksta pirmajos 200 vārdos.  Faktiski tādi jēgpilnāki vārdi kā paldies un lūdzu parādās tikai ap  60.pozīciju, kungs (77, kundze salīdzinājumam tikai 297.pozīcijā), dievs (116, velns – 209), līdzās kārtībā (118). Pirmajā simtniekā iekļaujas arī nedaudzi apstākļa vārdi un skaitļa vārdi labi, viss, ļoti, daudz, viens.

 

Ir, es, tu, un, tas, ka filmu valodā dominē – tie sastopami 50-20 tūkst. reizes vairāk nekā pārējie latviešu valodas vārdi.

 

Biezums

 

Jāpiebilst, ka zinātniskā Latviešu valodas biežuma vārdnīca iznāca no 1966. līdz 1976.gadam, katrā no 4 sējumiem atsevišķi aplūkojot vārdu biežumu tehnikas un rūpniecības, laikrakstu un žurnālu, daiļliteratūras un zinātnes leksiku (plašāk).

Grūti iedomāties  avotu apstrādes tehnoloģisko pusi pirms 50 gadiem, taču mūsdienās ar latviešu tekstu korpusa digitalizāciju tas paver plašas iespējas ne tikai dažāda žanra teksta analīzei, bet arī ļoti detalizētai vēsturiskai leksikas attīstībai.

AttēlsBiežums
Latviešu biežuma vārdnīcas biežākie vārdi

Filmu subtitros biežāk sastopamie vārdi dažādās valodās sniedz nelielu ieskatu arī šīs valodas būtībā un īpatnībās. Pārsteidzošā kārtā pirmie 10 vārdi sniedz pārskatu par noteikto-nenoteikto artikulu izmantošanu, personu vietniekvārdiem un gramatisko konstrukciju pamatu pamatiem, kas ir valodas pamatu pamats, satvars, ko piepildām ar konkrētākiem vārdiem. Piemēram, latviešu ir un es latviešu šķietami atgādina lietuviešu  ir (un) un (es), bet nozīmes ziņā atbilst igauņu on (ir) un ma (es). Gan latviešu, gan igauņu valodā darbības vārds ir parādās gan 3.personas esamības, gan visu personu piederības nozīmē. Latviešu vārdu nolieguma forma ar ne saplūst ar vārdu, tādēļ biežuma augšgalā to nemaz neredz (tikai 37.). Likās interesanti papildināt tabulu ar biežākajiem ķīniešu hieroglifiem , kas tāpat atspoguļo gramatiskās pamatkonstrukcijas – piederības partikula 的 de ,nolieguma vārdiņš 不 , pabeigtās darbības rādītājs  了 le,  personu vietniekvārdi, skaitļa vārds 一   viens, ir ekvivalenti 是 shì būt un 有 yǒu piederēt.

Desmit biežāk sastopamie vārdi  dažādās valodās

top10freq8lang

Vārdu biežuma aspekts ir labs palīgs ne tikai valodas pamatkonstrukciju izpratnei, atbilstošāku vārdu izvēlei tulkojumā, bet arī jebkuras valodas apguvē. Visspilgtāk, šķiet,  tas parādās ķīniešu valodas līmeņu iedalījumā (HSK 1-6).

3988335_orig

Katrā līmenī jāapgūst noteikts hieroglifu skaits no 150 hieroglifiem HSK1 līdz 5000 hieroglifiem HSK6 līmenī, kas atbilst brīvam valodas lietojumam. Augstāk attēlotajā vārdu biežuma sakarībā  (avots) atbilstoši valodas apguves līmenim ir ļoti uzskatāmi parādīts,kas notiek valodas apguves procesā.

Uz tikšanos Suņa gadā!

darbvFreq
Visbiežākie darbības vārdi (izņemot būt formas)

 

 

 

 

 

 

 

 

 

 

 

KategorijasDažādiBirkas:, ,

Ieraksti komentāru

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Mainīt )

Google+ photo

You are commenting using your Google+ account. Log Out /  Mainīt )

Twitter picture

You are commenting using your Twitter account. Log Out /  Mainīt )

Facebook photo

You are commenting using your Facebook account. Log Out /  Mainīt )

w

Connecting to %s