16 research outputs found

    Collocations of the most frequent Estonian words for ‘human being’

    Get PDF
    Paberkandjal väitekirjaga kaasas CD-ROM.Lisad http://hdl.handle.net/10062/45486Lisa 1. Vasakule hargnevad sagedamad kollokaadid Lisa 2. Paremale hargnevad sagedamad kollokaadid Lisa 3. Inimest tähistavate sõnade kõik vasakule hargnevad lihtkollokaadid Lisa 4. Inimest tähistavate sõnade kõik paremale hargnevad lihtkollokaadid Lisa 5. Inimest tähistavate sõnade adjektiivsed laiendid ja verbid, mille juures inimest väljendavad sõnad esinevad subjekti ja objekti funktsioonisSagedamate inimest tähistavate sõnade kollokatsioonid eesti keeles. Väitekirja eesmärk on välja selgitada, mida sõna esinemisümbrus ütleb sõna tähenduse kohta ja kuidas esinemiskontekst peegeldab keelekasutajate nägemust sõnaga tähistatud isikust. Tähelepanu all on 10 sagedama inimest tähistava sõna (inimene, mees, naine, poiss, tüdruk, laps, poeg, tütar, isa ja ema) esinemiskontekst. Korpusandmetele tuginevast uurimusest selgub, et mida rohkem sarnaseid tähenduskomponente kahel sõnal esineb, seda suurem on sõnade esinemiskonteksti kokkulangevus. Analüüs näitab, et väga olulise osa moodustavad inimest tähistavate sõnade omadussõnalistest laienditest vanusele viitavad sõnad. Näiteks sõnade poeg ja tütar omadussõnalistest laienditest tähistavad vanust koguni 86% sõnadest. Sõnade erinev esinemiskontekst peegeldab ühiskonnas kehtivaid võimusuhteid. Nt sõnade laps ja inimene konteksti võrdlus näitab, et majanduslik võim kuulub täiskasvanutele. Sugudevahelised erinevused avalduvad inimest tähistavate sõnade juurde kuuluvates omadussõnades ja tegusõnades. Inimest tähistavate sõnade esinemiskontekst toob esile eelkõige stereotüüpse nägemuse naissoost ja meessoost inimestest. Näiteks tüdrukute ja naiste välimuse kirjeldamisel rõhutatakse ilu mitu korda enam kui poiste ja meeste puhul. Kui naiste puhul peetakse oluliseks mainida perekondlikku seisu, siis meeste puhul peetakse oluliseks määrata, milline on koht sotsiaalsel redelil. Tegusõnade analüüs kinnitab, et naisi nähakse enam privaatsfääris ja mehi avalikus sfääris aktiivsetena. Meessoost isikuid tähistavad sõnad esinevad mitmeid kordi sagedamini koos agressiivseid tegevusi tähistavate tegusõnadega. Raske on kindlaks teha, kas erinevatele inimest tähistavatele sõnadele eriomased omadussõnad ja tegusõnad peegeldavad tegelikkust, ühiskonnas kehtivaid soorolle või selliseid stereotüüpe, mis tegelikkusele ei vasta. Pigem väljendavad sagedamad sõnadevahelised suhted lihtsustavalt ja üldistavalt seda, kuidas tüüpiliselt inimesi eesti kultuuris nähakse ja kujutatakse.  The aim of this dissertation is to find out what the context of words tells about the meaning of words for human being and how it reflects the vision we have about the different persons. This dissertation focuses on the context of the 10 most frequent Estonian words for ‘human being’ (ema ‘mother’, inimene ‘human being’, isa ‘father’, laps ‘child’, mees ‘man’, naine ‘woman’, poeg ‘son’, poiss ‘boy’, tüdruk ‘girl’ and tütar ‘daughter’). The corpus study reveals that the more similar semantic components two words have, the more similar is also the context of their appearance. The research shows that a big part of the adjectives attributed to words denoting human being, refer to age. For example 86% of the adjectives co-occurring with words poeg ‘son’ and tütar ‘daughter’ refer to age. Collocations reflect the power relations characteristic of the community. The comparison of typical context of the words inimene ‘human being’ and laps ‘child’ indicates that economic power belongs to the grown-ups. Gender differences are manifested in the context of the words for ‘human being’. The verbs and adjectives occurring with words denoting human being illustrate the current Estonian stereotypes of male and female persons. For example, when describing the appearance of a girl and a woman, beauty is many times more salient a feature than in the case of men. Woman’s marital status is often emphasized, but with men we find reference to social status in such adjectives. According to my analysis of verbs women are seen as more active in the private sphere, whereas men’s preferable sphere of activity is public. Words denoting male persons have much more co-occurrences with verbs referring to aggressive or violent activities. It is difficult to determine whether the differences in the co-occurrence relations of words reflect the reality, gender roles, or stereotypes that do not correspond to reality. Frequent co-occurrence relations are rather an abstractions or simplifications that show how people are typically perceived in an Estonian culture

    Varieeruva vältega sõnade hääldusuuringud kõnesünteesi teenistuses

    Full text link
    "Words of variable quantity degrees as a problem for speech synthesis" Estonian text-to-speech synthesis relies in its determination of pronunciation on the Dictionary of Standard Estonian (ÕS 2013), which is the basis of standard Estonian. However, for roughly 300 words, this dictionary allows pronunciation with both the second and third quantity degree. This causes problems in the text-to-speech synthesis system, since the automatic text analysis cannot handle multiple outputs. It is necessary to give preference to one of the pronunciation variants in the text analysis process, and therefore it is important to identify which variant is more common among language users in actual speech. For the studies of quantity degrees, words were chosen which ÕS 2013 lists as being pronounced with both the second and third quantity degree. This study is based on a reading experiment conducted with 23 informants (15 women and 8 men), in which each informant read 52 sentences aloud. These sentences contained 47 target words, i.e. words of variable quantity degrees; in total, the study yielded 1080 pronunciation instances to examine. The group of target words includes those with varying vowel quantity degrees as well as those with varying consonant quantity degrees; the duration ratios characteristic of each quantity degree were calculated on the basis of the primary-stress syllable and the unstressed syllable following it. The average duration ratio for the second quantity degree is 1.8, and for the third quantity degree 2.9. These results are similar to those obtained in previous studies. On the basis of the informants’ pronunciation, the words were grouped into three categories: second quantity degree, variable quantity degree (where neither the second nor the third quantity degree accounted for more than 2/3 of all pronunciations) and third quantity degree. Based on the duration ratio, 8 words fell into the second quantity degree group; however, based on auditory assessment, this group increased to 17 words. The variable quantity degree group contained 15 words based on duration ratios, but only 5 words based on auditory assessment. The third quantity degree group contained 24 words by duration ratio and 25 words by auditory assessment. Finding trends in word structure among words in the same quantity degree groups would make it possible to draw inferences about other words of the same type as well, which would increase the applied value of the study. Generally, though words of the same syllable structure and part of speech did not exhibit the same pronunciation patterns. However, it can at least be stated that the third quantity degree dominated among both two- and three-syllable adjectives formed with the suffix -lik. Of the 15 such words analysed in the study, only two were pronounced predominantly with the second quantity degree. Artiklis tutvustame lugemiseksperimenti, mille põhjal uurime nn varieeruva vältega sõnade hääldust. Varieeruva vältega sõnade määratlemisel lähtume õigekeelsussõnaraamatu (ÕS 2013) normingutest – uurime sõnu, mida lubatakse hääldada nii teises kui kolmandas vältes. Analüüsime sõnade pearõhulise ja järgsilbi kestussuhteid ja võrdleme saadud andmeid kuuldelise hinnangu tulemustega. Uurime, kas sarnase silbistruktuuri ja sama sõnaliigilise kuuluvusega sõnade häälduses on sarnaseid jooni. Rakenduslikust aspektist kannus- tab uurimust vajadus leida lahendus probleemidele, mida varieeruvus tekitab tekst-kõne sünteesi protsessis. Uuringu tulemusel selgusid peamised trendid varieeruva vältega sõnade häälduseelistustes. Nii silpide kestussuhete kui kuuldelise hinnangu alusel moodustusid kindlad sõnarühmad, kus domineeris üks või teine välde. Sõnatüüpide kaupa analüüs võimaldas määrata ka välte varieerumise trende tüübiti, nt kõik kolmesilbilised lik-liitelised adjektiivid ühe erandiga hääldusid kolmandas vältes

    Sõna esinemissagedus ja tähenduste eristamise vajadus häälduse mõjutajana

    Get PDF
    Artikkel käsitleb kaht eesti keeles varieeruvat nähtust: h hääldamist sõna alguses ning i-tüveliste (C)VVC-struktuuriga sõnade lõpukonsonantide palatalisatsiooni. Mõlema nähtuse puhul uuritakse, milline on sõna esinemissageduse ning tähenduste eristamise vajaduse mõju hääldusele. Uurimismaterjaliks on 42 h-algulist sõna ja 30 pika vokaaliga ühesilbilist i-tüvelist sõna, mis on keelejuhtide poolt ette loetud. 94 keele juhi 3945 hääldusjuhu uurimine andis tulemuseks, et a) h väljahääldamine oli valdav (92% juhtudest); b) suurema esinemissagedusega sõnades oli sõnaalguline h enamasti lühem ja see jäeti välja hääldamata sagedamini kui väiksema esinemis sagedusega sõnades; c) esines tendents, et sõnades, kus h-l on tähendust eristav ülesanne, oli h veidi sagedamini ja veidi pikemalt välja hääldatud. 40 keelejuhi 1280 hääldusjuhu analüüs näitas, et a) väiksema esinemissagedusega sõnu ei palataliseeritud märgatavalt vähem kui suurema esinemissagedusega sõnu ning b) sõnu, kus palatalisatsiooni esinemine eristab tähendusi, palataliseeriti rohkem. Abstract. Mari-Liis Kalvik and Liisi Piits: Word frequency and a meaning-distinguishing function of a phoneme as a reason for variation. The article investigates the variation of word-initial /h/ and palatalization in i-stemmed monosyllabic words with a (C)VVC structure. Two possible causes of the variation were examined: word frequency and meaning-distinguishing function of a phoneme. Material was collected by means of a reading task. The text consisted of words with both the word-initial /h/ and palatalized consonants. Altogether, 5225 pronunciations were analysed. The results show that: a) in 92% of occasions the word-initial /h/ was pronounced; b) in high frequency words, the word initial /h/ was shorter or absent more often than in low frequency words; c) the word-initial /h/ in a meaning-distinguishing position tended to be more often pronounced and to be longer; d) consonant palatalization in i-stemmed words with a (C)VVC structure did not depend significantly on word frequency; and e) in the words where palatalization had a meaning- distinguishing function, the palatalized consonant was slightly longer than in the words where the function did not exist. Keywords: Estonian, word-initial /h/, palatalization, reading experiment, word frequency, meaning-distinguishing function, duratio

    Designing a Speech Corpus for Estonian Unit Selection Synthesis

    Get PDF
    Proceedings of the 16th Nordic Conference of Computational Linguistics NODALIDA-2007. Editors: Joakim Nivre, Heiki-Jaan Kaalep, Kadri Muischnek and Mare Koit. University of Tartu, Tartu, 2007. ISBN 978-9985-4-0513-0 (online) ISBN 978-9985-4-0514-7 (CD-ROM) pp. 367-371

    Lugemiseksperiment fonoloogilise varieerumise uurimiseks

    Get PDF
    Artiklis uuritakse kolme varieeruvat hääldusnähtust: välte varieerumist sõnades, mille hääldusnorm lubab nii teise- kui ka kolmandavältelist hääldust, h hääldamist sõnaalgulises positsioonis ning palatalisatsiooni ühesilbilistes sõnades pika vokaali järel asuvates konsonantides. Kirjeldatakse nähtuste uurimise ning õigekeelsusallikais normimise ajalugu, lugemiskatse koostamise põhimõtteid ja tutvustatakse esialgse akusti lise analüüsi tulemusi. 11 keelejuhi andmetel põhineva pilootuuringu käigus selgusid nii mõned puudused lugemiskatse ülesehituses ja analüüsiprotsessis kui ka esialgsed suundumused vaatluse all olevate nähtuste kohta: a) varieeruva vältega sõnade puhul on võimalik esile tuua sõnad, mida hääldatakse ülekaalukalt kas teises või kolmandas vältes; b) sõnaalgulist h-d hääldatakse ettelugemisel 95%-l juhtudest. Sõnaalgulise h kestuse analüüs kinnitas, et suurema esinemissagedusega sõnades on h kestus lühem; c) palatalisatsiooni leidub praeguses materjalis väga vähe, mõningal määral t ja d puhul pikkade tagavokaalide järel. Suurema uurimismaterjali kasutamine peaks selgitama, kas loetletud suundumused leiavad kinnitust ja kas sel juhul oleks tulemusi võimalik rakendada ka tekst-kõne sünteesi grafeem-foneem teisenduse täiustamisel.Abstract. Mari-Liis Kalvik and Liisi Piits: Reading experiment for discovering phonological variation. The article investigates articulatory and phonological variation in Estonian, focusing on three main areas of variation: quantity degrees, word-initial /h/ and palatalization in i-stemmed words with a (CC)VC structure. The pronunciation fixed in the Dictionary of Standard Estonian (ÕS 2013) is subject to variation, and the variants reflected in the dictionary are not always the ones that seem to be preferred in the usage. The goal of the article is to describe the reading experiment methodology for studying such variation as well as to introduce the pilot study based on recordings of 11 readers. The pilot study revealed that: a) words tend to be pronounced prevalently either in the long or in the overlong quantity degree; b) in 95% of the occasions the word-initial /h/ was pronounced; c) palatalization was detected only in some words where a long back vowel precedes the consonant d or t. Further study is needed to understand the actual extent and possible causes of the variation.Keywords: Estonian, orthoepy, reading experiment, phonological variation, quantity degree, palatalization, word-initial /h

    ‘Medical Men’ and ‘Mad Women’ - A Study into the Frequency of Words through Collocations

    Get PDF
    Frequent lexical patterns can explain how language, society and culture interact. In this paper, we analyze the most frequent adjectival collocates which precede lemmas WOMAN and MAN, by searching the node words woman, women, man and men in the British National Corpus (BNC) using the statistical procedure list. The primary postulate is that frequent collocational patterns reveal common societal and cultural concepts. The research is based on Sinclair’s theory about how frequency points to what is typical and central in a language (17). Furthermore, Stubbs’s understanding of a community’s value system being built up and maintained by the recurrent use of particular phrasings in texts (Words and Phrases 166) is explored through the repetition of lexical patterns in the corpus, thus exposing dominant cultural models. Keywords: WOMAN, MAN, BNC, frequency, collocates, language, society, cultureMichael Stubbs’s principle that “language in use transmits the culture,” by which he provides his understanding of the relations between form and meaning (Text 43), is a good foundation for the study of the frequency of words by means of electronic corpora. Since meaning is language in use, electronic corpora facilitate just that – an analysis of raw, unaltered data, as clearly stated by Stubbs’s second principle concerning language being studied in “actual, attested, authentic instances of use” (Text 28)

    Sagedamate inimest tähistavate sõnade kollokatsioonid eesti keeles

    No full text
    Lisad autori dissertatsioonile http://hdl.handle.net/10062/45723Lisa 1. Vasakule hargnevad sagedamad kollokaadid Lisa 2. Paremale hargnevad sagedamad kollokaadid Lisa 3. Inimest tähistavate sõnade kõik vasakule hargnevad lihtkollokaadid Lisa 4. Inimest tähistavate sõnade kõik paremale hargnevad lihtkollokaadid Lisa 5. Inimest tähistavate sõnade adjektiivsed laiendid ja verbid, mille juures inimest väljendavad sõnad esinevad subjekti ja objekti funktsiooni

    Man’s Gender and Age as Based on the Collocations of the Estonian Word Mees ‘Man’

    No full text

    Mõlgutusi tõest eesti keelekirjelduses

    No full text
    corecore