Statistical Analysis of Proverbs and Sayings: Association Measure of Mutual Information (on material of Ukrainian National Linguistic Corpus)

© The Editorial Council and Editorial Board of Linguistic Studies

Linguistic Studies
Volume 35, 2018, pp.  
170-177

Statistical Analysis of Proverbs and Sayings: Association Measure of Mutual Information (on material of Ukrainian National Linguistic Corpus)

Sytar Hanna

Article first published online: June 06, 2018 


Additional information

 Author Information: 

Sytar Hanna, Doctor of Philology, Professor, Head of Department of Ukrainian Language and Applied Linguistics in Donetsk National University. Correspondence: h.v.sytar@donnu.edu.ua

Citation: 
Sytar, H. Statistical Analysis of Proverbs and Sayings: Association Measure of Mutual Information (on material of Ukrainian National Linguistic Corpus) [Text] // Linhvistychni Studiyi / Linguistic Studies : collection of scientific papers / Donetsk National University; Ed. by Anatoliy Zahnitko. Vinnytsia : Vasyl' Stus DonNU, 2018. Vol. 35. Pp. 170-177ISBN 966-7277-88-7

Publication History:

Volume first published online: June 06, 2018
Article received: March 20, 2018, accepted: May 15, 2018 and first published online: June 06, 2018

Contents

  1. 1 Annotation.
    1. 1.1 Abstract.
  2. 2 Background: The author examines the statistical analysis of proverbs and sayings on the material of the Ukrainian National Linguistic Corpus of Ukrainian Lingua-Information Fund, NAS of Ukraine. Corpus-oriented statistical research of Ukrainian proverbs and sayings has not been carried out yet. The object of the analysis is 53 proverbs and sayings, selected from authoritative sources: Ukrainski prykazky, pryslivia i take inshe (Ukrainian proverbs, sayings etc)/ Ukl. M.Nomys. – Kyiv: Lybid, 1993. – 768 s.; Pryslivia ta prykazky (Proverbs and sayings)/ ukl. Paziak M. − Kyiv: Nauk. dumka, 1991. – 440 s. etc. Among them, there are 9 three-component, 17 − four-component, 14 – five-component, 6 – six-component and 7 – seven‑component units.
    1. 2.1 Article.
  3. 3 Постановка проблеми, актуальність дослідження. Сучасна лінгвістика позиціонує корпуснозорієнтованість як необхідну умову мовознавчого дослідження. Статистичний аналіз фразеологічних і фразеологізованих одиниць належить до актуальних завдань лінгвістичної статистики, оскільки за допомогою математичних методів і прийомів покликаний підтвердити або спростувати належність певної мовної одиниці до класу стійких. Процедуру такого аналізу на матеріалі синтаксичних фразеологізмів української мови запропоновано у працях (Sytar, “Statystychni Kryteriyi Analizu Syntaksychnykh Frazeolohizmiv”; Sytar, “Statystychnyi analiz frazeolohizovanykh rechen…”; Sytar, “Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky”).
  4. 4 Обчислення показників асоціації як метод визначення невипадковості поєднання компонентів може бути застосований для різних типів конструкцій. Цю статтю присвячено аналізу прислів’їв і приказок, які в межах широкого підходу до розуміння обсягу фразеології кваліфікують як один із типів стійких одиниць (В. Л. Архангельський, А. М. Баранов, Д. О. Добровольський, Т. О. Туліна та ін.).
  5. 5 У розумінні прислів’їв і приказок спираємось на усталений в українському мовознавстві погляд, згідно з яким прислів’я визначають як «стійкий вислів переважно фольклорного походження, в якому зафіксований практичний досвід народу та його оцінка різних подій і явищ. Прислів’я на відміну від приказок, − це самостійні судження, граматично та інтонаційно оформлені як прості («Дружній череді і вовк не страшний») або складні («Біда тому волові, котрого корова коле») речення» (Ukrainska mova: Entsyklopediia: 530, автор статті М.Т. Демський). Оскільки в зібраннях прислів’їв і приказок їх подають без розмежування, до статистичного аналізу залучаємо їх разом як групу умовно однорідних одиниць.
  6. 6 Матеріал і методи дослідження. Об’єктом статистичного аналізу стали 53 прислів’я і приказки, дібрані з авторитетних джерел (“Ukrainski prykazky, pryslivia i take inshe”; “Pryslivia ta prykazky”). Серед них 9 трикомпонентних, 17 − чотирикомпонентних, 14 − п’ятикомпонетних, 6 − шестикомпонентних і 7 − семикомпонентних одиниць. Вірогідність одержаних кількісних даних забезпечено виконанням обчислень на матеріалі значного за обсягом й індексованого корпусу текстів − Українського національного лінгвістичного корпусу (далі УНЛК) Українського мовно-інформаційного фонду НАН України.
  7. 7 Статистична залежність послідовності словоформ у корпусі визначувана за допомогою показника асоціації mutual information (далі МІ) (буквально − взаємна, спільна інформація). Поняття МІ ввів у теорію інформації Роберт Маріо Фано (Fano). У лінгвістичних дослідженнях його вперше застосували Кеннет Ворд Чарч (Kenneth Ward Church) та Патрік Хенкс (Patrick Hanks) (Church, Hanks). Сутність спільної інформації вчені визначили так: «спільна інформація порівнює ймовірність спостереження х та у разом (поєднана ймовірність) з імовірностями спостереження х та у незалежно (випадкова)» (Church, Hanks: 23). Відповідно у дослідників мова йшла про невипадковість поєднання двох слів у тексті і про потребу залучення цього методу для лексикографії, укладання конкордансів, вивчення сполучуваності слів та ін.
  8. 8 Оскільки обраний об’єкт дослідження − прислів’я та приказки − є багатокомпонентними (три- і більше) одиницями, постає потреба врахувати у формулі МІ більшу кількість компонентів. Тому обчислення здійснено за формулою (1), виведеною у працях (Petrovic, Snajder, Basic, Kolar: 323; Yagunova, Pivovarova: 586).
    1. 8.1 References. 

Annotation.

Стаття продовжує цикл публікацій, присвячених статистичному аналізу фразеологічних і фразеологізованих одиниць української мови. У ній з’ясовано ступінь невипадковості поєднання компонентів у складі українських прислів’їв і приказок за допомогою обчислення показника асоціації mutual information (МІ). 

Отримані результати обчислень для 53 прислів’їв і приказок, виконаних за даними Українського національного лінгвістичного корпусу, доводять, що всі проаналізовані одиниці мають високий ступінь невипадковості поєднання словоформ (МІ перебуває в діапазоні від 24,5 до 95,27), що є кількісним підтвердженням стійкості їхнього звʼязку. 

Зафіксовано статистично вірогідний зв’язок між кількістю компонентів прислів’я або приказки і величиною показника асоціації МІ. Наведені результати загалом узгоджуються із статистичними даними, отриманими на попередніх етапах дослідження для інших типів фразеологічних одиниць – лексичних і синтаксичних фразеологізмів

Keywords: association measure, phraseological units, mutual information, proverb, saying, statistics, the Ukrainian language.



Abstract.

Statistical Analysis of Proverbs and Sayings: Association Measure of Mutual Information (on material of Ukrainian National Linguistic Corpus)

Hanna Sytar

Department of General and Applied Linguistics and Slavonic Philology, Vasyl' Stus Donetsk National University, Vinnytsia, Ukraine

Abstract

Background: The author examines the statistical analysis of proverbs and sayings on the material of the Ukrainian National Linguistic Corpus of Ukrainian Lingua-Information Fund, NAS of Ukraine. Corpus-oriented statistical research of Ukrainian proverbs and sayings has not been carried out yet. The object of the analysis is 53 proverbs and sayings, selected from authoritative sources: Ukrainski prykazky, pryslivia i take inshe (Ukrainian proverbs, sayings etc)/ Ukl. M.Nomys. – Kyiv: Lybid, 1993. – 768 s.; Pryslivia ta prykazky (Proverbs and sayings)/ ukl. Paziak M. − Kyiv: Nauk. dumka, 1991. – 440 s. etc. Among them, there are 9 three-component, 17 − four-component, 14 – five-component, 6 – six-component and 7 – seven‑component units.

Purpose: The purpose of this study is to determine the degree of non-randomness of the components combination in Ukrainian proverbs and sayings by means of the calculating the association measure of mutual information (hereinafter МІ).

Results: The obtained results of the calculations for 52 proverbs and sayings, done with the help of the Ukrainian National Linguistic Corpus data, prove that all analysed units have high degree of non-randomness combination of word forms (MI is in the range from 24.5 to 95.27), which is a quantitative confirmation of their connection stability. The reference value, from which the connection of words is considered to be non-random, depends not only on the indicators of the absolute frequency of the construction and its individual components but also on the size of the corpus. For the Ukrainian National Linguistic Corpus, which consisted of 189 200 000 words in February 2018, the reference value is 7.56.

There is a statistically probable connection between the number of components in the proverb or saying and the size of association measure mutual information. Thus, for the three‑component units the result of the MI is from 24.5 (Хліб усьому голова / Khlib usomu holova)) to 35.34 (Горбатого могила виправить / Horbatoho mohyla vypravyt); for four‑component units – from 37.34 (Двічі літа не буває / Dvichi lita ne buvaie)) to 51.01 (Терпи, козаче, отаманом будеш / Terpy, kozache, otamanom budesh); for five-component from 53.42 (Гуртом добре й батька бити / Hurtom dobre y batka byty)) to 65.76 (Яке зіллячко, таке й сім'ячко / Yake zilliachko, take y simiachko); for six-component – from 69,53 (Як неділя, то й сорочка біла / Yak nedilia, to y sorochka bila) to 79.98 (Дай серцю волю – заведе в неволю / Dai sertsiu voliu – zavede v nevoliu); for seven-component – from 86.83 (Пан з паном, а Іван з Іваном / Pan z panom, a Ivan z Ivanom) to 95.27 (Гол, як сокол, а гострий, як бритва / Hol, yak sokol, a hostryi, yak brytva).

Discussion: The presented results are broadly consistent with the statistical data obtained in the previous stages of the study of other types of phraseological units – lexical and syntactic idioms. At the same time, they prove the higher degree of non-randomness of the combination of word forms for proverbs and sayings, which, obviously, are the consequence of their multicomponent, as well as the stability and integrity of their perception by the speakers of the Ukrainian language. It is considered perspective to involve other types of phraseological units to the statistical analysis.

Keywords: association measure, phraseological units, mutual information, proverb, saying, statistics, the Ukrainian language.

Vitae

Hanna Sytar is PhD of Philology, Assosiate Professor, Assosiate Professor of Department of General and Applied Linguistics and Slavonic Philology at Donetsk National University named after Vasyl Stus. Her areas of research interests include syntax, semantics, pragmatics, construction grammar, applied linguistics.

Correspondence: h.v.sytar@donnu.edu.ua.


Article.

Ганна Ситар

УДК 81'373.7:81'32

СТАТИСТИЧНИЙ АНАЛІЗ ПРИСЛІВ'ЇВ І ПРИКАЗОК:

ПОКАЗНИК АСОЦІАЦІЇ MUTUAL INFORMATION

(НА МАТЕРІАЛІ УКРАЇНСЬКОГО НАЦІОНАЛЬНОГО

ЛІНГВІСТИЧНОГО КОРПУСУ)[1]

 

Стаття продовжує цикл публікацій, присвячених статистичному аналізу фразеологічних і фразеологізованих одиниць української мови. У ній з’ясовано ступінь невипадковості поєднання компонентів у складі українських прислів’їв і приказок за допомогою обчислення показника асоціації mutual information (МІ).

Отримані результати обчислень для 53 прислів’їв і приказок, виконаних за даними Українського національного лінгвістичного корпусу, доводять, що всі проаналізовані одиниці мають високий ступінь невипадковості поєднання словоформ (МІ перебуває в діапазоні від 24,5 до 95,27), що є кількісним підтвердженням стійкості їхнього звʼязку.

Зафіксовано статистично вірогідний зв’язок між кількістю компонентів прислів’я або приказки і величиною показника асоціації МІ. Наведені результати загалом узгоджуються із статистичними даними, отриманими на попередніх етапах дослідження для інших типів фразеологічних одиниць – лексичних і синтаксичних фразеологізмів.

Ключові слова: показник асоціації, фразеологічна одиниця, mutual information, прислів’я, приказка, статистика, українська мова.

 

Постановка проблеми, актуальність дослідження. Сучасна лінгвістика позиціонує корпуснозорієнтованість як необхідну умову мовознавчого дослідження. Статистичний аналіз фразеологічних і фразеологізованих одиниць належить до актуальних завдань лінгвістичної статистики, оскільки за допомогою математичних методів і прийомів покликаний підтвердити або спростувати належність певної мовної одиниці до класу стійких. Процедуру такого аналізу на матеріалі синтаксичних фразеологізмів української мови запропоновано у працях (Sytar, “Statystychni Kryteriyi Analizu Syntaksychnykh Frazeolohizmiv”; Sytar, “Statystychnyi analiz frazeolohizovanykh rechen…”; Sytar, “Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky”).

Обчислення показників асоціації як метод визначення невипадковості поєднання компонентів може бути застосований для різних типів конструкцій. Цю статтю присвячено аналізу прислів’їв і приказок, які в межах широкого підходу до розуміння обсягу фразеології кваліфікують як один із типів стійких одиниць (В. Л. Архангельський, А. М. Баранов, Д. О. Добровольський, Т. О. Туліна та ін.).

У розумінні прислів’їв і приказок спираємось на усталений в українському мовознавстві погляд, згідно з яким прислів’я визначають як «стійкий вислів переважно фольклорного походження, в якому зафіксований практичний досвід народу та його оцінка різних подій і явищ. Прислів’я на відміну від приказок, − це самостійні судження, граматично та інтонаційно оформлені як прості («Дружній череді і вовк не страшний») або складні («Біда тому волові, котрого корова коле») речення» (Ukrainska mova: Entsyklopediia: 530, автор статті М.Т. Демський). Оскільки в зібраннях прислів’їв і приказок їх подають без розмежування, до статистичного аналізу залучаємо їх разом як групу умовно однорідних одиниць.

Матеріал і методи дослідження. Об’єктом статистичного аналізу стали 53 прислів’я і приказки, дібрані з авторитетних джерел (“Ukrainski prykazky, pryslivia i take inshe”; “Pryslivia ta prykazky”). Серед них 9 трикомпонентних, 17 − чотирикомпонентних, 14 − п’ятикомпонетних, 6 − шестикомпонентних і 7 − семикомпонентних одиниць. Вірогідність одержаних кількісних даних забезпечено виконанням обчислень на матеріалі значного за обсягом й індексованого корпусу текстів − Українського національного лінгвістичного корпусу (далі УНЛК) Українського мовно-інформаційного фонду НАН України.

В арсеналі сучасної статистики існує низка статистичних критеріїв (коефіцієнтів), обʼєднаних терміном «показники асоціації» (англ. association measures, measures of association). За Кембриджським словником статистики Брайана Еверітта (Brian S. Everitt), «Показники асоціації – числові індекси, що обчислюють силу статистичної залежності двох або більше квалітативних змінних» (Everitt: 241).

У цьому авторитетному лексикографічному виданні термін «асоціація» витлумачено як «загальний термін, що використовується для опису відношення між двома змінними. Значною мірою є синонімічним до кореляції» (Everitt: 20).

У словнику статистики й методів дослідження Американської асоціації психологів (за ред. Sheldon Zedeck) асоціацію визначено як «ступінь статистичної залежності або відношення між двома або більше явищами», а кореляцію – як «ступінь відношення (зазвичай лінійного) між двома змінними, який може бути обрахований як коефіцієнт кореляції, сила асоціації» (APA: 65).

Статистична залежність послідовності словоформ у корпусі визначувана за допомогою показника асоціації mutual information (далі МІ) (буквально − взаємна, спільна інформація). Поняття МІ ввів у теорію інформації Роберт Маріо Фано (Fano). У лінгвістичних дослідженнях його вперше застосували Кеннет Ворд Чарч (Kenneth Ward Church) та Патрік Хенкс (Patrick Hanks) (Church, Hanks). Сутність спільної інформації вчені визначили так: «спільна інформація порівнює ймовірність спостереження х та у разом (поєднана ймовірність) з імовірностями спостереження х та у незалежно (випадкова)» (Church, Hanks: 23). Відповідно у дослідників мова йшла про невипадковість поєднання двох слів у тексті і про потребу залучення цього методу для лексикографії, укладання конкордансів, вивчення сполучуваності слів та ін.

Оскільки обраний об’єкт дослідження − прислів’я та приказки − є багатокомпонентними (три- і більше) одиницями, постає потреба врахувати у формулі МІ більшу кількість компонентів. Тому обчислення здійснено за формулою (1), виведеною у працях (Petrovic, Snajder, Basic, Kolar: 323; Yagunova, Pivovarova: 586).

(1)      

,

 

де MI – коефіцієнт mutual information;

і – це кількість компонентів конструкції;

с1 – перша лексична одиниця;

с2 – друга лексична одиниця;

сіі-а лексична одиниця;

f(c1,c2,…сі) – абсолютна частота вживання конструкції c1, c2, … ,сі в корпусі (з урахуванням порядку одиниць усередині конструкції);

f(c1) – абсолютна частота c1 в корпусі;

f(c2) – абсолютна частота c2 в корпусі;

f(cі) – абсолютна частота cі в корпусі;

N – загальна кількість словоформ у корпусі;

log2 – логарифм числа за основою 2.

 

Мета цього дослідження – визначити ступінь невипадковості поєднання компонентів у складі українських прислів’їв і приказок за допомогою обчислення показника асоціації МІ. Для досягнення поставленої мети розв’язано такі завдання:

1)       укладено реєстр прислів’їв і приказок, що охоплює одиниці з різною кількістю компонентів і різну тематику;

2)       з УНЛК отримано частотні дані для прислів’їв і приказок;

3)       виконано обчислення за формулою МІ для багатокомпонентних одиниць;

4)       проаналізовано отримані результати.

Для коректного встановлення абсолютної частоти конструкції та абсолютної частоти окремих словоформ, що входять до її складу, в пошуковій формі УНЛК було задано визначений порядок словоформ та передбачено пошук словоформи, а не слова з урахуванням його парадигми. Оскільки цей корпус текстів є динамічним, зазначимо, що частотні дані подаємо станом на лютий 2018 року. Загальна кількість слововживань у корпусі в період здійснення підрахунків становила 189200000 одиниць.

Покажемо приклад здійснених підрахунків. Для обчислення ступеня невипадковості поєднання словоформ у межах прислів’я Терпи, козаче, отаманом будеш з УНЛК було отримано такі кількісні дані: абсолютна частота прислів’я становить 11, абсолютна частота словоформи терпи − 228; козаче − 307; отаманом − 239; будеш − 1968. Підставляючи ці дані до формули (1), отримуємо:

 

 = 51,007076 ≈ 51,01

 

Коефіцієнт МІ обраховували з точністю до двох знаків після коми. Отримані результати МІ для трикомпонентних прислів’їв і приказок подано в таблиці 1.

Таблиця 1

Показник асоціації МІ для трикомпонентних прислів’їв і приказок за даними УНЛК

 

№ з/п

 

Прислів’я або приказка

Абсолютна частота вживання прислів’я або приказки

 

Абсолютна частота вживання словоформ-компонентів прислів’я або приказки

Показ-

ник

 асоці-

ації МІ

1

Береженого Бог береже

 

38

береженого 89;

Бог 2556;

береже 569

 

 

33,29

2

Гол, як сокол

4

гол 457;

як 6274;

сокол 53;

29,81

3

Голий, як кістка

2

голий 920;

як 6274;

кістка 362

25,03

4

Горбатого могила виправить

25

горбатого 138; могила 963; виправить 155

35,34

5

Змерз, як собака

2

змерз 262;

як 6274;

собака 1465

 

24,83

6

На двох стільцях

65

на 6331;

двох 4584;

стільцях 283

28,08

7

Сила солому ломить

7

сила 3032;

солому 517;

ломить 200

 

29,57

8

Собака на сіні

25

собака 1465;

на 6331;

сіні 342

28,07

9

Хліб усьому голова

9

хліб 2067;

усьому 2111;

голова 3122

24,5


Як видно з таблиці 1, коефіцієнт МІ для трикомпонентних прислів’їв і приказок перебуває у межах від 24,5 (Хліб усьому голова) до 35,34 (Горбатого могила виправить).

Контрольна величина, починаючи від якої вважаємо зв’язок слів невипадковим, залежить від показників абсолютної частоти конструкції, від абсолютної частоти її окремих складників і від розміру корпусу. Для Українського національного лінгвістичного корпусу, розмір якого в лютому 2018 року становив 189 200 000 слововживань, ця контрольна величина становить 7,56 (детально процедуру виведення контрольної величини викладено у праці (Sytar 2017: 310-311)):

 

Відповідно отримані результати можна кваліфікувати як такі, що відбивають високий ступінь невипадковості (зв’язаності) компонентів конструкції, оскільки вони більше ніж утричі перевищують контрольну величину.

Статистичні дані щодо чотири-, п’яти-, шести- й семикомпонентних прислів’їв і приказок наведено в таблицях 2, 3, 4 і 5 відповідно.

Таблиця 2

Показник асоціації МІ для чотирикомпонентних прислів’їв і приказок

за даними УНЛК

№ з/п

 

Прислів’я або приказка

Абсолютна частота вживання прислів’я або приказки

 

Абсолютна частота вживання словоформ-компонентів прислів’я або приказки

Показ-

ник

 асоці-

ації МІ

1

Більшому й більше треба[2]

0

-

-

2

Велике дерево поволі росте

1

велике 3063;

дерево 2016;

поволі 1629;

росте 1605

38,61

3

Вік живи — вік учись

 

19

вік 2382;

живи 662;

учись 100

48,28

4

Гарна дівка, як маківка

5

гарна 1697;

дівка 613;

як 6274;

маківка 125

45,24

5

Гусь свині не товариш

4

гусь 34;

свині 750;

не 6308;

товариш 1421

46,75

6

Два українцітри гетьмани

2

два 4780;

українці 1333;

три 4607;

гетьмани 267

40,65

7

Двічі літа не буває

 

2

двічі 2140;

літа 2050;

не 6308;

буває 2820

37,34

8

Знай, коза, своє стійло

 

1

знай 1118;

коза 523;

своє 4234;

стійло 66

45,24

9

На двох стільцях сидить

2

на 6331;

двох 4584;

стільцях 283;

сидить 2241

39,42

10

Народ скаже, як зав’яже

4

народ 2547;

скаже 2038;

 як 6274;

зав’яже 32

44,56

11

Рідна мова — не полова

1

рідна 1371;

мова 3101;

не 6308;

полова 210

40,13

12

Ситий голодному не вірить

4

ситий 499;

голодному 220;

не 6308;

вірить 1337

44,73

13

Ситий голодному не товариш

7

ситий 499;

голодному 220;

не 6308;

товариш 1421

45,45

14

Терпи, козаче, отаманом будеш

 

11

терпи 228;

козаче 307;

отаманом 239;

будеш 1968

51,01

15

Усі під Богом ходимо

8

усі 4175;

під 5636;

Богом 1619;

ходимо 423

41,61

16

Хвали мене, моя губонько

3

хвали 296;

мене 3912;

моя 3214;

губонько 6

49,69

17

Язик до Києва доведе

 

20

язик 1642;

до 6281;

Києва 1979;

доведе 592

43,35

 

Таблиця 3

Показник асоціації МІ для п’ятикомпонентних прислів’їв і приказок

за даними УНЛК

№ з/п

 

Прислів’я або приказка

Абсолютна частота вживання прислів’я або приказки

 

Абсолютна частота вживання словоформ-компонентів прислів’я або приказки

Показ-

ник

 асоці-

ації МІ

1

Баба з воза – коням легше

6

баба 1299;

з 6304;

воза 841;

коням 330;

легше 2310

60,35

2

Всяка пташка своє гніздо знає

2

всяка 762;

пташка 844;

своє 4234;

гніздо 953;

знає 3268

58,07

3

Гуртом добре й батька бити

1

гуртом 1046;

добре 4220;

й 6092;

батька 2547;

бити 1552

53,42

4

Життя прожити — не поле перейти

 

14

життя 4809;

прожити 965;

не 6308;

поле 2858;

перейти 1968

56,60

5

Козак хороший, та немає грошей

0

-

-

6

Кому весілля, а курці смерть

4

кому 2995;

весілля 1403;

а 6299;

курці 217;

смерть 2986

58,05

7

Розуміється, як вовк на зорях

3

розуміється 854;

як 6274;

вовк 1221;

на 6331;

зорях 218

58,56

8

Степ та воля – козацька доля

4

степ 953;

та 6216;

воля 1932;

козацька 526;

доля 2727

58,12

9

Тепер життя панам та котам

0

-

-

10

Що село, то й сотник

4

що 6293;

село 2162;

то 5532;

й 6092;

сотник 329

54,92

11

Як дбаєш, так і маєш

 

6

як 6274;

дбаєш 116;

так 6074;

і 6189;

маєш 1879

57,05

12

Яке зіллячко, таке й сім'ячко

12

яке 4644;

зіллячко 55;

таке 4384;

й 6092;

сім'ячко 3

65,76

13

Яке їхало, таке й здибало

7

яке 4644;

їхало 189;

таке 4384;

й 6092;

здибало 26

63,67

14

Яке коріння, таке й насіння

11

яке 4644;

коріння 1436;

таке 4384;

й 6092;

насіння 1173

55,91

 


Таблиця 4

Показник асоціації МІ для шестикомпонентних прислів’їв і приказок

за даними УНЛК

 

№ з/п

 

Прислів’я або приказка

Абсолютна частота вживання прислів’я або приказки

 

Абсолютна частота вживання словоформ-компонентів прислів’я або приказки

Показ-

ник

 асоці-

ації МІ

1

Боже поможи, а сам не лежи

4

Боже 2257;

поможи 430;

а 6299;

сам 4306;

не 6308;

лежи 276

74,16

2

Дай серцю волю — заведе в неволю

21

 

дай 2231;

серцю 894;

волю 2349;

заведе 309;

в 6333;

неволю 465

79,98

3

Де два українці, там три гетьмани

14

де 5679;

два 4780;

українці 1333;

там 4605;

три 4607;

гетьмани 267

73,81

4

Під лежачий камінь вода не тече

20

під 5636;

лежачий 98;

камінь 1939;

вода 2814;

не 6308;

тече 1286

77,39

5

Що можна лялі, не можна мамі

1

що 6293;

можна 5520;

лялі 41;

не 6308;

мамі 757

72,45

6

Як неділя, то й сорочка біла

1

як 6274;

неділя 739;

то 5532;

й 6092;

сорочка 1009;

біла 1808

69,53

 

Таблиця 5

Показник асоціації МІ для семикомпонентних прислів’їв і приказок

за даними УНЛК

 

№ з/п

 

Прислів’я або приказка

Абсолютна частота вживання прислів’я або приказки

 

Абсолютна частота вживання словоформ-компонентів прислів’я або приказки

Показ-

ник

 асоці-

ації МІ

1

Береженого Бог береже, а козака шабля стереже

 

0

-

-

2

Гол, як сокол, а гострий, як бритва

2

гол 457;

як 6274;

сокол 53;

а 6299;

гострий 1425;

бритва 225

95,27

3

Коли маєш сто кіп, то будеш піп

1

коли 5545;

маєш 1879;

сто 2631;

кіп 152;

то 5532;

будеш 1968;

піп 539

90,6

4

Коли убогому жениться, то й ніч мала

 

1

коли 5545;

убогому 97;

жениться 173;

то 5532;

й 6092;

ніч 2985;

мала 3642

90,12

5

Пан з паном, а Іван з Іваном

2

пан 2056;

з 6304;

паном 916;

а 6299;

Іван 2018;

Іваном 701

86,83

6

Під лежачий камінь і вода не тече

5

під 5636;

лежачий 98;

камінь 1939;

і 6189;

вода 2814;

не 6308;

тече 1286

90,29

7

Що вільно панові, те не можна Іванові

0

-

-

 

Дані, наведені в таблицях 2 – 5 дають змогу констатувати, що коефіцієнт МІ для чотирикомпонентних прислів’їв і приказок перебуває в межах від 37,34 (Двічі літа не буває) до 51,01 (Терпи, козаче, отаманом будеш), тобто в 5 − 6 разів більший за 7,56; для п’ятикомпонентних – від 53,42 (Гуртом добре й батька бити) до 65,76 (Яке зіллячко, таке й сім'ячко), тобто в 7 – 8 разів більший за контрольну величину; для шестикомпонентних − від 69,53 (Як неділя, то й сорочка біла) до 79,98 (Дай серцю волю – заведе в неволю), тобто в 9 – 10 разів вищий від контрольної величини; для семикомпонентних − від 86,83 (Пан з паном, а Іван з Іваном) до 95,27 (Гол, як сокол, а гострий, як бритва), тобто більший в 11 − 12 разів за контрольну величину.

Висновки. Отримані результати обчислень для 53 прислів’їв і приказок, виконаних за даними Українського національного лінгвістичного корпусу, доводять, що всі проаналізовані одиниці мають високий ступінь невипадковості поєднання словоформ: коефіцієнт МІ перебуває в діапазоні від 24,5 до 95,27 (тобто є втричі – удванадцятеро більшим, ніж контрольна величина), що є кількісним підтвердженням стійкості звʼязку словоформ у складі відповідних одиниць.

Зафіксовано статистично вірогідний зв’язок між кількістю компонентів прислів’я / приказки й величиною показника асоціації МІ. Так, для трикомпонентних одиниць результат МІ становить від 24,5 (Хліб усьому голова) до 35,34 (Горбатого могила виправить); для чотрикомпонетних – від 37,34 (Двічі літа не буває) до 51,01 (Терпи, козаче, отаманом будеш); для п’ятикомпонентних від 53,42 (Гуртом добре й батька бити) до 65,76 (Яке зіллячко, таке й сім'ячко); шестикомпонентних − від 69,53 (Як неділя, то й сорочка біла) до 79,98 (Дай серцю волю – заведе в неволю); семикомпонентних − від 86,83 (Пан з паном, а Іван з Іваном) до 95,27 (Гол, як сокол, а гострий, як бритва).

Серед нерозв’язаних на сьогодні проблем статистичного аналізу варто відзначити омонімію, зокрема, потребу залучення людини-експерта для розмежуванням випадків типу гол (пор. перший гол і гол, як сокол) або на двох стільцях (пор. стійка сполука сидіти на двох стільцях і вільний (нефразеологізований) вияв у реченні Посеред кімнати на двох стільцях стоїть маленька з сірої бляхи ванночка (В. Винниченко. Записки Кирпатого Мефістофеля).

Наведені результати загалом узгоджуються із статистичними даними, отриманими на попередніх етапах дослідження для інших типів фразеологічних одиниць – лексичних і синтаксичних фразеологізмів. Водночас вони засвідчують вищий ступінь невипадковості поєднання словоформ саме для прислів’їв і приказок, що є, очевидно, наслідком їхньої багатокомпонентності, стійкості й цілісності їхнього сприйняття носіями української мови.

Перспективним вважаємо статистичний аналіз інших типів стійких одиниць і зіставлення відповідних даних з результатами, отриманими для синтаксичних і лексичних фразеологізмів, прислів’їв і приказок



3 Дослідження виконано в межах фундаментального наукового проекту «Об’єктивна і суб’єктивна мовносоціумна граматика: комунікативно-когнітивний та прагматико-лінгвокомп’ютерний виміри» (0118U003137)

[2] У випадку можливої, але не зафіксованої в УНЛК конструкції (абсолютна частота 0), частоти окремих компонентів не наводимо через те, що обчислення МІ не має смислу, оскільки логарифму 0 не існує. Обчислення показників асоціації для таких конструкцій не здійснювали, тому у відповідній графі таблиці стоїть знак «-»..

References. 

References

APA Dictionary of Statistics and Research Methods. Sheldon Zedeck, PhD, editor in chief. Washington, DC: American Psychological Association, 2014. Print.

Church, Kenneth Ward, and Patrick Hanks. “Word Association Norms, Mutual Information, and Lexicography”. Computational Linguistics 16(1) (1990): 22–29. Print.

Everitt, B. S. The Cambridge Dictionary of Statistics. 2nd edition. Cambridge: Cambridge University Press, 2002. Print.

Fano, Robert M. Transmission of Information: A Statistical Theory of Communications . The Technology Press, M.I.T., and John Wiley & Sons, Inc., New York, 1961. Print.

Petrovic, S., Snajder, J., Basic, B.D., Kolar, M. Comparison of collocation extraction for document indexing”. Journal of Computing and information technology, 14 (4) (2006): 321-327. Print.

Sytar, Hanna. “Statystychni Kryteriyi Analizu Syntaksychnykh Frazeolohizmiv (Statistical Criteria of Analysis of Syntactic Idioms).” Visnyk Donets'koho Natsional'noho Universytetu. Seriya B. Humanitarni Nauky (The Bulletin of Donetsk National University. Series B. Humanities) 1-2 (2015): 245–256. Print.

Sytar, Hanna. Statystychnyi analiz frazeolohizovanykh rechen: pokaznyk asotsiatsii mutual information (Statistical Analysis of Sentences with Phraseological Structures: Association Measure of Mutual Information). Ukrainske movoznavstvo (Ukrainian Linguistics). 1(46) (2016): 103-125. Print.

Sytar, Hanna. Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky (Syntactic Idioms in the Context of Construction Grammar). Vinnytsya: ТОV «Nilan-LTD», 2017. Print.

Ukrainska mova: Entsyklopediia (Ukrainian language: Encyclopedia). Redkol.: Rusanivskyi V. M. (spivholova), Taranenko O. O. (spivholova), Ziabliuk M. P. ta in. 2-he vyd., vypr. i dop. Kyiv: Vyd-vo Ukrainska entsyklopediia im. M. P. Bazhana, 2004. Print.

Yagunova, Ye.V., Pivovarova, L.M. Ot kollokatsiy k konstruktsiyam (From Collocations to Constructions). ACTA LINGUISTICA PETROPOLITANA. Works of the Institute of Linguistic Researches of RAS, Russkiy yazyk: grammatika konstruktsiy i leksiko-semanticheskie podkhody (The Russian Language: Construction Grammar and Lexical and Semantic Approaches): X, part 2. (2014) 568-617. Print

 List of Sources

Pryslivia ta prykazky (Proverbs and Sayings). Ukl. M. Paziak. Red. Myshanych S.V.; red. Berezovskyi I.P.; red. Hordiichuk M.M.; red. Zubkov S.D.; red. Sushko L.D.; red. Kuz V.P.Kyiv: Nauk. dumka, 1991. Print.

Ukrainski prykazky, pryslivia i take inshe (Ukrainian Sayings, Proverbs etc). Ukl. M. Nomys. Kyiv: Lybid, 1993. Print.

 

Надійшла до редакції 20 березня 2018 року.