© The Editorial Council and Editorial Board of Linguistic Studies
Linguistic Studies
Volume 35, 2018, pp. 170-177
Statistical Analysis of Proverbs and Sayings: Association Measure of Mutual Information (on material of Ukrainian National Linguistic Corpus)
Sytar Hanna
Article first published online: June 06, 2018
Additional information
|
Author Information:
Sytar Hanna, Doctor of Philology, Professor, Head of Department of Ukrainian Language and Applied Linguistics in Donetsk National University. Correspondence: h.v.sytar@donnu.edu.ua
Citation:
Sytar, H. Statistical Analysis of Proverbs and Sayings: Association Measure of Mutual Information (on material of Ukrainian National Linguistic Corpus) [Text] // Linhvistychni Studiyi / Linguistic Studies : collection of scientific papers / Donetsk National University; Ed. by Anatoliy Zahnitko. Vinnytsia : Vasyl' Stus DonNU, 2018. Vol. 35. Pp. 170-177. ISBN 966-7277-88-7
DOI: http://dx.doi.org/10.31558/1815-3070.2018.35.27
Publication History:
Volume first published online: June 06, 2018
Article received: March 20, 2018, accepted: May 15, 2018 and first published online: June 06, 2018
|
Annotation.
Стаття продовжує цикл публікацій, присвячених статистичному аналізу фразеологічних і фразеологізованих одиниць української мови. У ній з’ясовано ступінь невипадковості поєднання компонентів у складі українських прислів’їв і приказок за допомогою обчислення показника асоціації mutual information (МІ).
Отримані результати обчислень для 53 прислів’їв і приказок, виконаних за даними Українського національного лінгвістичного корпусу, доводять, що всі проаналізовані одиниці мають високий ступінь невипадковості поєднання словоформ (МІ перебуває в діапазоні від 24,5 до 95,27), що є кількісним підтвердженням стійкості їхнього звʼязку.
Зафіксовано статистично вірогідний зв’язок між кількістю компонентів прислів’я або приказки і величиною показника асоціації МІ. Наведені результати загалом узгоджуються із статистичними даними, отриманими на попередніх етапах дослідження для інших типів фразеологічних одиниць – лексичних і синтаксичних фразеологізмів
Keywords: association measure, phraseological units, mutual information, proverb, saying, statistics, the Ukrainian language.
Abstract.
Statistical Analysis of Proverbs and Sayings:
Association Measure of Mutual Information
(on material of Ukrainian National Linguistic Corpus)
Hanna Sytar
Department of General and Applied Linguistics
and Slavonic Philology, Vasyl' Stus Donetsk National University,
Vinnytsia, Ukraine
Abstract Background: The author examines the statistical analysis of proverbs and sayings on the
material of the Ukrainian National Linguistic Corpus of Ukrainian
Lingua-Information Fund, NAS of Ukraine. Corpus-oriented statistical research
of Ukrainian proverbs and sayings has not been carried out yet. The object of
the analysis is 53 proverbs and sayings, selected from authoritative sources: Ukrainski
prykazky, pryslivia i take inshe (Ukrainian proverbs, sayings etc)/ Ukl.
M.Nomys. – Kyiv: Lybid, 1993. – 768 s.; Pryslivia ta prykazky (Proverbs and
sayings)/ ukl. Paziak M. − Kyiv: Nauk. dumka, 1991. – 440 s. etc. Among them,
there are 9 three-component, 17 − four-component, 14 – five-component,
6 – six-component and 7 – seven‑component units. Purpose: The purpose of this
study is to determine the degree of non-randomness of the components
combination in Ukrainian proverbs and sayings by means of the calculating the
association measure of mutual information
(hereinafter МІ).
Results: The obtained results of the calculations for 52 proverbs and sayings, done with the help of the
Ukrainian National Linguistic Corpus data, prove that all analysed units have high
degree of non-randomness combination of word forms (MI is in the range from
24.5 to 95.27), which is a quantitative confirmation of their connection stability.
The reference value, from which the connection of words is considered to be
non-random, depends not only on the indicators of the absolute frequency of the
construction and its individual components but also on the size of the corpus.
For the Ukrainian National Linguistic Corpus, which consisted of 189 200 000
words in February 2018, the reference value is 7.56.
There is a
statistically probable connection between the number of components in the
proverb or saying and the size of association measure mutual information. Thus, for the three‑component units the result
of the MI is from 24.5 (Хліб усьому
голова / Khlib usomu holova)) to 35.34 (Горбатого могила
виправить
/ Horbatoho mohyla
vypravyt); for four‑component units – from 37.34 (Двічі літа не буває / Dvichi lita ne buvaie))
to 51.01 (Терпи, козаче, отаманом будеш /
Terpy, kozache, otamanom budesh); for five-component from 53.42 (Гуртом добре й батька бити / Hurtom dobre y batka byty)) to 65.76 (Яке зіллячко, таке й сім'ячко / Yake zilliachko,
take y simiachko); for six-component – from 69,53 (Як неділя, то й сорочка біла / Yak nedilia, to y
sorochka bila) to 79.98 (Дай
серцю волю – заведе в неволю / Dai sertsiu voliu – zavede v nevoliu); for
seven-component – from 86.83 (Пан з
паном, а Іван з Іваном / Pan z panom, a Ivan z Ivanom) to 95.27 (Гол, як сокол, а гострий, як бритва / Hol, yak sokol, a hostryi, yak brytva).
Discussion: The presented results are broadly consistent with the statistical data
obtained in the previous stages of the study of other types of phraseological
units – lexical and syntactic idioms. At the same time, they prove the higher degree of non-randomness of the
combination of word forms for proverbs and sayings, which, obviously, are the
consequence of their multicomponent, as well as the stability and integrity of
their perception by the speakers of the Ukrainian language. It is considered
perspective to involve other types of phraseological units to the statistical analysis.
Keywords: association measure, phraseological units, mutual
information, proverb, saying, statistics,
the Ukrainian language.
Vitae
Hanna
Sytar is PhD of Philology, Assosiate Professor, Assosiate Professor of
Department of General and Applied Linguistics and Slavonic Philology at Donetsk
National University named after Vasyl Stus. Her areas of research interests
include syntax, semantics, pragmatics, construction
grammar, applied linguistics.
Correspondence: h.v.sytar@donnu.edu.ua.
Article.
Ганна
Ситар
УДК
81'373.7:81'32
СТАТИСТИЧНИЙ АНАЛІЗ ПРИСЛІВ'ЇВ І ПРИКАЗОК:
ПОКАЗНИК АСОЦІАЦІЇ MUTUAL INFORMATION
(НА МАТЕРІАЛІ УКРАЇНСЬКОГО НАЦІОНАЛЬНОГО
ЛІНГВІСТИЧНОГО КОРПУСУ)[1]
Стаття
продовжує цикл публікацій, присвячених статистичному аналізу фразеологічних і
фразеологізованих одиниць української мови. У ній з’ясовано ступінь
невипадковості поєднання компонентів у складі українських прислів’їв і приказок
за допомогою обчислення показника асоціації mutual information (МІ).
Отримані
результати обчислень для 53 прислів’їв і приказок, виконаних за даними Українського національного лінгвістичного корпусу,
доводять, що всі проаналізовані одиниці мають високий ступінь невипадковості
поєднання словоформ (МІ перебуває в діапазоні від 24,5 до 95,27), що є кількісним підтвердженням стійкості їхнього
звʼязку.
Зафіксовано
статистично вірогідний зв’язок між кількістю компонентів прислів’я або приказки
і величиною показника асоціації МІ. Наведені результати загалом узгоджуються із статистичними даними,
отриманими на попередніх етапах дослідження для інших типів фразеологічних
одиниць – лексичних і синтаксичних фразеологізмів.
Ключові слова: показник асоціації, фразеологічна одиниця,
mutual information, прислів’я, приказка, статистика, українська мова.
Постановка проблеми, актуальність
дослідження. Сучасна лінгвістика позиціонує корпуснозорієнтованість як необхідну
умову мовознавчого дослідження. Статистичний аналіз фразеологічних і
фразеологізованих одиниць належить до актуальних завдань лінгвістичної
статистики, оскільки за допомогою математичних методів і прийомів покликаний
підтвердити або спростувати належність певної мовної одиниці до класу стійких.
Процедуру такого аналізу на матеріалі синтаксичних фразеологізмів української
мови запропоновано у працях (Sytar, “Statystychni Kryteriyi Analizu Syntaksychnykh Frazeolohizmiv”; Sytar, “Statystychnyi analiz frazeolohizovanykh rechen…”; Sytar, “Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky”).
Обчислення показників асоціації як метод визначення невипадковості
поєднання компонентів може бути застосований для різних типів конструкцій. Цю
статтю присвячено аналізу прислів’їв і приказок, які в межах широкого підходу до
розуміння обсягу фразеології кваліфікують як один із типів стійких одиниць (В. Л. Архангельський, А. М. Баранов, Д. О. Добровольський, Т. О. Туліна та ін.).
У розумінні прислів’їв і приказок спираємось на усталений в українському
мовознавстві погляд, згідно з яким прислів’я визначають як «стійкий вислів
переважно фольклорного походження, в якому зафіксований практичний досвід
народу та його оцінка різних подій і явищ. Прислів’я на відміну від приказок, −
це самостійні судження, граматично та інтонаційно оформлені як прості («Дружній
череді і вовк не страшний») або складні («Біда тому волові, котрого корова
коле») речення» (Ukrainska mova: Entsyklopediia: 530, автор статті М.Т. Демський).
Оскільки в зібраннях прислів’їв і приказок їх подають без розмежування, до
статистичного аналізу залучаємо їх разом як групу умовно однорідних одиниць.
Матеріал і методи дослідження. Об’єктом
статистичного аналізу стали 53 прислів’я і
приказки, дібрані з авторитетних джерел (“Ukrainski prykazky, pryslivia i
take inshe”; “Pryslivia ta
prykazky”). Серед них 9 трикомпонентних, 17 − чотирикомпонентних, 14 −
п’ятикомпонетних, 6 − шестикомпонентних і 7 − семикомпонентних одиниць.
Вірогідність одержаних кількісних даних забезпечено виконанням обчислень на
матеріалі значного за обсягом й індексованого корпусу текстів − Українського національного лінгвістичного
корпусу (далі УНЛК) Українського мовно-інформаційного фонду НАН України.
В арсеналі сучасної
статистики існує низка статистичних критеріїв (коефіцієнтів), обʼєднаних
терміном «показники асоціації» (англ. association measures, measures of association). За Кембриджським словником статистики Брайана Еверітта
(Brian S. Everitt), «Показники
асоціації – числові індекси, що обчислюють силу статистичної залежності двох
або більше квалітативних змінних» (Everitt: 241).
У
цьому авторитетному лексикографічному виданні термін «асоціація» витлумачено
як «загальний термін, що використовується для опису
відношення між двома змінними. Значною мірою є синонімічним до кореляції» (Everitt: 20).
У
словнику статистики й методів дослідження Американської асоціації психологів
(за ред. Sheldon Zedeck) асоціацію визначено як «ступінь статистичної
залежності або відношення між двома або більше явищами», а кореляцію – як
«ступінь відношення (зазвичай лінійного) між двома змінними, який може бути
обрахований як коефіцієнт кореляції, сила асоціації» (APA: 65).
Статистична залежність послідовності словоформ у корпусі визначувана за
допомогою показника асоціації mutual information (далі МІ)
(буквально − взаємна, спільна інформація). Поняття МІ ввів у теорію інформації
Роберт Маріо Фано (Fano). У лінгвістичних дослідженнях
його вперше застосували Кеннет Ворд Чарч (Kenneth Ward Church) та Патрік Хенкс (Patrick Hanks) (Church, Hanks). Сутність
спільної інформації вчені визначили так: «спільна інформація порівнює
ймовірність спостереження х та у разом (поєднана ймовірність) з
імовірностями спостереження х та у незалежно (випадкова)» (Church, Hanks: 23).
Відповідно у дослідників мова йшла про невипадковість поєднання двох слів у
тексті і про потребу залучення цього методу для лексикографії, укладання
конкордансів, вивчення сполучуваності слів та ін.
Оскільки
обраний об’єкт дослідження − прислів’я та приказки − є багатокомпонентними
(три- і більше) одиницями, постає потреба врахувати у формулі МІ більшу
кількість компонентів. Тому обчислення здійснено за формулою (1), виведеною у
працях (Petrovic, Snajder, Basic, Kolar: 323; Yagunova, Pivovarova: 586).
(1)
,
де MI – коефіцієнт mutual information;
і – це кількість
компонентів конструкції;
с1
– перша лексична одиниця;
с2 –
друга лексична одиниця;
сі
– і-а лексична одиниця;
f(c1,c2,…сі)
– абсолютна частота вживання конструкції c1, c2, … ,сі в
корпусі (з урахуванням порядку одиниць усередині конструкції);
f(c1)
– абсолютна частота c1 в корпусі;
f(c2)
– абсолютна частота c2 в корпусі;
f(cі)
– абсолютна частота cі в корпусі;
N –
загальна кількість словоформ у корпусі;
log2 – логарифм
числа за основою 2.
Мета
цього дослідження – визначити
ступінь невипадковості поєднання компонентів у складі українських прислів’їв і
приказок за допомогою обчислення показника асоціації МІ. Для досягнення
поставленої мети розв’язано такі завдання:
1) укладено реєстр прислів’їв і приказок, що охоплює
одиниці з різною кількістю компонентів і різну тематику;
2) з УНЛК отримано частотні дані для прислів’їв і
приказок;
3) виконано обчислення за формулою МІ для
багатокомпонентних одиниць;
4) проаналізовано отримані результати.
Для коректного встановлення абсолютної частоти конструкції та абсолютної частоти окремих
словоформ, що входять до її складу, в пошуковій
формі УНЛК було задано визначений порядок
словоформ та передбачено пошук словоформи, а не слова з урахуванням його парадигми.
Оскільки цей
корпус текстів є динамічним, зазначимо, що частотні дані подаємо станом на
лютий 2018 року. Загальна кількість
слововживань у корпусі в період здійснення підрахунків становила 189200000
одиниць.
Покажемо
приклад здійснених підрахунків. Для обчислення ступеня невипадковості поєднання
словоформ у межах прислів’я Терпи,
козаче, отаманом будеш з УНЛК було отримано такі кількісні дані: абсолютна
частота прислів’я становить 11, абсолютна частота словоформи терпи − 228; козаче − 307; отаманом − 239; будеш − 1968. Підставляючи ці дані до
формули (1), отримуємо:
= 51,007076 ≈ 51,01
Коефіцієнт МІ обраховували з точністю до двох
знаків після коми. Отримані результати МІ для трикомпонентних прислів’їв і приказок подано в
таблиці 1.
Таблиця 1
Показник асоціації МІ для трикомпонентних прислів’їв і
приказок за даними УНЛК
№ з/п
|
Прислів’я або приказка
|
Абсолютна
частота вживання прислів’я або
приказки
|
Абсолютна частота
вживання словоформ-компонентів прислів’я
або приказки
|
Показ-
ник
асоці-
ації МІ
|
1
|
Береженого Бог береже
|
38
|
береженого 89;
Бог
2556;
береже
569
|
33,29
|
2
|
Гол, як
сокол
|
4
|
гол 457;
як 6274;
сокол 53;
|
29,81
|
3
|
Голий,
як кістка
|
2
|
голий 920;
як 6274;
кістка 362
|
25,03
|
4
|
Горбатого
могила виправить
|
25
|
горбатого 138; могила 963; виправить 155
|
35,34
|
5
|
Змерз,
як собака
|
2
|
змерз 262;
як 6274;
собака 1465
|
24,83
|
6
|
На двох
стільцях
|
65
|
на 6331;
двох 4584;
стільцях 283
|
28,08
|
7
|
Сила
солому ломить
|
7
|
сила 3032;
солому 517;
ломить 200
|
29,57
|
8
|
Собака
на сіні
|
25
|
собака 1465;
на 6331;
сіні 342
|
28,07
|
9
|
Хліб
усьому голова
|
9
|
хліб
2067;
усьому
2111;
голова
3122
|
24,5
|
;)
Як видно з таблиці 1, коефіцієнт МІ для трикомпонентних прислів’їв і приказок перебуває у межах від 24,5 (Хліб усьому голова) до 35,34 (Горбатого могила виправить).
Контрольна величина, починаючи від якої вважаємо зв’язок слів невипадковим, залежить від показників абсолютної частоти конструкції, від абсолютної частоти її окремих складників і від розміру корпусу. Для Українського національного лінгвістичного корпусу, розмір якого в лютому 2018 року становив 189 200 000 слововживань, ця контрольна величина становить 7,56 (детально процедуру виведення контрольної величини викладено у праці (Sytar 2017: 310-311)):
Відповідно отримані результати можна кваліфікувати
як такі, що відбивають високий ступінь невипадковості (зв’язаності) компонентів
конструкції, оскільки вони більше ніж утричі перевищують контрольну величину.
Статистичні дані щодо чотири-, п’яти-, шести- й
семикомпонентних прислів’їв і
приказок наведено в таблицях 2, 3, 4 і 5 відповідно.
Таблиця 2
Показник асоціації МІ для чотирикомпонентних прислів’їв і
приказок
за даними УНЛК
№ з/п
|
Прислів’я або приказка
|
Абсолютна частота вживання прислів’я або
приказки
|
Абсолютна
частота вживання словоформ-компонентів прислів’я або приказки
|
Показ-
ник
асоці-
ації
МІ
|
1
|
Більшому й більше треба[2]
|
0
|
-
|
-
|
2
|
Велике дерево поволі росте
|
1
|
велике 3063;
дерево 2016;
поволі 1629;
росте 1605
|
38,61
|
3
|
Вік живи — вік учись
|
19
|
вік 2382;
живи 662;
учись 100
|
48,28
|
4
|
Гарна
дівка, як маківка
|
5
|
гарна 1697;
дівка 613;
як 6274;
маківка 125
|
45,24
|
5
|
Гусь свині не товариш
|
4
|
гусь 34;
свині 750;
не 6308;
товариш 1421
|
46,75
|
6
|
Два українці − три гетьмани
|
2
|
два 4780;
українці 1333;
три 4607;
гетьмани 267
|
40,65
|
7
|
Двічі
літа не буває
|
2
|
двічі 2140;
літа 2050;
не 6308;
буває 2820
|
37,34
|
8
|
Знай, коза, своє стійло
|
1
|
знай 1118;
коза 523;
своє 4234;
стійло 66
|
45,24
|
9
|
На двох стільцях сидить
|
2
|
на 6331;
двох 4584;
стільцях 283;
сидить 2241
|
39,42
|
10
|
Народ скаже, як зав’яже
|
4
|
народ 2547;
скаже 2038;
як 6274;
зав’яже 32
|
44,56
|
11
|
Рідна
мова — не полова
|
1
|
рідна 1371;
мова 3101;
не 6308;
полова 210
|
40,13
|
12
|
Ситий голодному не вірить
|
4
|
ситий 499;
голодному 220;
не 6308;
вірить 1337
|
44,73
|
13
|
Ситий голодному не товариш
|
7
|
ситий 499;
голодному 220;
не 6308;
товариш 1421
|
45,45
|
14
|
Терпи, козаче, отаманом будеш
|
11
|
терпи 228;
козаче 307;
отаманом 239;
будеш 1968
|
51,01
|
15
|
Усі під Богом ходимо
|
8
|
усі 4175;
під 5636;
Богом 1619;
ходимо 423
|
41,61
|
16
|
Хвали мене, моя губонько
|
3
|
хвали 296;
мене 3912;
моя 3214;
губонько 6
|
49,69
|
17
|
Язик до Києва доведе
|
20
|
язик 1642;
до 6281;
Києва 1979;
доведе 592
|
43,35
|
Таблиця 3
Показник асоціації МІ для п’ятикомпонентних прислів’їв і приказок
за даними УНЛК
№ з/п
|
Прислів’я або приказка
|
Абсолютна
частота вживання прислів’я або
приказки
|
Абсолютна
частота вживання словоформ-компонентів прислів’я або приказки
|
Показ-
ник
асоці-
ації МІ
|
1
|
Баба з воза – коням легше
|
6
|
баба
1299;
з 6304;
воза
841;
коням
330;
легше
2310
|
60,35
|
2
|
Всяка пташка своє гніздо знає
|
2
|
всяка
762;
пташка
844;
своє
4234;
гніздо
953;
знає
3268
|
58,07
|
3
|
Гуртом добре й батька бити
|
1
|
гуртом
1046;
добре
4220;
й 6092;
батька
2547;
бити
1552
|
53,42
|
4
|
Життя прожити — не поле перейти
|
14
|
життя 4809;
прожити 965;
не 6308;
поле 2858;
перейти 1968
|
56,60
|
5
|
Козак хороший, та немає грошей
|
0
|
-
|
-
|
6
|
Кому весілля, а курці смерть
|
4
|
кому
2995;
весілля
1403;
а 6299;
курці
217;
смерть
2986
|
58,05
|
7
|
Розуміється, як вовк на зорях
|
3
|
розуміється
854;
як
6274;
вовк
1221;
на
6331;
зорях
218
|
58,56
|
8
|
Степ та воля – козацька доля
|
4
|
степ
953;
та
6216;
воля
1932;
козацька
526;
доля
2727
|
58,12
|
9
|
Тепер життя панам та котам
|
0
|
-
|
-
|
10
|
Що село, то й сотник
|
4
|
що
6293;
село
2162;
то
5532;
й 6092;
сотник
329
|
54,92
|
11
|
Як дбаєш, так і маєш
|
6
|
як
6274;
дбаєш
116;
так
6074;
і 6189;
маєш
1879
|
57,05
|
12
|
Яке зіллячко, таке й сім'ячко
|
12
|
яке
4644;
зіллячко
55;
таке
4384;
й 6092;
сім'ячко
3
|
65,76
|
13
|
Яке їхало, таке й здибало
|
7
|
яке
4644;
їхало
189;
таке
4384;
й 6092;
здибало
26
|
63,67
|
14
|
Яке коріння, таке й насіння
|
11
|
яке
4644;
коріння
1436;
таке
4384;
й 6092;
насіння
1173
|
55,91
|
|
|
Таблиця 4
Показник асоціації МІ для шестикомпонентних прислів’їв і
приказок
за даними УНЛК
№ з/п
|
Прислів’я або приказка
|
Абсолютна
частота вживання прислів’я або
приказки
|
Абсолютна
частота вживання словоформ-компонентів прислів’я або приказки
|
Показ-
ник
асоці-
ації
МІ
|
1
|
Боже поможи, а сам не лежи
|
4
|
Боже 2257;
поможи 430;
а 6299;
сам 4306;
не 6308;
лежи 276
|
74,16
|
2
|
Дай
серцю волю — заведе в неволю
|
21
|
дай 2231;
серцю
894;
волю
2349;
заведе 309;
в 6333;
неволю 465
|
79,98
|
3
|
Де два
українці, там три гетьмани
|
14
|
де 5679;
два 4780;
українці 1333;
там 4605;
три 4607;
гетьмани 267
|
73,81
|
4
|
Під
лежачий камінь вода не тече
|
20
|
під 5636;
лежачий
98;
камінь
1939;
вода
2814;
не
6308;
тече 1286
|
77,39
|
5
|
Що можна лялі, не можна мамі
|
1
|
що 6293;
можна 5520;
лялі 41;
не 6308;
мамі 757
|
72,45
|
6
|
Як неділя, то й сорочка біла
|
1
|
як 6274;
неділя 739;
то 5532;
й 6092;
сорочка 1009;
біла 1808
|
69,53
|
Таблиця 5
Показник асоціації МІ для семикомпонентних прислів’їв і
приказок
за даними УНЛК
№ з/п
|
Прислів’я або приказка
|
Абсолютна
частота вживання прислів’я або
приказки
|
Абсолютна
частота вживання словоформ-компонентів прислів’я або приказки
|
Показ-
ник
асоці-
ації
МІ
|
1
|
Береженого
Бог береже, а козака шабля стереже
|
0
|
-
|
-
|
2
|
Гол, як сокол, а гострий, як бритва
|
2
|
гол 457;
як 6274;
сокол 53;
а 6299;
гострий 1425;
бритва 225
|
95,27
|
3
|
Коли маєш сто кіп, то будеш піп
|
1
|
коли 5545;
маєш 1879;
сто 2631;
кіп 152;
то 5532;
будеш 1968;
піп 539
|
90,6
|
4
|
Коли убогому жениться, то й
ніч мала
|
1
|
коли 5545;
убогому 97;
жениться 173;
то 5532;
й 6092;
ніч 2985;
мала 3642
|
90,12
|
5
|
Пан з паном, а Іван з Іваном
|
2
|
пан 2056;
з 6304;
паном 916;
а 6299;
Іван 2018;
Іваном 701
|
86,83
|
6
|
Під лежачий камінь і вода не
тече
|
5
|
під 5636;
лежачий
98;
камінь
1939;
і 6189;
вода
2814;
не
6308;
тече 1286
|
90,29
|
7
|
Що вільно панові, те не можна
Іванові
|
0
|
-
|
-
|
Дані, наведені в таблицях 2 – 5 дають змогу
констатувати, що коефіцієнт МІ для чотирикомпонентних прислів’їв і приказок
перебуває в межах від 37,34 (Двічі літа
не буває) до 51,01 (Терпи, козаче,
отаманом будеш), тобто в 5 − 6 разів більший за 7,56; для п’ятикомпонентних
– від 53,42 (Гуртом добре й батька бити)
до 65,76 (Яке зіллячко, таке й сім'ячко),
тобто в 7 – 8 разів більший за контрольну величину; для шестикомпонентних − від
69,53 (Як неділя, то й сорочка біла)
до 79,98 (Дай серцю волю – заведе в
неволю), тобто в 9 – 10 разів вищий від контрольної величини; для
семикомпонентних − від 86,83 (Пан з
паном, а Іван з Іваном) до 95,27 (Гол,
як сокол, а гострий, як бритва), тобто більший в 11 − 12 разів за
контрольну величину.
Висновки.
Отримані результати обчислень для
53 прислів’їв і приказок, виконаних за даними Українського національного лінгвістичного корпусу,
доводять, що всі проаналізовані одиниці мають високий ступінь невипадковості
поєднання словоформ: коефіцієнт МІ перебуває в діапазоні від 24,5 до 95,27 (тобто є втричі – удванадцятеро
більшим, ніж контрольна величина), що є кількісним підтвердженням стійкості звʼязку
словоформ у складі відповідних одиниць.
Зафіксовано статистично вірогідний зв’язок між
кількістю компонентів прислів’я / приказки й величиною показника асоціації МІ. Так, для трикомпонентних одиниць результат МІ становить від 24,5 (Хліб усьому голова) до 35,34 (Горбатого
могила виправить); для чотрикомпонетних – від 37,34 (Двічі
літа не буває) до 51,01 (Терпи,
козаче, отаманом будеш); для п’ятикомпонентних від 53,42 (Гуртом добре й батька бити) до 65,76 (Яке зіллячко, таке й сім'ячко);
шестикомпонентних − від 69,53 (Як неділя, то й сорочка біла) до 79,98 (Дай серцю волю – заведе в неволю);
семикомпонентних − від 86,83 (Пан з
паном, а Іван з Іваном) до 95,27 (Гол, як сокол, а гострий, як бритва).
Серед нерозв’язаних на сьогодні проблем
статистичного аналізу варто відзначити омонімію, зокрема, потребу залучення
людини-експерта для розмежуванням випадків типу гол (пор. перший гол і гол, як сокол) або на двох стільцях (пор. стійка сполука сидіти на двох стільцях і вільний (нефразеологізований) вияв у
реченні Посеред кімнати на двох стільцях стоїть маленька з сірої бляхи ванночка (В.
Винниченко. Записки Кирпатого Мефістофеля).
Наведені
результати загалом узгоджуються із статистичними даними, отриманими на
попередніх етапах дослідження для інших типів фразеологічних одиниць –
лексичних і синтаксичних фразеологізмів. Водночас вони засвідчують вищий ступінь невипадковості поєднання
словоформ саме для прислів’їв і приказок, що є, очевидно, наслідком їхньої
багатокомпонентності, стійкості й цілісності їхнього сприйняття носіями
української мови.
Перспективним вважаємо статистичний аналіз інших типів стійких одиниць і зіставлення
відповідних даних з результатами, отриманими для синтаксичних і лексичних
фразеологізмів, прислів’їв і приказок
3 Дослідження
виконано в межах фундаментального наукового проекту «Об’єктивна і
суб’єктивна мовносоціумна граматика: комунікативно-когнітивний та
прагматико-лінгвокомп’ютерний виміри» (0118U003137).
[2] У випадку можливої, але
не зафіксованої в УНЛК конструкції (абсолютна частота 0), частоти окремих
компонентів не наводимо через те, що обчислення МІ не має смислу, оскільки
логарифму 0 не існує. Обчислення показників асоціації для таких конструкцій не
здійснювали, тому у відповідній графі таблиці стоїть знак «-»..
References.
References
APA Dictionary of Statistics and Research
Methods. Sheldon Zedeck,
PhD, editor in chief. Washington, DC: American Psychological Association, 2014. Print.
Church, Kenneth
Ward, and Patrick Hanks. “Word Association Norms, Mutual Information, and Lexicography”.
Computational Linguistics 16(1)
(1990): 22–29. Print.
Everitt, B. S. The Cambridge Dictionary of Statistics. 2nd edition. Cambridge:
Cambridge University Press, 2002. Print.
Fano, Robert M. Transmission of Information: A Statistical Theory of Communications . The
Technology Press, M.I.T., and John Wiley & Sons, Inc., New York, 1961. Print.
Petrovic, S., Snajder, J., Basic, B.D., Kolar, M. “Comparison of collocation extraction for document indexing”. Journal of Computing and information
technology, 14 (4) (2006): 321-327. Print.
Sytar, Hanna. “Statystychni
Kryteriyi Analizu Syntaksychnykh Frazeolohizmiv (Statistical Criteria of
Analysis of Syntactic Idioms).” Visnyk
Donets'koho Natsional'noho Universytetu. Seriya B. Humanitarni Nauky (The Bulletin of Donetsk National University.
Series B. Humanities) 1-2 (2015): 245–256. Print.
Sytar, Hanna. “Statystychnyi analiz
frazeolohizovanykh rechen: pokaznyk asotsiatsii mutual information (Statistical Analysis of Sentences with Phraseological Structures: Association Measure of Mutual Information)”. Ukrainske movoznavstvo (Ukrainian Linguistics). 1(46) (2016): 103-125. Print.
Sytar, Hanna. Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky (Syntactic Idioms in the Context of Construction Grammar). Vinnytsya: ТОV «Nilan-LTD», 2017. Print.
Ukrainska mova: Entsyklopediia (Ukrainian language: Encyclopedia). Redkol.: Rusanivskyi V. M. (spivholova), Taranenko O. O. (spivholova), Ziabliuk M. P. ta in. 2-he vyd., vypr. i dop. Kyiv: Vyd-vo “Ukrainska entsyklopediia” im. M. P. Bazhana, 2004. Print.
Yagunova,
Ye.V.,
Pivovarova, L.M.
“Ot kollokatsiy k konstruktsiyam (From Collocations to Constructions)”. ACTA LINGUISTICA PETROPOLITANA. Works of the
Institute of Linguistic Researches of RAS, Russkiy yazyk: grammatika
konstruktsiy i leksiko-semanticheskie podkhody
(The Russian Language: Construction Grammar and
Lexical and Semantic Approaches): X, part 2. (2014) 568-617. Print
List of Sources
Pryslivia ta prykazky (Proverbs and Sayings). Ukl. M. Paziak. Red. Myshanych S.V.; red.
Berezovskyi I.P.; red. Hordiichuk M.M.; red. Zubkov S.D.; red. Sushko L.D.;
red. Kuz V.P.Kyiv: Nauk. dumka, 1991. Print.
Ukrainski prykazky, pryslivia i take inshe (Ukrainian Sayings, Proverbs etc). Ukl. M. Nomys. Kyiv: Lybid, 1993. Print.
Надійшла до редакції 20 березня 2018 року.
|