Models of Artificial Intelligence for Semantic Comparison of Textual Information

 © The Editorial Team of Linguistic Studies

Linguistic Studies
Volume 30, 2015, pp. 135-139

Models of Artificial Intelligence for Semantic Comparison of Textual Information

Oksana Komarnytska

Article first published online: August 1, 2015 


Additional information

 Author Information: 

Oksana I. Komarnytska, Teacher of English Language at Department of English Language in National Academy of the State Border Guard Service of Ukraine named after Bohdan Khmelnytskyi. Correspondence: o.i.komarnytska@gmail.com

Citation: 
Komarnytska, Oksana. Моделі штучногоінтелекту для поірвняння текстової інформації за змістом [Text] / Oksana Komarnytska // 
Лінгвістичні студії : міжнародний зб. наук. праць. – Київ – Вінниця : ДонНУ, 2015. – Випуск 30. – С. 135-139. / Linguistic Studies : international collection of scientific papers / Donetsk National University Ed. by A. P. Zahnitko. –Kyiv – Vinnytsia : DonNU, 2015. – Vol. 30. – Pp. 135-139. 

Publication History:
Volume first published online: August 1, 2015

Article received: January 15, 2015, accepted: February 20, 2015 and first published online: August 1, 2015

Annotation.

The models of artificial intelligence for comparison of textual information (answers to questions given by students in natural language, with options of correct answers) of the intellectual system of textual answer linguistic analysis have been studied in this article.

Keywords: algorithm, analysis, knowledge, method, model, pragmatics, semantics, text, Artificial Intelligence.



Abstract.

MODELS OF ARTIFICIAL INTELLIGENCE FOR SEMANTIC COMPARISON OF TEXTUAL INFORMATION

Oksana Komarnytska

Department of English Language, National Academy of the State Border Guard Service of Ukraine named after Bohdan Khmelnytskyi, Khmelnytskyi, Khmelnytskyi region, Ukraine.

 

Available 15 January 2015.


Abstract

Relevance

The research of automated analysis of textual information utilizing models of artificial intelligence is currently essential problem of modern linguistics because of a great need and interest in modernization and creation of new intellectual models of linguistic analysis of a natural language response in knowledge assessment systems.

Purpose

The purpose of the article is to demonstrate the models of artificial intelligence for comparison of textual information (answers to questions given by students in natural language, with options of correct answers) taking into account its semantic features.

Tasks

The main tasks of the article are to describe the methods, models and technologies of automated linguistic analysis of the students' responses given in natural language, paying special attention to utilization of artificial intelligence models.

Conclusion

The application of the proposed new and improved methods, models and algorithms provides the possibility to detect latent semantic associative dependences in the set of documents; partly withdraw the phenomenon of homonymy, polysemy and synonymy; correct words written by a student with spelling and technical mistakes; consider the order of words in documents and their meaning; logic of the term in the context of the subject area.

Perspective

A subject for further research is the development of hardware-software complex of the intellectual system of knowledge assessment.

 

Research highlights

► The models of artificial intelligence for comparison of textual information (answers to questions given by students in natural language, with options of correct answers) of the intellectual system of textual answer linguistic analysis have been studied in this article.

Keywords: algorithm, analysis, knowledge, method, model, pragmatics, semantics, text, Artificial Intelligence.


References

Askerov, E'. M., & Emelin, M. A., & Rudinskij, I. D., & Stroilov, N. A. (2008). Principy i texnologi sozdaniya integrirovannoj avtomatizirovannoj sistemy kontrolya znanij. KGTU.

Bad'orina, L. M. (2006). Metod otsinyuvannya dovil'nykh vidpovidey u komp"yuternykh systemakh testuvannya znan'. Matematychni mashyny i systemy, 4, 138-144.

Ermakov, A. E. (2009). Izvlechenie znanij iz teksta i ix obrabotka: sostoyanie i perspektivy. "Informacionnye texnologii", M: Izd. "Novye texnologii", 50-55.

Katerynchuk, I. S. (2008). Intelektual'na systema avtomatyzovanoho otsinyuvannya znan' u vyshchykh navchal'nykh zakladakh. Zvit pro NDR/ NADPSU, KhDTsNTiEI (nomer derzhavnoyi reyestratsiyi 0109V005890). Khmel'nyts'kyy.

Levenshtejn, V. I. (1965). Dvoichnye kody s ispravleniem vypadenij i vstavok simvola 1. Problemy peredachi informacii, M., 1, 1, 12-25.

Pospelov, D. A. (1990). Iskusstvennyj intellekt: V 3 kn. Kn. 2 Modeli i metody : Spravochnik. M.: Radio i svyaz'.

Shtanhey S. V. (2009). Modeli i informatsiyni tekhnolohiyi kontrolyu znan' v systemi dystantsiynoho navchannya. Dys. k. tekhn. n. Kharkiv.

Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato's problem : The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge. Psychological Review, 104 (2), 211-240.

 

Correspondence: o.i.komarnytska@gmail.com

Vitae

Oksana I. Komarnytska, Teacher of English Language at Department of English Language in National Academy of the State Border Guard Service of Ukraine named after Bohdan Khmelnytskyi. Her scientific interests include general linguistics, structural linguistics, applied linguistics, and text linguistics.


Article.

Oksana Komarnytska

УДК 378:001.891

МОДЕЛІ ШТУЧНОГО ІНТЕЛЕКТУ ДЛЯ ПОРІВНЯННЯ ТЕКСТОВОЇ ІНФОРМАЦІЇ ЗА ЗМІСТОМ

 

The models of artificial intelligence for comparison of textual information (answers to questions given by students in natural language, with options of correct answers) of the intellectual system of textual answer linguistic analysis have been studied in this article.

Keywords: algorithm, analysis, knowledge, method, model, pragmatics, semantics, text, Artificial Intelligence.

 

На сьогоднішній день система вищої освіти є найважливішим інструментом досягнення нового якісного стану суспільства та його головних механізмів – соціальних, економічних, політичних, культурних та ін. Освітня діяльність у вишах передбачає здійснення постійного контролю та оцінювання знань майбутніх фахівців. Аналіз моделей, методів та засобів у цій галузі показав, що вони не завжди забезпечують високу достовірність і об’єктивність [Рудинський 2008; Бадьоріна 2006; Штангей 2009]. До того ж, проведення контролю знань у традиційній формі вимагає забагато аудиторного часу. Отже, виникає необхідність впровадження нових методів і засобів контролю та модифікації вже відомих. До них відноситься і тестування.

Одним з інноваційних напрямів подальшого вдосконалення систем тестового контролю є застосування методів штучного інтелекту. На жаль, аналіз сучасних методик, математичного та програмного забезпечення в цій галузі свідчить, що завершених моделей і методів, які на основі використання методів штучного інтелекту були б здатні повною мірою опрацьовувати (порівнювати) отримані з тексту елементи “знань”, сьогодні не існує навіть для англійської мови [Єрмаков 2009]. Таке становище зумовлене двома причинами. Перша полягає в недостатньому рівні відомих і досяжних до прикладних застосувань систем лінгвістичного аналізу тексту, здатних інтерпретувати відношення між одиницями тексту й видобувати знання як певні елементи з внутрішньою структурою. Подібні системи лише почали з’являтись (Net Owl (www.netowl.com), Attensity (www.attensity.com), RCO FactExtractor (www.rco.ru)) і їх ще не встигли інтегрувати до прикладних застосувань. Друга причина полягає в низькій достовірності автоматичної екстракції знань, що пов’язано з недосконалістю сучасних методів та алгоритмів інтерпретації тексту.

Такий стан справ зумовлює актуальність дослідження моделей і методів лінгвістичного (морфологічного, синтаксичного, семантичного, прагматичного) аналізу природномовного тексту із застосуванням штучного інтелекту та необхідність використання таких моделей в перспективних системах оцінювання знань.

Метою статті є обґрунтування моделей штучного інтелекту для порівняння текстової інформації за змістом.

У Національній академії Державної прикордонної служби України імені Б. Хмельницького у рамках науково-дослідної роботи [Катеринчук 2008] та розвідок автора з питань лінгвістичного аналізу тексту було вжито спробу розроблення системи тестування, яка базується на застосуванні методів штучного інтелекту в лінгвістиці, де враховуються морфологічні, семантичні й синтаксичні особливості структур української мови. В результаті виконання зазначеної теми було розроблено і впроваджено “Інтелектуальну автоматизовану систему контролю знань студентів у вищих навчальних закладах” (далі – ІАСКЗ).

Основним завданням системи ІАСКЗ є автоматичний аналіз текстів відповідей студентів, поданих природною мовою в текстовому електронному форматі на предмет їхньої правильності та відповідності навчальному контенту.Для забезпечення таких властивостей системи необхідно було розробити та реалізувати методи і моделі формалізованого опису лінгвістичної структури як, власне, навчального контенту, так і відповідей студентів, розробити та реалізувати алгоритми їхнього аналізу і порівняння за встановленими критеріями.

Таким чином, розв’язання поставленого завдання передбачає виконання декількох кроків, які мають цілком визначений і лінгвістичний, і системотехнічний смисл, а саме: автоматичну конвертацію відповіді студента природною мовою до внутрішньосистемної репрезентації, екстракцію лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу. Здійснення вказаних кроків ускладнюється тією обставиною, що паралельно необхідно усувати помилки, наявні у вихідному тексті (неправильні закінчення, нестандартні скорочення тощо).

Концептуальну основу роботи складає метод латентно-семантичного аналізу (ЛСА) [Landauer 1997], удосконалений нами в такий спосіб, що на етапі формування частотної матриці індексованих слів застосовано алгоритм нечіткого семантичного порівняння текстової інформації, внаслідок чого індексовані слова (терми) замінено лексичними одиницями із баз даних, які містять перелік слів у всіх відмінках, перелік скорочень і значень абревіатур, словосполучень, перелік ключових слів, котрі використовуються для опису процесів і явищ предметної сфери. Процедуру стемінга замінено лематизацією на основі результатів автоматичного морфологічного аналізу текстів задля забезпечення більш високої якості роботи алгоритму. В цих процесах застосовано алгоритми нечіткого пошуку, а саме – удосконаленого варіанту метрики Левенштейна [Левенштейн 1965] для виправлення некоректних слів. На нашу думку, такий підхід суттєво розширює прикладні можливості методу латентно-семантичного аналізу.

Застосування запропонованої методики аналізу текстів надає можливість виявлення латентних асоціативно-семантичних залежностей у множині документів; часткове зняття омонімії, полісемії та синонімії; виправлення слів, написаних студентом з орфографічними й технічними помилками; врахування синтаксичних відношень; логіку побудови терм у контексті предметної сфери тощо.

Лінгвістична підсистема аналізу текстової текстової відповіді інтелектуальної системи оцінювання знань побудована з використанням моделей штучного інтелекту для порівняння текстової відповіді студента на запитання тесту із еталонними варіантами відповіді.

Не зважаючи на численні дослідження в галузі штучного інтелекту, універсального вирішення більшості прикладних задач обробки текстів досі не існує. Це зумовлено проблемами формалізації природної мови.

У роботі пропонується здійснювати лінгвістичний аналіз тексту на основі використання формалізму нейромереж [Поспєлов 1990]. Як відомо, нейромережу можна навчити проводити порівняння текстової інформації на різних мовах, приблизно так, як це робить її біологічний прототип – мозок людини. В ході внутрішніх прихованих процесів, що відбуваються при роботі нейромережі, проводиться як первинна обробка інформації (морфологічний, синтаксичний аналіз), так і семантичний аналіз. Однак, для забезпечення можливості вирішення таких складних задач, як семантичний аналіз, нейромережа повинна мати достатньо велику місткість. Проблематичною є також процедура навчання, в процесі якої формуються вагові коефіцієнти, які визначають пам’ять нейромережі. Для навчання лише з однієї предметної галузі необхідно побудувати значну кількість фраз, які використовуються в порівнянні. Зазначені фрази повинні містити всі терміни, що використовуються в предметній галузі. В них мають бути висвітлені всі поняття, які необхідно занести до пам’яті нейромережі. Для більш надійного запам’ятовування в порівнянні необхідно підбирати не тільки суттєво різні текстові пари, але й близькі за написанням, проте відмінні за змістом.

Загальна структура нейромережі наведена на рис. 1. Перший, відкритий шар нейромережі представлено двома групами з N нейронів. У цей шар заноситься вхідна інформація. В першу групу нейронів – текст відповіді, який звіряється зі зразком, у другу групу нейронів – сам зразок.

Для первинної обробки інформації в нейромережі використовується шар нейромережі з двох груп з М нейронів. Між нейронами вхідного і першого шару кожної з двох груп встановлено зв’язки. Для підвищення якості первинної обробки (морфологічного, синтаксичного аналізу) можливо до складу нейромережі включити ще один аналогічний шар нейронів.


Рис.1 – Структура нейромережі для порівняння текстової інформації

Основна обробка інформації реалізується в наступному прихованому шарі нейронів 1, ..., К. До кожного нейрона цього шару надходить інформація з кожного нейрона двох груп попереднього шару. З метою нарощування інформаційної потужності нейромережі, покращення можливостей семантичного аналізу, можливо збільшувати число нейронів К у цьому шарі та включати додаткові проміжні шари.

Для отримання результату перевірки використовується останній шар, який складається з одного нейрона. Один з двох його можливих станів відповідає ідентичності двох текстів за змістом; інший стан вказує на те, що тести відрізняютьсяза змістом.

Перевагами використання нейромережі для вирішення задачі порівняння текстів за змістом є універсальність. Незмінна за структурою нейромережа може бути пристосована (навчена) для порівняння текстів різними мовами з різних предметних галузей. Однак суттєвим недоліком є складність навчання. Причому навчання необхідно проводити усіма мовами з усіх предметних галузей, де буде використовуватись нейромережа.

За відсутності апаратної реалізації нейромережу можна змоделювати програмно, що суттєво зменшує її швидкодію. Збільшити швидкість роботи нейромережі можливо за рахунок ефективного використання обчислювальних ресурсів комп’ютера (багатопроцесорності).

Другий напрямок семантичного аналізу – використання алгоритмічного підходу. У його використанні на етапі семантичного опрацювання тексту алгоритмічними засобами проводиться виявлення змісту речень або їх окремих частин. Для визначення семантичних відношень між окремими словами зазвичай використовується тезаурус мови предметної галузі. Природно, що такий тезаурус має враховувати специфіку кожної мови. Проблема створення якісного тезаурусу є однією з основних у використанні алгоритмічного підходу. Хоча зараз існують комерційні продукти, де використовуються тезауруси для різних мов, вони насправді включають лише їх підмножини (англійської, російської, …).

Для вирішення задачі семантичного аналізу в цілому потрібно: розробити методи обробки вихідного тексту і побудови частотного словника; розробити фільтр для селекції слів, специфічних для природної мови в цілому; автоматизувати виділення ключових слів.

Відомі алгоритми виділення ключових слів поділяються на дві групи: міжтекстової фільтрації (базуються на використанні інформації про частотні характеристики в певному наборі текстів) і внутрішньотекстової фільтрації (використовується частотна інформація в межах одного тексту).

Алгоритм виявлення контексту зазвичай має чотири етапи: 1) визначення абсолютної і відносної частот для кожної словоформи; 2) пошук частин тексту, які містять певне слово; 3) визначення абсолютної і відносної частот для визначених у попередньому кроці частин; 4) порівняння відносних частот, визначених у першому і попередньому кроці. Якщо відносна частота, визначена в першому кроці, менша – словоформа відноситься до семантичного поля слова.

У результаті семантичного аналізу будується семантична мережа – структура для представлення знань у вигляді вузлів, пов’язаних дугами (зв’язками). Властивості отриманої семантичної мережі: вузли мережі становлять поняття, предмети, події, стани; дуги семантичних зв’язків створюють відношення між вузлами – поняттями (відношення можуть бути різних типів); певні відношення між вузлами є лінгвістичними, інші – просторовими, часовими, логічними та ін.; поняття організовані за рівнями відповідно до ступеня узагальненості.

Таким чином, у результаті аналізу тексту з нього автоматично видобувається інформація (“знання”) у вигляді мережі основних понять і зв’язків з ваговими коефіцієнтами. Змістовий“портрет” тексту при подальшому порівнянні подається не просто списком ключових слів, а набуває вигляду мережі понять, що в певному сенсі є “відбитком” його змісту. Кожне поняття має певну вагу, яка відображає значимість цього поняття в тексті. Зв’язки між поняттями також мають вагові коефіцієнти.

Порівняння семантичних мереж двох текстів дозволяє провести їх порівняння за змістом. На відміну від відомих підходів, таке порівняння забезпечує більшу достовірність автоматизованої перевірки відповідей, поданих у текстовій формі. Незалежно від побудови речень, наявності додаткових суджень, несуттєвих якісних характеристик, які можуть бути наявні у відповіді, з неї виділяється основний “зміст” у формі семантичної мережі. Аналогічна процедура проводиться зі “зразком” вірної відповіді. Порівняння двох семантичних мереж (тексту відповіді і зразка) дозволяє достовірно оцінити ступінь їх тотожності і в результаті виставити об’єктивну оцінку.

Таким чином, у системі тестування попередній алгоритм порівняння текстів, який ґрунтувався на перевірці наявності ключових слів і порядку їх розташування, був замінений на більш інтелектуальний. Новий алгоритм передбачає для виділення знань побудову семантичної мережі. Порівняння текстів проводиться за семантичними мережами, які їм відповідають. Застосування нового алгоритму дозволило суттєво покращити достовірність перевірки в системі тестування текстової відповіді, поданої в довільній формі. Навіть у випадку суттєвої текстової розбіжності (інший підхід до конструювання речень, використання синонімів до основних понять), але збігу змісту текстів, семантичні мережі, які їм відповідають, є схожими, і новий інтелектуальний алгоритм дозволяє вірно це оцінити.

Апробація розробленої інтелектуальної автоматизованої системи контролю знань із застосуванням моделей штучного інтелекту проводилась у вищих навчальних закладах ІІІ-ІV рівнів акредитації. Основні результати науково-технічної роботи реалізовані в Хмельницькому державному центрі науки, інновацій та інформатизації, Інституті інтелектуальної власності Національного університету “Одеська юридична академія”, Хмельницькому кооперативному, торговельно-економічному інституті, Національній академії ДПС України. Зазначене підтверджується відповідними актами.

За результатами випробовувань Державним комітетом України з питань науки, інновацій та інформатизації складено акт приймання науково-технічної роботи “Розробка інтелектуальної автоматизованої системи контролю знань студентів вищих навчальних закладів”, що виконувалася за договором від 20.07.2009 р. № ІТ/553-2009, у якому запропоновано використовувати результати зазначеної роботи шляхом передачі програмного комплексу та технічної документації до нього провідним навчальним закладам України

Предметом подальших досліджень є розвиток апаратно-програмного комплексу інтелектуальної системи оцінювання знань.

References. 

Аскеров и др. 2008: Аскеров, Э.М., Емелин, М.А., Рудинский, И.Д., Строилов, Н.А. Принципы и технологи создания интегрированной автоматизированной системы контроля знаний [Текст] / Э. М. Аскеров, М. А. Емелин, И. Д. Рудинский, Н. А. Строилов. – КГТУ, 2008. – 54 с.

Бадьоріна 2006: Бадьоріна, Л.М. Метод оцінювання довільних відповідей у комп’ютерних системах тестування знань / Л. М. Бадьоріна // Математичні машини і системи. – 2006. – № 4. – С. 138-144.

Ермаков 2009: Ермаков, А.Е. Извлечение знаний из текста и их обработка : состояние и перспективы / А. Е. Ермаков // "Информационные технологии". – М : Изд. «Новые технологии», 2009. – С. 50-55.

Катеринчук та ін. 2008: Катеринчук, І.С. Інтелектуальна система автоматизованого оцінювання знань у вищих навчальних закладах / І. С. Катеринчук // Звіт про НДР / НАДПСУ, ХДЦНТіЕІ (номер державної реєстрації 0109V005890). – Хмельницький, 2008. – 120 с.

Левенштейн 1965: Левенштейн, В.И. Двоичные коды с исправлением выпадений и вставок символа 1 / В. И. Левенштейн // Проблемы передачи информации. – Т. 1, В. 1. – М., 1965. – С. 12-25.

Поспелов 1990: Поспелов, Д.А. Искусственный интеллект : В 3 кн. Кн. 2. Модели и методы : Справочник / Под ред. Д. А. Поспелова. – М. : Радио и связь, 1990. – 304 с.

Штангей 2009: Штангей, С.В. Моделі і інформаційні технології контролю знань в системі дистанційного навчання : дис. … к. техн. н. : спец. 05.13.06 "Інформаційні технології" / С. В. Штангей ; Харківський національний університет радіоелектроніки. – Харків, 2009.

Landauer, Dumais 1997: Landauer, T.K., Dumais, S.T. A solution to Plato's problem : The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledges [Text] / T. K. Landauer, S. T. Dumais // Psychological Review. – 1997. – 104 (2).– Рр. 211-240.

 

Обґрунтовано моделі штучного інтелекту для порівняння текстової інформації (відповідей на запитання, що подані студентом природною мовою, з варіантами правильних відповідей) інтелектуальної системи лінгвістичного аналізу розгорнутої текстової відповіді.

Ключові слова: алгоритм, аналіз, знання, метод, модель, прагматика, семантика, текст, штучний інтелект.

Available 15 January 2015.