ВИЗНАЧЕННЯ МОРФОЛОГІЧНОГО КЛАСУ СЛОВА ПІД ЧАС АВТОМАТИЧНОЇ ОБРОБКИ ПРИРОДНОЇ МОВИ
DOI:
https://doi.org/10.35433/philology.1(99).2023.75-82Ключові слова:
автоматичний синтаксичний аналіз, морфологічний аналіз, тегування, лематизація, стемінг, парсингАнотація
У статті розглянуто обов’язкову складову лінгвістичного забезпечення будь-якої системи автоматичної обробки природної мови – автоматичний морфологічний аналіз, до завдань якого входять: визначення для кожної одиниці тексту місця вморфологічній системі відповідної мови, ідентифікація словоформ однієї лексеми.
Унаслідок автоматичного морфологічного аналізу кожній словоформі тексту приписується код частини мови та значення граматичних категорій (рід, число, відмінок, вид, час, особа тощо). Характер цієї інформації, обсяг її й методи, за допомогою яких установлюють морфологічну інформацію, залежать від мети дослідження, у межах якого здійснюється автоматичний аналіз, від орієнтації на характер аналізованих текстів. Морфологічний аналіз наявний на всіх етапах аналізу тексту, тому що ані морфемний, ані синтаксичний, ані семантичний аналізи не можуть обійтися без визначення частин мови. У процесі автоматичного синтаксичного аналізу лише за наявності лексико-граматичної та граматичної інформації до кожної словоформи можна синтаксично прив’язати словоформи в реченні.
Морфологічні ознаки одиниць тексту далі стають інструментом дослідження зв’язку між лексикою та граматикою із їх використанням у мовленні, між парадигматикою (в аспекті розгляду відмінкових форм відмінюваних слів) і синтагматикою (в аспекті лінійних зв’язків слів, сполучуваності в тексті). У статті розглянуто труднощі, що заважають уніфікувати процес тегування одиниць тексту, а саме лексико-граматична омонімія, неоднозначність граматичних форм, полісемія.
У статті проаналізовано підходи до вирішення морфологічної неоднозначності, засновані на аналізі контексту неоднозначного слова, які поділяють на статистичні й такі, що визначаються правилами (rulebased). Правила можуть складатися вручну або виводитися з розмічених корпусів. Статистичні методи ґрунтуються на кількісних показниках у великих розмічених корпусах. Методи вирішення морфологічної неоднозначності застосовуються зазвичай після первинного тегування, що виконується, як правило, за допомогою словників.
У статті також наведено алгоритм морфемного аналізу для здійснення автоматичного морфологічного аналізу.
Посилання
British National Corsup URL: https://www.english-corpora.org/ (reference date: 25.01.2023)
Brown corpus: Corpus of American English. URL: https://www.sketchengine.eu/brown-corpus/ (reference date: 05.02.2023)
Chomsky, N. Formal properties of grammars. Wiley: Handbook of Mathematical Psychology, 1963. 2, Ch. 12. Р. 323–418. [in English].
Сhоmskу, N., Miller, G.A. Introduction to the formal analysis of natural languages. Wiley: Handbook of Mathemati-Mathematical Psychology, 1963. 2, Ch. 12. Р. 269–322. [in English].
Jurafsky, D., Martin, J. H. Speech and Language Processing: An introduction to speech recognition, computational linguistics and natural language processing. Prentice Hall, 2006.
Jurafsky, D. From Languages to Information. Stanford, 2020. [in English]. URL: https://web.stanford.edu/class/cs124/lec/Information_Extraction_and_Named_Entity_Recognition.pdf. (reference date: 25.01.2023)
Jurafsky, D. Speech and Language Processing. Prentice Hall, 2008. 1044 p. [in English].
Kupiec, J. Robust part-of-speech tagging using a hidden markov model. Computer Speech & Language, 1992. Vol. 6, no. 3. P. 225–242. [in English].
Natural Language Processing (NLP) IBM Cloud Education, 2020. [in English]. URL: https://www.ibm.com/cloud/learn/natural-language- processing?mhsrc=ibmsearch_a&mhq=nlp (reference date: 25.01.2023)
Nivre, J., Hall, J., Nilsson, J. Maltparser: A language-independent system for data-driven dependency parsing. Natural Language Engineering, 2007. 13:95. Р. 135. [in English].
Penn treebank. URL: https://catalog.ldc.upenn.edu/LDC99T42 (reference date: 05.02.2023)