ПОТЕНЦІАЛ ПЕРЕВІРКИ АВТОРСТВА ТЕКСТУ ЗА ДОПОМОГОЮ АВТОМАТИЧНОГО СИНТАКСИЧНОГО АНАЛІЗУ
DOI:
https://doi.org/10.35433/philology.1(104).2025.126-133Ключові слова:
автоматичний синтаксичний аналіз, синтаксичний підпис, верифікація авторства, динаміка синтаксисуАнотація
У статті описано потенціал застосування автоматичного синтаксичного аналізу для перевірки авторства текстів, зокрема в освітніх установах. Основну увагу зосереджено на створенні інструменту під проєктоною назвою AVASA для виявлення унікального синтаксичного підпису людини – "мовного відбитка", сформованого структурою речень, вибором слів і використанням пунктуації. Мета полягає в тому, щоб переконатися, що студенти подають оригінальні роботи, незалежно від вмісту, створеного штучним інтелектом, або плагіату, а також відстежувати динаміку їх синтаксичного стилю.
У статті описано наявні інструменти визначення авторства, які аналізують такі характеристики, як довжина речень, структура пропозиції та використання службових слів, щоб визначати авторів. Однак ці інструменти зазвичай зосереджені на статичних профілях для криміналістичних або культурних цілей, тоді як запропонований інструмент призначений для обробки динамічного характеру письмового тексту студентів, який розвивається протягом їхнього навчання.
Ключові кроки в інструменті перевірки авторства вміщують збір даних, виділення ознак і створення вимірного синтаксичного профілю. Система починає зі збору різноманітних зразків тексту від учня, які аналізують, щоб виділити такі характеристики, як довжина речення, складність, час дієслова та шаблони пунктуації. Ці функції кількісно оцінюють та порівнюють із майбутніми матеріалами для динамічного оновлення профілю студента. Якщо новий текст значно відрізняється від профілю, він позначається як підозрілий, потенційно вказуючи на плагіат, використання штучного інтелекту або написання із залученням сторонньої допомоги.
Динамічний характер системи гарантує, що вона адаптується до розвитку навичок письма в учнів із часом, надаючи вчителям об’єктивні дані про мовний прогрес. AVASA також передбачає підтримку багатоавторських проєктів шляхом сегментації документів і приписування розділів окремим учасникам на основі їхніх синтаксичних профілів. Проблеми містять забезпечення точності першого подання, визначення порогових значень для синтаксичних відхилень та обробку різноманітних стилів письма. Незважаючи на ці проблеми, AVASA обіцяє покращити перевірку авторства в освітніх і ненавчальних умовах.
Посилання
Halvani, O., Winter, C., Graner L. (2019). Assessing the Applicability of Authorship Verification Methods / The 14th International Conference on Availability, Reliability and Security (ARES 2019). [Online source]. URL: https://arxiv.org/abs/1906.10551 (reference date: 21.01.2025). [in English].
Hyryn, O. (2018). Principal Problems of Natural Language Processing Systems. Studia Philologica. Iss. 11. Pp. 35–38. [in English].
Kestemont, M. (2014). Function Words in Authorship Attribution. From Black Magic to Theory? / Proceedings of the 3rd Workshop on Computational Linguistics for Literature (CLFL). Pp. 59–66. [in English].
Ramnial, H., Panchoo, S., Pudaruth, S. (2016). Authorship Attribution Using Stylometry and Machine Learning Techniques. Intelligent Systems Technologies and Applications / S. Berretti et al. (eds.). Vol. 1. Springer International Publishing Switzerland. Pp. 113-125. [in English].
Shastry, U. R. (2019). Linguistic Finger-printing in authorship identification. Journal of Emerging Technologies and Innovative Research. Volume 6. Issue 3. Pp. 527–530. [in English].
Varela, P, Justino, E., Soares de Oliveira, L. (2011). Selecting syntactic attributes for authorship attribution. Proceedings of International Joint Conference on Neural Networks. San Jose, California, USA, July 31 – August 5. Pp. 167–172. [in English].