ВЕКТОРИЗАЦІЯ ФОРМАЛЬНИХ ГРАМАТИК ДЛЯ ЇХ КЛАСТЕРИЗАЦІЇ ЗАСОБАМИ ML.NET

Ключові слова: формальна граматика, токен, векторизація, вхідна мова, граматичне правило, ML.NET, TF-IDF, кластеризація, K-Means

Анотація

Формальні граматики широко використовуються в компіляторах, методах обробки природних мов, аналізі коду та тестуванні програм. Застосування методів машинного навчання до граматик відкриває нові можливості для автоматизованого аналізу, класифікації, кластеризації та оптимізації мовних моделей.Для застосування методів кластерного аналізу потрібно «розмітити» набори даних, тобто перетворити правила граматики на числову форму. Застосовується автоматизований підхід для аналізу формальних граматик засобами ML.NET, зокрема метод векторизації TF-IDF, заснований на «зважуванні» граматичних символів і виявленні їх унікальності та впливу на контекст правил та мови, яку генерує формальна граматика. Результати векторизації граматик використано для їх кластеризації методом K-Means, доступним у ML.NET. Такий підхід забезпечить автоматизоване керування продукціями граматик та їх оптимізацію.

Посилання

1. Aho A., Sethi R., Ullman J. Compilers: principles, technicques and tools. Addison-Wesley: Reading, MA, 1986.
2. Jurafsky D., Martin J.H. Speech and Language Processing. 2025. URL: https://web.stanford.edu/~jurafsky/slp3/ (дата звернення: 10.05.2025).
3. Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge University Press. 2008. URL: https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf (дата звернення: 10.05.2025).
4. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. URL: https://www.sas.upenn.edu/~fdiebold/NoHesitations/BookAdvanced.pdf (дата звернення: 02.05.2025).
5. Офіційна документація ML.NET. URL: https://learn.microsoft.com/en-us/dotnet/api/microsoft.ml.transforms?view=ml-dotnet-preview (дата звернення: 07.05.2025).
6. Alon U., Zilberstein M., Levy O., Yahav E. code2vec: Learning Distributed Representations of Code (POPL 2019). URL: https://arxiv.org/abs/1803.09473?utm_source=chatgpt.com (дата звернення: 15.08.2025).
Опубліковано
2025-11-25
Як цитувати
Скрипник, І. А., & Безверхий, А. І. (2025). ВЕКТОРИЗАЦІЯ ФОРМАЛЬНИХ ГРАМАТИК ДЛЯ ЇХ КЛАСТЕРИЗАЦІЇ ЗАСОБАМИ ML.NET. Праці Таврійського державного агротехнологічного університету, 26(3), 94-99. https://doi.org/10.32782/2078-0877-2025-25-3-12