ВЕКТОРИЗАЦІЯ ФОРМАЛЬНИХ ГРАМАТИК ДЛЯ ЇХ КЛАСТЕРИЗАЦІЇ ЗАСОБАМИ ML.NET
Анотація
Формальні граматики широко використовуються в компіляторах, методах обробки природних мов, аналізі коду та тестуванні програм. Застосування методів машинного навчання до граматик відкриває нові можливості для автоматизованого аналізу, класифікації, кластеризації та оптимізації мовних моделей.Для застосування методів кластерного аналізу потрібно «розмітити» набори даних, тобто перетворити правила граматики на числову форму. Застосовується автоматизований підхід для аналізу формальних граматик засобами ML.NET, зокрема метод векторизації TF-IDF, заснований на «зважуванні» граматичних символів і виявленні їх унікальності та впливу на контекст правил та мови, яку генерує формальна граматика. Результати векторизації граматик використано для їх кластеризації методом K-Means, доступним у ML.NET. Такий підхід забезпечить автоматизоване керування продукціями граматик та їх оптимізацію.
Посилання
2. Jurafsky D., Martin J.H. Speech and Language Processing. 2025. URL: https://web.stanford.edu/~jurafsky/slp3/ (дата звернення: 10.05.2025).
3. Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge University Press. 2008. URL: https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf (дата звернення: 10.05.2025).
4. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. URL: https://www.sas.upenn.edu/~fdiebold/NoHesitations/BookAdvanced.pdf (дата звернення: 02.05.2025).
5. Офіційна документація ML.NET. URL: https://learn.microsoft.com/en-us/dotnet/api/microsoft.ml.transforms?view=ml-dotnet-preview (дата звернення: 07.05.2025).
6. Alon U., Zilberstein M., Levy O., Yahav E. code2vec: Learning Distributed Representations of Code (POPL 2019). URL: https://arxiv.org/abs/1803.09473?utm_source=chatgpt.com (дата звернення: 15.08.2025).

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.

