ВЕЛИКІ МОВНІ МОДЕЛІ В АНАЛІЗІ ФІНАНСОВОЇ ЗВІТНОСТІ: СИСТЕМАТИЧНИЙ ОГЛЯД ОСТАННІХ ДОСЯГНЕНЬ, ПРАКТИЧНИХ АСПЕКТІВ ТА НАПРЯМІВ МАЙБУТНІХ ДОСЛІДЖЕНЬ
Анотація
Цей систематичний огляд літератури досліджує, як великі мовні моделі (LLM) трансформують аналіз фінансової звітності, інтегруючи текстові та кількісні дані. Огляд охоплює публікації з 2017 року до сьогодні, зокрема рецензовані статті, робочі документи та матеріали конференцій із провідних баз даних (Scopus, Web of Science, SSRN, Google Scholar). Виявлено чотири основні сфери, де LLM показали найбільший потенціал: виявлення ризиків і шахрайства, підсумовування наративів і аналіз настроїв, звітність з екологічних, соціальних та управлінських (ESG) аспектів та сталого розвитку, а також інтеграція текстових розкриттів із традиційними бухгалтерськими показниками. Ці моделі – від загальних трансформерів (наприклад, GPT, BERT) до спеціалізованих фінансових варіантів (наприклад, FinBERT) – часто перевершують попередні підходи машинного навчання в завданнях, що вимагають нюансованого лінгвістичного розуміння, але стикаються з проблемами адаптації до специфічних доменів, інтерпретованості та потенційних упереджень моделей. Аналіз існуючих досліджень показує зростаючий тренд використання доменно-специфічних LLM, здатних обробляти як неструктуровані текстові дані (наприклад, річні звіти, примітки), так і структуровані фінансові дані, що забезпечує більш глибокі інсайти для аудиторів, аналітиків та інвесторів. Однак емпіричні результати виявляють критичні проблеми, пов’язані з доступністю даних, відтворюваністю результатів і відповідністю регуляторним вимогам. У статті запропоновані напрямки для майбутніх досліджень, зокрема розробка стандартизованих фінансових корпусів для тренування стійких LLM, вдосконалення інструментів для пояснення результатів, що підходять для прийняття важливих рішень, а також вивчення етичних та управлінських рамок для зменшення ризиків алгоритмічних упереджень. Загалом, цей огляд підкреслює трансформаційний потенціал LLM у сфері бухгалтерії та фінансів, попереджаючи про необхідність обережного використання таких моделей у чутливих сферах.
Посилання
Li, F. (2010). The information content of forward-looking statements in corporate filings – A Naïve Bayesian machine learning approach. Journal of Accounting Research, no. 48(5), pp. 1049–1102.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL).
Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is all you need. In Advances in Neural Information Processing Systems, pp. 5998–6008.
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding with unsupervised learning. OpenAI Technical Report.
Radford, A., Wu, J., Child, R., et al. (2019). Language models are unsupervised multitask learners. OpenAI Technical Report.
Araci, D. (2019). FinBERT: Financial sentiment analysis with pre-trained language models. arXiv preprint arXiv-1908.
Nguyen, T., Miller, S., & Humphrey, C. (2022). Detecting material misstatements in 10-K filings using FinBERT. Auditing: A Journal of Practice & Theory, no. 41(4), pp. 103–125.
Liang, J., Chen, L., & Li, R. (2022). Transformer-based summarization of corporate annual reports. Expert Systems with Applications, no. 201.
Khan, A., Zhao, Y., & Xu, B. (2023). ESG disclosure analysis with transformer-based NLP. Journal of Sustainable Finance & Investment, no. 12(3), pp. 233–247.
BehnamGhader, P., Adlakha, V., Mosbach, M., Bahdanau, D., Chapados, N., & Reddy, S. (2024). LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders. arXiv-2404.
Molnar, C. (2019). Interpretable Machine Learning. Lulu.com.