Современные методы выявления фальсификации отчетности |
Современное развитие области выявления фальсификации отчетности основано на использовании методов интеллектуального анализа данных. В статье представлен обзор практики использования этих методов.
Вопросы применения методов интеллектуального анализа данных для выявления фальсификации отчетности активно изучаются учеными и практиками. Предложена1 классификация финансовых мошенничеств, основанная на структуре финансовой преступности Федерального бюро расследований США, которая является одним из лучших бенчмарков в данной области. Обычно выделяют шесть классов приложений интеллектуального анализа данных: классификация, кластеризация, прогнозирование, обнаружение выбросов, регрессия и визуализация, в рамках которых уже выделяются методы интеллектуального анализа данных.
-
Классификация. Модель классификации используется для разделения объектов на разные классы. Она строится на обучающей выборке объектов и затем используется на целевой выборке объектов для определения класса, к которому будет отнесен неизвестный объект. Классы являются предопределенными, дискретными и неупорядоченными. Методы классификации включают нейронные сети, наивный байесовский метод, деревья решений и метод опорных векторов. Классификация является одной из наиболее распространенных моделей обучения при применении интеллектуального анализа данных для обнаружения мошенничества.
-
Кластеризация. Кластеризация используется для разделения объектов на ранее неизвестные концептуально значимые группы (то есть кластеры), причем объекты в кластере похожи друг на друга, но очень отличаются от объектов в других кластерах. Кластеризация также известна как сегментация или разбиение данных и рассматривается как вариант неконтролируемой классификации. Наиболее распространенными методами кластеризации являются метод K-ближайшего соседа, наивный Байесовский классификатор и самоорганизующиеся карты.
-
Прогнозирование. Прогнозирование оценивает числовые и упорядоченные будущие значения на основе шаблонов набора данных. Следует отметить, что для прогнозирования атрибут, для которого прогнозируется его значение, является непрерывным (упорядоченным), а не категориальным (дискретным и неупорядоченным). Этот атрибут называется прогнозируемым атрибутом. Наиболее часто используемыми методами прогнозирования являются нейронные сети и логистическая модель.
-
Выявление аномалий или обнаружение выбросов. Обнаружение выбросов используется для измерения «расстояния» между объектами данных, чтобы обнаружить те объекты, которые существенно отличаются или не соответствуют оставшемуся набору данных2. Данные, которые имеют характеристики, отличные от остальной части данных, называются выбросами. Проблема обнаружения выбросов/аномалий является одной из самых фундаментальных проблем в интеллектуальном анализе данных. Обычно используется метод обучения с подкреплением.
-
Регрессия. Регрессия — это статистическая методология, используемая для выявления взаимосвязи между одной или несколькими независимыми переменными и зависимой переменной (которая непрерывна). Многие эмпирические исследования используют логистическую регрессию в качестве бенчмарка. Обычно используют логистическую и линейную регрессию.
-
Визуализация. Визуализация относится к легко понятному представлению данных и к методологии, которая преобразует сложные характеристики данных в четкие образы, чтобы позволить пользователям увидеть сложные образы или взаимосвязи в данных, обнаруженные в процессе интеллектуального анализа данных. Исследователи используют возможности визуальной системы человека обнаруживать образы, создав набор инструментов и приложений, которые гибко кодируют данные с использованием цвета, положения, размера и других визуальных характеристик. Визуализация лучше всего подходит для предоставления сложных образов посредством четкого представления данных.
Рассмотрим конкретные методы и модели интеллектуального анализа данных.
Модели регрессии. Большинство из них основаны на логистической регрессии, ступенчато-логистической регрессии, методе принятия многокритериальных решений и экспоненциальной обобщенной бета-2. Логистическая модель представляет собой обобщенную линейную модель, которая используется для биномиальной регрессии, в которой переменные предиктора могут быть числовыми или категориальными. Логистическая регрессия позволяет эффективно выявлять фальсифицированные финансовые отчеты. Для этих же целей также использовались методы Probit и Logit. Модели обнаружения мошенничества, основанные на логистической регрессии, широко распространены в литературе, поскольку их точность может достигать 95,1%.
Нейронные сети. Нейронные сети представляют собой нелинейные статистические инструменты моделирования данных, основной идеей которых является использование по аналогии с функциональностью человеческого мозга набора взаимосвязанных узлов. Нейронные сети широко применяются в классификации и кластеризации, поэтому они популярны и при построении систем обнаружения фальсификации отчетности. Гибридные модели, основанные на нечетких нейронных сетях, по своим характеристикам превосходят традиционные статистические модели.
Байесовская сеть. Байесовская сеть — это графовая вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей по Байесу. Байесовские сети превосходят по точности нейронные сети и методы деревьев решений и достигает точности классификации 90,3%.
Деревья решений. Дерево решений — это инструмент поддержки принятия решений с древовидной структурой, где каждый узел представляет тест на атрибут, а каждая ветвь представляет возможные последствия. Таким образом, прогнозирующая модель пытается разделить наблюдения на взаимоисключающие подгруппы и используется для задач интеллектуального анализа данных и машинного обучения. Эти деревья могут быть построены с помощью алгоритмов машинного обучения, таких как ID3, CART и C4.5 (C5.0). Опыт использования деревьев решений для выявления и прогнозирования мошенничества с финансовой отчетностью представлен в 3.
Наивный байесовский классификатор. Наивный байесовский классификатор используется как простой вероятностный классификатор, основанный на байесовском условном правдоподобии.
Метод ближайшего соседа. Метод ближайшего соседа является подходом классификации, основанным на сходстве. Этот метод также известен как метод K-ближайшего соседа.
Нечеткая логика и генетические алгоритмы. Модель нечеткой логики для обнаружения мошенничества была реализована в некоторых исследованиях4, точность модели составила 86,7%. Эта модель была развита5, точность составила 76,7%.
При рассмотрении 6 подхода для выявления мошенничества в финансовой отчетности на основе генетического алгоритма обнаружено, что аномалии являются ценными показателями для характеристики корпоративного финансового поведения, и что анализ этих показателей с течением времени представляет собой эффективный способ выявления потенциально мошеннического поведения.
При выявлении фальсификации отчетности известной популярностью пользуются и экспертные системы.
Перечисленные методы могут быть использованы как самостоятельно, так и в комбинации.
1 Ngai, E.W.T., Hu, Y., Wong, Y. H., Chen, Y., & Sun, X. (2010). The application of data mining techniques in financial fraud detection: A classification framework and an academic review of literature, Decision Support System (2010), doi:10.1016/j.dss.2010.08.006.
2 Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques, Second edition, Morgan Kaufmann Publishers, 2006, pp. 285–464.
3 Bai, B., Yen, J. & Yang. X. (2008). False financial statements: characteristics of China’s listed companies and CART detecting approach, International Journal of Information Technology & Decision Making 7 (2) 339359.
4 Lenard, M. J., & Alam, P. (2004). The use of fuzzy logic and expert reasoning for knowledge management and discovery of financial reporting fraud. In H. Nemati and C. Barko (Eds.), Hershey, PA: Idea Group, Inc.
5 Lenard, M. J., Watkins, A.L., and Alam, P. (2007). Effective use of integrated decision making: An advanced technology model for evaluating fraud in service-based computer and technology firms. The Journal of Emerging Technologies in Accounting 4(1): 123–137.
6 Hoogs, B., Kiehl, T., Lacomb, C., & Senturk, D. (2007). A genetic algorithm approach to detecting temporal patterns indicative of financial statement fraud, Intelligent Systems in Accounting, Finance and Management, 2007, vol. 15: 41–56.
<...>