Abstract:
عدم ارائه اظهارنامههای مالیاتی دقیق توسط مودیان مالیات بر ارزش افزوده از مشکلات سازمان مالیاتی کشور است. تعداد زیاد اظهارنامهها، محدودیت منابع و مقرون به صرفهنبودن بررسی تمامی آنها، توسعه روشی هوشمند جهت شناسایی مودیان با ریسک بالا در کماظهاری مالیات را ضروری مینماید. در این مقاله، بر اساس نظرات ممیزین مالیاتی، دادههای هجده متغیر بالقوه موثر بر شناسایی کماظهاری مالیات بر ارزش افزوده در یکی از مناطق تهران به همراه نتایج ممیزی آنها جمعآوری شده است. روشهای فیتلری و روش الگوریتم ژنتیک تعداد متغیرهای موثر را به ترتیب ده و هفت متغیر شناسایی کردهاند. دو روش پایه ردهبندی «درخت تصمیم» و «k نزدیکترین همسایگی» براساس دو نوع متغیرهای موثر (روشهای فیلتری و الگوریتم ژنتیک) برای شناسایی کماظهاری توسعه داده شده و برای توازن دادهها دو روش جمعی «بگینگ» و «بوستینگ» استفاده شده است. بررسی دقت پیشبینی در دوازده مدل پیشبینی (درخت تصمیم و K نزدیکترین همسایگی با دو گروه متغیر مستقل و در سه حالت عادی، «بگینگ» و «بوستینگ») نشان میدهد، روشهای جمعی «بگینگ» و «بوستینگ» تاثیری بر پیشبینی ندارند و درخت تصمیم ساده با ده متغیر منتخب با روشهای فیلتری بیشترین دقت پیشبینی و معادل ۱۴/82% را برای تشخیص مودیان کماظهار دارد. استخراج قوانین مناسب برای تشخیص مودیان کماظهار بر اساس ده متغیر موثر بر پیشبینی آنها از دیگر نتایج این مقاله است.
The tax evasion is a constant concern for the tax administrations, especially in developing countries. Due to the large number of Value Added Tax (VAT) returns and resource constraints or their unaffordable investigation, it is necessary to develop a mechanism to identify dishonest taxpayers on the basis of historical data in large databases in this area. In this research via a survey approach, eighteen variables that potentially affecting the identification of unreal statements are identified and using some data provided from VAT returns and performance, their impact on the detection of tax fraud are investigated. After preprocessing of the data based on filtering techniques, ten influential factors in predicting the tax records are set. Genetic Algorithm is reduced the potential independent variables to seven influential variables. The variable for the status of the tax records in terms of fraud is defined and to predict their situation, the prediction model with a decision tree approach, which is a data mining method, is developed. Implementations based on decision tree and ensemble methods of Bagging and Boosting on observations indicate that the decision tree and ensemble Bagging and Boosting methods which using ten predictive factors, have the ability to predict the status of the records with the accuracy of 82.14 percent. A set of rule in order to preprocess the record is identified that can identify potential fraud before it is reviewed by the tax auditors.
Machine summary:
در این مقاله ، بر اساس نظرات ممیزین مالیاتی، داده های هجده متغیر بالقوه مؤثر بر شناسایی کم اظهاری مالیات بر ارزش افزوده در یکی از مناطق تهران به همراه نتایج ممیزی آن ها جمع آوری شده است .
Rule-based ویژگیهای کسب و کار آن ها، داده های خود اظهاری و عملکردی و نتیجه بررسی آن ها توسط ممیزین ، منبع مناسبی برای پردازش اطلاعات و کشف دانش در مورد تقلّب در اظهارنامه های مالیات بر ارزش افزوده فراهم نموده است و همچنین توسعه استفاده از صندوق های مکانیزه فروش نیز در آینده ، اطلاعات با ارزشی را در این زمینه در اختیار سازمان امور مالیاتی کشور قرار خواهد داد.
با توجه به اهمیت مسئله کشف تقلّب مالیاتی و داشتن داده های مربوط به پرونده های بررسی شده ، هدف این پژوهش شناسایی مؤلفه های مؤثر بر کشف کم اظهاری مالیاتی و ارائه مدلی جهت پیش بینی مؤدیان بالقوه کم اظهار و انتخاب اظهارنامه غیر واقعی جهت رسیدگی است .
بررسی پیشینه تحقیق در داخل و خارج از کشور نشان میدهد مطالعه محدودی پیرامون توسعه روش هایی برای کشف تقلّب یا فرار مالیاتی به خصوص تحلیل داده های مالیات بر ارزش افزوده در ایران انجام شده و استفاده از روش های دیگر داده کاوی مانند رده بندی جمعی ١ شامل رویکردهای «بگینگ »٢ و «بوستینگ »٣ به منظور افزایش دقت مدل سازی به دلیل عدم توازن در تعداد افراد کم اظهار در مقابل گروه دیگر، میتواند خلأ تحقیقاتی داخل و خارج از کشور باشد.