خلاصة:
باتوجهبه اینکه بیشتر مسائل دنیای واقعی از ﻗﺒﯿﻞ تشخیص تقلب، شناسایی خطا، ﺗﺸﺨﯿﺺ ﻧﺎﻫﻨﺠﺎری، ﺗﺸﺨﯿﺺ ﭘﺰشکی و تشخیص بدافزار نامتوازن هستند، دستهبندی دادهﻫﺎ در مسائل ﻧﺎمتوازن ﺑﻪ ﻋﻨﻮان یکی از ﭼﺎﻟﺶﻫﺎی اصلی در ﺣﻮزهی دادهﮐﺎوی، ﻣﻮرد ﺗﻮﺟﻪ ﺑﺴﻴﺎری از ﻣﺤﻘﻘﺎن و ﭘﮋوﻫﺶﮔﺮان ﻗﺮارﮔﺮﻓﺘﻪ اﺳﺖ. در یادگیری نامتوازن، ﻣﻌﻤﻮﻻ ﺗﻌﺪاد ﻧﻤﻮﻧﻪﻫﺎی یکی از دستهﻫﺎ ﺧﯿلی ﺑﯿﺸﺘﺮ از ﻧﻤﻮﻧﻪﻫﺎی دسته دیگر اﺳﺖ و یا هزینه دستهبندی اشتباه در دو دسته متفاوت است. شبکههای عصبی کانولووشنال بهرغم موفقیتهای چشمگیری که در دستهبندی دادهها دارند، در مسائل نامتوازن با مشکل مواجه میشوند چرا که آنها بهصورت پیشفرض، ﺗﻮزﯾﻊ دستهﻫﺎ را متوازن و هزینه دستهبندی را مساوی در ﻧﻈﺮ ﮔﺮﻓﺘﻪ میگیرند، ازاینرو در دستهبندی نامتوازن، نمیتوان به ﻧﺘﺎﯾﺞ قابلقبولی دﺳﺖ ﯾﺎﻓﺖ؛ زﯾﺮا شبکه ﺑﻪ ﺳﻤﺖ ﻧﻤﻮﻧﻪﻫﺎی آﻣﻮزشی دسته ﺑﺰرگﺗﺮ ﻣﺘﻤﺎﯾﻞ میﺷﻮد ﮐﻪ اﯾﻦ ﻣﻮﺿﻮع ﺳﺒﺐ اﻓﺰاﯾﺶ ﺗﻌﺪاد ﺧﻄﺎﻫﺎ در تشخیص نمونهﻫﺎی ﻣﺜﺒﺖ میﺷﻮد. یکی از راهکارهای کمهزینه برای غلبه بر نامتوازنی دادهها در شبکههای عصبی کانولوشنال استفاده از تابع ضرر به نفع دسته اقلیت است، در این مقاله تابع ضرری جدیدی معرفی شدهاست که به صورت تدریجی و با پیشرفت آموزش، اهمیت دسته اقلیت را افزایش میدهد تا در انتهای آموزش به مقدار مشخص شده برسد و از اهمیت دادههای دسته اکثریت بکاهد، این امر باعث میشود تا هم بتوانیم از قدرت آموزشی همه دادهها استفاده کنیم و هم از غلبه دادههای دسته اکثریت جلوگیری کنیم. نتایج آزمایش روی سه مجموعهدادهی مصنوعی، تشخیص فعالیتهای انسان و cifar-10، همگرایی و کارایی روش پیشنهادی را نشان میدهند، روش پیشنهادی با روشهای آدابوست مبتنی بر درخت تصمیم، شبکه کانولوشنال مبتنی بر آنتروپی متقابل و آنتروپی متقابل وزندار، روش SMOTE و روش CNN تجمعی مقایسه شده است. به ترتیب باکسب دقت 6/94، 92/92 و 23/69 در سه مجموعهداده (Cifar-10 با نرخ نامتوازنی 5 درصد) توانست از دیگر روشها پیشی بگیرد. و دقت در مجموعهداده مصنوعی نسبت به روش سنتی آدابوست مبتنی درخت تصمیم، 72/17 بالاتر است.
Class-imbalanced datasets are common in many real-world domains, such as health, banking, and security. Machine learning researchers have recently focused on the classification of such datasets, where the costs of different types of misclassifications are unequal, the classes have different prior probabilities, or both. The performance of most standard classifier learning algorithms is significantly affected by class imbalance, where the algorithms are often biased toward the majority class instances despite recent advances in deep learning. However, there is very little empirical work on deep learning with class imbalance.To address this issue, we propose an incremental weighted cross entropy loss function. The proposed method involves gradually increasing the weight of the minority class as the training progresses, until it reaches the specified amount at the end of the training. Through experiments, we demonstrate the convergence and efficiency of the proposed method. The results of experiments on three datasets, including artificial datasets, human activity recognition dataset, and CIFAR-10, demonstrate the convergence and performance of the proposed method. The proposed method is compared with decision tree-based AdaBoost, Cross Entropy-based convolutional neural network, weighted Cross Entropy -based CNN, SMOTE method, and ensemble CNNs method. With accuracy gains of 94.6%, 92.92%, and 69.23% on the three datasets (CIFAR-10 with 5% imbalance rate), the proposed method outperformed the other methods. Additionally, the accuracy on the artificial dataset was 17.77% higher than the traditional decision tree-based AdaBoost method.