خلاصة:
جایگاه ایمیل در ارتباطات، با ورود پدیدهای به نام هرزنامه با تهدید جدی مواجه شده است. تاکنون، بهمنظور مقابله با این پدیده، روشهای فراوانی پیشنهاد شده که یکی از مهمترین این روشها، دستهبندی آنها بر اساس محتوا به دو دسته هرزنامه و غیرهرزنامه است. دستهبندی بر اساس محتوا با استفاده از کلمات بهعنوان ویژگی انجام میشود که بهدلیل تعداد زیاد ویژگیها، استفاده از یک سازوکار انتخاب ویژگی کارآمد موضوعی حیاتی به نظر میرسد. بر این اساس، تمرکز روش پیشنهادی در این مقاله روی انتخاب ویژگیهای مفید بوده و یک فرایند انتخاب ویژگی رپر با بهرهگیری از الگوریتم قدرتمند ژنتیک و با همکاری دستهبند بیزین که دارای کارایی بالایی در مسائل دستهبندی متون است، ارائه میشود. روش کار نیز به این صورت است که ابتدا یک بردار ویژگی اولیه ساخته شده، سپس با ضرب کردن آن در یک ماتریس با عنوان ماتریس انتقال، با استفاده از الگوریتم ژنتیک، روی آن عملیات بهینهسازی اعمال شده و در پایان، k بردار ویژگی نهایی ساخته میشوند. عملیات دستهبندی نیز بهصورت جمعی و با اعمال k دستهبند بیزین روی بردارهای ویژگی اعمال شده و از بین آنها رأیگیری انجام میشود. روش پیشنهادی روی دو پایگاه داده اجرا شده که بر اساس نتایج، روش پیشنهادی با مقدار 7 = k دارای نرخ صحت 76/87 و 91/87 در دو پایگاه داده 1PU و 2PU است. همچنین نتایج مقایسه روش پیشنهادی، حاکی از کارآمدی روش پیشنهادی در مقایسه با بیزین پایه و دو دستهبند SVM و KNN است.
The role of email in communication is seriously threatened by a phenomenon called spam. So far, many methods have been proposed to deal with this phenomenon, one of the most important of which is to classify emails based on their content into two categories: spam and non-spam. Content-based classification mechanisms use the words as features, where applying an efficient feature selection mechanism is critical due to the large number of features. Therefore, the main focus of this paper is to select useful features via proposing a wrapper feature selection approach based on a powerful genetic algorithm. We then apply a Bayesian classifier, which has demonstrated a high efficiency in text classification. The main steps of the proposed method is as follows: first, an initial feature vector is chosen, then it is optimized by multiplying the vector in a matrix called the transformation matrix made by the genetic algorithm, and finally, a set of k feature vectors is generated. An ensemble classification approach composed of k Bayesian classifiers is applied to the feature vectors, and the ultimate class label is determined by voting among ensemble members. The proposed method is implemented on two datasets PU1 and PU2. The results show that the classification accuracy of the proposed method with k=7 reaches 87.86 and 87.91 in PU1 and PU2, rspectively. The results also indicate the efficiency of the proposed method compared to naive Bayes and two well-known classifiers SVM and KNN.