چکیده:
مقوله امنیت در شرایط جدید جهانی ابعاد متفاوتی پیدا کرده است. یکی از حوزه های امنیتی که در شرایط جدید جهانی بسیار مورد اهمیت قرار گرفته است، حوزه امنیت سایبری است. در این تحقیق برای مطالعه بر روی حملات ناشناخته دو هانی نت آزمایشگاهی مجازی در دو مکان مختلف طراحی شده و همچنین از سایر مجموعه داده های علمی استفاده گردیده است. در داده های شبکه ای، مشکل داده های نامتوازن اغلب اتفاق می افتد و موجب کاهش کارایی در پیش بینی برای رده هایی که در اقلیت هستند، می گردد. در این مقاله برای حل این مشکل، از روش های یادگیری جمعی استفاده گردیده است تا بتوان مدلی خودکار ارائه نمود که با استفاده از فنون مختلف و با استفاده از یادگیری مدل، حملات شبکه به ویژه حملات ناشناخته را شناسایی نماید. روش های جمعی، بسیار مناسب برای توصیف مشکلات امنیتی رایانه ای می باشند زیرا هر فعالیتی که در سیستم های رایانه ای انجام می گیرد را می توان در سطوح چند انتزاعی مشاهده کرد و اطلاعات مرتبط را می توان از منابع اطلاعاتی چندگانه جمع آوری نمود. روش تحقیق بر اساس تحلیل های آماری جهت برسی میزان صحت و درستی نتایج و میزان اتکاپذیری آن ها صورت گرفته است. در این مرحله به کمک فنون و آزمایش های آماری نشان داده شده که عملکرد الگوریتم طراحی شده با رای گیری وزنی پیشنهادی بر اساس الگوریتم ژنتیک نسبت به دوازده طبقه بند دیگر بهتر می باشد.
خلاصه ماشینی:
حال فرض کنید پارامترهای استفاده شده در روابطی که در ادامه تشریح خواهند شد بهصورت زیر باشند: n: تعداد ردهبندها c: تعداد ردهها m: تعداد دادهها فرض کنید بهعنوان یک متغیر واسط جهت تبدیل کروموزم به ماتریس تصمیم در نظر گرفته شود که از رابطه (1) محاسبه میشود (در این رابطه ℎ کروموزوم k-ام را نشان میدهد): (1) وزن از رابطه (2) محاسبه میشود (بردار وزنی است): (2) مقدار برازش یک کروموزم در روش پیشنهادی از رابطه زیر بهدست میآید: (3) در رابطه (3) ( ) ترانهاده دادههای متعلق به هر رده میباشد که در این رابطه اگر متعلق به باشد مقدار 1 و در غیر اینصورت مقدار 0 را میدهد ( ) یعنی خروجی ردهبند iام بر روی داده jام.
به این ترتیب، دقت تعریف میشود: (رجوع شود به تصویر صفحه) بعد از بهدست آوردن بهترین نمونه از طریق الگوریتم ژنتیک یعنی، وزن بهینه نویسندگان این مقاله دستهبندیکننده جمعی را برای دستهبندی مجموعه دادههای آزمایش تولید مینمایند.
(رجوع شود به تصویر صفحه) 7- تجزیه و تحلیل دادهها و مقایسه روشها نتایج حاصل از سه مجموعه داده DARPA99، هانیپات (RealTraffic) و NSL-KDD برای الگوریتم پیشنهادی و دوازده روش دیگر مورد ارزیابی و مقایسه قرار گرفته است.
با توجه به نامتوازن بودن دادهها و همچنین مشکلاتی که در زمینه وزندهی بهوجود میآمد، قابلیت شناسایی جریانهای ناشناخته توسط مدل یادگیری جمعی بر اساس رأیگیری وزنی پیشنهادی مبتنی بر الگوریتم ژنتیک بهعنوان راهحل مناسب و کارا با دقت بالا عمل نمود که یکی از بهترین انتخابها در این زمینه نسبت به روشهای دیگر میباشد.