تشخیص حملات سایبری پیشرفته با استفاده از مدل سازی رفتاری مبتنی بر پردازش زبان طبیعی مقاله

نویسنده: دادش‌تبار احمدی، کوروش ؛ خیر خواه، مرجان ؛ جبار رشیدی، علی ؛

پدافند الکترونیکی و سایبری پاییز 1397، سال ششم - شماره 3 رتبه ج (وزارت علوم/ISC (‎11 صفحه - از 141 تا 151 )

کلیدواژه ها: رفتار حملات سایبری پردازش زبان طبیعی ادغام داده حملات ماندگار پیشرفته

چکیده:

رشته حملات پیچیده و ماندگار نفوذ به شبکه از مراحل نامحسوس و مخفی متعددی تشکیل ‌شده‌اند. یکی از دلایل ناکارآمدی سامانههای تشخیص نفوذ در برابر این حملات، استفاده از سازوکار دفاعی مبتنی بر آنالیز ترافیک شبکه‌ای سطح پایین است که در آن به روابط پنهان بین هشدارها توجه نمی‌شود. فرض ما این است که اطلاعات ساختاری پنهان در داده‌های ترافیکی وجود دارند و ما می‌خواهیم در ترافیک شبکه‌ای قواعدی مانند قواعد زبان تعریف کنیم و آنرا برای توصیف الگوهای فعالیت‌های شبکه‌ای بدخواهانه بهکار بگیریم. به این وسیله میتوانیم مسئله کشف الگوهای سوء استفاده و ناهنجاری را همانند مسئله یادگیری ساختارهای نحوی و قطعات مفهومی "زبان شبکه" حل کنیم. در این مقاله برای مدل‌سازی در مرحله تولید دنباله‌ها برای اولین بار در حوزه سایبری از یک خوشه‌بندی جدید به‌عنوان خوشه‌بندی MD_DBSCAN که یکی از انواع بهبودیافته خوشه‌بندی DBSCAN است، استفاده‌ شده است. علاوهبر این، از یک الگوریتم حریصانه با الهام از القاء گرامر در پردازش زبان طبیعی استفاده‌ شده تا با ادغام فعالیت‌های سطح پایین بتوانیم فعالیت‌های سطح بالا را کشف کنیم و روابط بین فعالیت‌های سطوح مختلف را تعریف کنیم. در بخشی از الگوریتم پیشنهادی برای کشف فعالیت‌های سطح بالا، برای اولین بار معیار شباهت ویرایش در خوشه‌بندی سلسله مراتبی به معیارهای موجود در الگوریتم پایه اضافه ‌شده است. نتایج نشان می‌دهد دقت تشخیص در فعالیت‌های سطح بالا نسبت به فعالیت‌های سطح پایین با توجه به نمودار ROC حدود 30 % بیشتر است. همچنین، با تنظیم بهترین حد آستانه در الگوریتم تشخیص حملات، با درنظرگرفتن معیار F1 ، برای لغات سطوح یک تا سه به ترتیب به نتایج 3/72 و 2/96 و 4/96 در پنجره پیش‌بینی با اندازه سه رسیده‌ایم که به‌طورکلی حدود 2/. نسبت به الگوریتم پایه بهبود نشان می‌دهد.

خلاصه ماشینی:

علاوه‌بر این، از یک الگوریتم حریصانه با الهام از القاء گرامر در پردازش زبان طبیعی استفاده‌ شده تا با ادغام فعالیت‌های سطح پایین بتوانیم فعالیت‌های سطح بالا را کشف کنیم و روابط بین فعالیت‌های سطوح مختلف را تعریف کنیم. روش ارائه‌شده برای تشخیص الگوهای رفتاری در این تحقیق به ‌مانند روش‌هایی که در تحقیقات Debar و Sperotto و همکاران بوده عمدتا از روش‌های سنتی یعنی کشف فعالیت‌های سطح پایین استفاده می‌کنند [3-2]. Peng و همکاران از روش‌های مبتنی بر زبان برای کشف فعالیت‌های سطح بالای انسانی در یک بازی پینگ‌پنگ استفاده‌ کرده و نتایج آن‌را با استفاده از روش مدل مخفی مارکف مقایسه کرده اند [12]. )شکل (1): رویکرد مبتنی بر زبان در یادگیری بدون نظارت براساس القاء گرامر G با توجه به مطالب بیان‌شده، درصورتی‌که بخواهیم الگوریتم تشخیص رفتار خاص حملات سایبری را ارائه دهیم از روابط و تعاریفی که در ادامه آمده است، استفاده می‌کنیم: فرض می‌کنیم سری‌های زمانی ترافیک شبکه‌ای به‌صورت S={S1,…,SN} به طول N باشند. این تجمیع ɵ سپس در یک الگوریتم خوشه‌بندی لینک کامل<FootNote No="255" Text="- Complete Link Algorithm"/> استفاده می‌شود که در آن یک لینک بین دو فعالیت وجود دارد تنها اگر ɵ شباهت آن‌ها بزرگ‌تر از آستانه tɵ باشد. مرحله چهارم: کشف &amp;quot;نشانه‌های شروع رفتار&amp;quot;<FootNote No="257" Text="- Trigger"/> وقتی گرامر ترافیک شبکه القاء گردید، می‌توان از قواعد گرامری برای تجزیه<FootNote No="258" Text="- Parse"/> دنباله‌های ردیابی شبکه استفاده کرد و در سطوح مختلف در طول دنباله ردیابی با استفاده از الگوریتم‌های تجزیه، همه ساختارهای معتبر زیردرخت تجزیه را به‌دست آورد که در پردازش زبان طبیعی (NLP) به‌عنوان سازندگان<FootNote No="259" Text="- Constituents"/> نامیده می‌شوند.