خلاصة:
موتورهای جستجو را میتوان بهترین ابزار کارآمد برای مدیریت، بازیابی و استخراج اطلاعات مهم از مجموعه عظیم دادههای وب معرفی کرد. این موتورها پهنه وسیع وب را بهطور زمانبندیشده پیمایش میکنند و به جمعآوری صفحات بیشمار ذخیرهشده در گوشه کنار وب میپردازند. ارائهدهندگان موتورهای جستجو همواره به دنبال بهبود ارتباط نتایج و کاهش زمان پاسخ به کاربران هستند، اما هر دو این موارد میتواند تحت تاثیر ترافیک خودکار ارسالشده از سوی رباتها قرار گیرد. در این مقاله ابتدا به تعریف رباتها و چالش تشخیص آنها پرداخته شده است. سپس، روشی با نام بوف برای تشخیص رباتهای جستجو ارائه شده است. در روش بوف برای دستیابی به دقتی بالا در تشخیص رباتهای ناهنجار، از پارامترهای مختلف و نسبتا زیادی برای مدلکردن رفتار کاربران استفاده شده است. پس از تعیین اولویت پارامترها در تشخیص ماهیت کاربران، درخت تصمیمی ساخته شده و اقدام به دستهبندی کاربران در گروه-های انسان، ربات مخرب، ربات مجاز و نامشخص میکند. رباتهای تشخیص دادهشده در درخت تصمیم، بخش دیگری از سامانه تشخیص ربات را فعال میکند که قادر است با توجه به الگوی رفتاری شبکههای رباتی، حتی رباتهایی با نرخ درخواست پایین را نیز شناسایی کند. ارزیابی روش پیشنهادی بر روی دادهای آزمون، صحت 97/7درصدی را در تشخیص ماهیت کاربران نشان میدهد که حداقل بهبود دقت 9/9 درصدی را نسبت به روشهای بررسیشده در این حوزه نشان میدهد. رقم قابل توجهی که در هر روز تصمیمگیری در مورد 2230 کاربر را تحت تاثیر قرار میدهد.
ملخص الجهاز:
"تحقیقات انجامشده توسط Zhang و همکاران [8] نشان میدهد که حداقل 16/4 % از کاربران موتورهای جستجو را رباتها تشکیل میدهند و همچنین قابل ذکر است که حدود 33 % از ترافیک خودکار ارسالشده توسط آنها با هدف آسیبزدن به سامانه و 11 % نیز بهمنظور دستیابی به اطلاعات حساب سایر کاربران ارسال شدهاند.
در این روش ابتدا رباتهایی که در یک جلسه کاربری رفتار ناهنجاری را از خود نشان میدهند شناسایی شده و سپس در روش طراحیشده برای تشخیص رباتهای شبکهای، شناسایی شبکههایی از رباتها که برای افزایش رتبه صفحه مورد نظر خود کلمات کلیدی در یک زمینه خاص را به طور مکرر جستجو و نتیجه مورد نظر را انتخاب میکنند و همچنین شبکههایی که کلمات کلیدی تکراری را برای ایجاد اختلال در سامانه پیشنهاددهنده موتور جستجو ارسال میکنند، مورد توجه قرار گرفته است.
سپس با محاسبه کد وضعیتی برای هر کاربر، اگر شباهت پرسوجوهای کاربر با ربات سرگروه پرسوجو بیش از یک حد آستانه بود (رباتیکه بهواسطه آن پرسوجوی Q وارد فهرست پرسوجوهای مشکوک شده است)، این کاربر در گروه ربات موردنظر قرار میگیرد و اگر چندین ربات در گروه حضور داشته باشند الگوی رفتاری کاربر با آنها نیز تطابق داده میشود.
رجوع شود به تصویر صفحه شکل (5): تعیین آستانه شباهت برای تشخیص کاربران شبکههای رباتی از نکات جالب توجه این روش این است که نه تنها کاربران شبکههای رباتی شناسایی میشوند؛ بلکه رفتار و هدف آنها نیز شناسایی شده و با اضافهشدن کاربر جدید به هر گروه به سرعت تشخیص داده میشود.
Zheng, “Large-scale bot detection for search engines,” In Proceedings of the 19th international conference on World wide web, pp."