Abstract:
شناسایی نویسنده یکی از مسایل مهم در دسته بندی متن و پردازش زبا نهای طبیعی به شمار می رود. این نوشتار دستآورد پژوهشی با هدف تعیین هوشمند نوشته های 50 نویسنده سایبری(50 نفر از مشتریان بالقوه ی وب سایت آمازون با توجه به پیام ها و مراجعاتی که به این وب سایت داشته اند انتخاب شده اند) به کمک روش های یادگیری ماشین است. برای سنجش کارایی روش پیشنهادی، دقت تصمیم گیری آزموده و نتایج آنها با بازدهی روش های یادگیری ماشین مقایسه شده است. همچنین در هنگام استخراج ویژگیهای گوناگون نوشته های نویسندگان برای ارزیابی توسط ماشین، کوشش شده تا حداکثر ویژگی های مورد نیاز برای تشخیص نویسنده شبیه سازی گردد و بدین منظور، نزدیک به10000 ویژگی گوناگون از نوشته های مختلف استخراج شده و در چهار دسته ی ویژگی های لغوی ، ویژگی های نحوی ، ویژگی های خاص و ویژگی های ساختاری قرار گرفته اند. در این پژوهش به طور میانگین دقت تعیین نویسنده به کمک روش پیشنهادی تا 98/78 درستی نیز رسیده است.
Identifying the author of an electroni message is one of
the main problems in text classification and natural language
processing. The aim of this article is to determine the authors of 50
cyber messages (by 50 potential customers, according to Amazon 's
website), by a machine learning methods. To evaluate the
effectiveness of the proposed method, the decision was carefully
tested and the results were compared with the performance of
machine learning methods. Also, when extracting various features of
authors' writing style for evaluation by machine, we tried to maximize
the features required to identify a writer. Therefore, nearly 10,000
different features were extracted from different entries in four
categories: lexical features, syntactic features, special features and
structural features. In this study, the average accuracy of the proposed
method reached to 98. 78.
Machine summary:
اين نوشـتار دسـتاورد پژوهشـي بـا هـدف تعيـين هوشمند نوشته هاي ٥٠ نويسـنده سـايبري (٥٠ نفـر از مشـتريان بـالقوه وب سـايت آمازون با توجه به پيام ها و مراجعاتي کـه بـه ايـن وب سـايت داشـته انـد انتخـاب شده اند)، به کمک روش هاي يادگيري ماشين است .
در ايـن مبحـث کوشـش مـي شـود تـا بـا اسـتخراج ويژگـي هـايي از درون مـتن و پـردازش و تحليـل آن بـه کمـک انـواع روش هـاي هـوش مصنوعي ، نويسنده متن شناسايي شود، که به اين سلسله امور متن کاوي ٢ گفته مي شود.
شناسـايي نويسنده پيام هاي الکترونيکي تاکنون به روش هاي مختلـف توسـط محققـان مـورد بررسـي قرار گرفته است ، ولي براي دستيابي به دقت بالاتر بايد تحقيقات گسترده تري انجام شود تـا بتوان احتمال خطا را کاهش و امنيت را افزايش داد.
همانطور که در شکل ١ نشان داده شده است ، رونـد شناسـايي نويسـنده را مي توان به چهار مرحله تقسيم کرد: 1 گام ١: جمع آوري پيام اولين گام در شناسـايي نويسـنده ، جمـع آوري مجموعـه اي از پيـام هـاي الکترونيکـي نوشته شده توسط نويسندگان بالقوه براي نمايش سبک نوشتن هر نويسنده است .
بيشتر روش هاي مبتني بر ماشينُ بردار پشتيبان ، از کرنل RBF براي ساخت مدل خود استفاده کرده اند، ولي نتايج آزمايش نشان داد که هيچ کرنلي نمي تواند دقت قابل قبولي را به دست بياورد.