چکیده:
سرقت ادبی عبارت از برداشتن و به نام خود قلمداد کردن ایده و یا کلمات دیگران است. با پیشرفت روز افزون اینترنت و گسترش مقالات آنلاین، سرقتهای علمی آسان تر شده است. امروزه سیستمهای زیادی جهت شناسایی سرقت ادبی ایجاد شدهاند. بیشتر این سیستمها براساس ساختار لغوی و الگوریتمهای تطابق رشتهای عمل میکنند. بنابراین این سیستمها به سختی میتوانند سرقتهای بازگردانی و جایگذاری مترادفها را شناسایی کنند. در این مقاله روشی جهت شناسایی سرقت ادبی بر مبنای برچسب گذاری نقش معنایی و اتوماتای یادگیر سلولی ارائه میشود. در این مقاله جهت قرارگیری کلمات پردازش شده از اتوماتای یادگیر سلولی استفاده میشود. برچسب گذاری نقش معنایی، نقش کلمات در جمله را مشخص میکند. عملیات مقایسه برای تمام جملات متن اصلی و متن مشکوک به سرقت انجام میشود. نتایج آزمایش بر روی مجموعه دادههای PAN-PC-11 نشان میدهد که روش پیشنهادی ما، مقدار پارامترهای ارزیابی مانندRecall، Precisionو F-measure را نسبت به روشهای قبلی ارائه شده در زمینه ی شناسایی سرقت ادبی بهبود میدهد.
Plagiarism is removal and to put it in their own name the ideas or words of others. With the Increasing progress of the Internet and the proliferation of online articles, scientific theft has also become easier. Many systems have been developed today to detect plagiarism. Most of these systems are based on lexical structure and string matching algorithms. Therefore, these systems can hardly detect recovery robberies, placement of synonyms. This paper presents a method for identifying plagiarism based on semantic role labeling and cellular learning automata. In this paper, cellular learning automata are used to locate the processed words. Semantic role labeling specifies the role of words in sentence. Comparison operations are performed for all sentences of the original text and suspicious text. Results of the experiments on PAN-PC-11 corpus demonstrate the proposed method improves values of evaluation parameters such as recall, precision and F-measure, comparing to previous approaches in plagiarism detection.