Abstract:
در متنکاوی متنهای فارسی، در زمینۀ چگونگی استخراج ویژگیها برای دستهبندی و بررسی نظرها در سایتهای اجتماعی بهمنظور تشخیص قطبیت متن، مطالعاتی انجام شده است. هدف این پژوهش، ارائۀ الگوریتمی برای آنالیز حس متن فارسی، بر اساس شش حس پایۀ خوشحالی، ناراحتی، ترس، خشم، تعجب و تنفر است. در این پژوهش، آنالیز احساس به روش غیرنظارتی مبتنی بر لغتنامه انجام شده است. تشخیص حس جمله فقط با در نظر گرفتن یک لغت عاطفی دقت زیادی ندارد؛ زیرا عوامل دیگری نیز در جمله مانند تشدیدکنندهها و نفیکنندهها وجود دارند که روی حس متن تأثیر میگذارند. از این رو، الگوریتم به شش روش با در نظر گرفتن ویژگیهای متفاوت نوشته شده است. در روش اول الگوریتم قابلیت تشخیص یک لغت عاطفی درون جمله را دارد؛ سپس قابلیت تشخیص تشدیدکننده، نفیکننده و لغات ایست اضافه میشود. نتایج بهدست آمده از اجرای الگوریتمها روی دو نمونه داده، نشان میدهد با در نظر گرفتن ویژگیهای بیشتر، دقت الگوریتم نیز افزایش مییابد که در آن عاملِ قسمتی از سخن، بیشترین تأثیر را دارد.
The literature regarding Persian text mining indicates that most studies are conducted to detect polarity of opinions on social websites. The aim of this research is presenting an algorithm to identify emotion implemented in the text based on the following six main emotions of happiness, sadness, fear, anger, surprise and disgust. In this research, the emotion will be examined based on unsupervised lexicon method. Identifying emotions conveyed by the texts based on a single emotional word will produce low accuracy because the intervening boosters and negating words can influence the emotion of the text too. Therefore, the algorithm has been implemented in six approaches with different features. In the first approach, the algorithm is capable of detecting only one emotional word in a sentence, and then it improves to detect boosters and negating and stop word list as well. The results of running the algorithm on two domains of data showed that the more features used in the algorithm, the more accurate the algorithm becomes and that the most effective factor is part of speech.
Machine summary:
نتايج به دست آمده از اجراي الگوريتم ها روي دو نمونه داده ، نشان مي دهد با در نظر گرفتن ويژگي هاي بيشتر، دقت الگوريتم نيز افزايش مي يابد که در آن عامـل قسـمتي از سخن ، بيشترين تأثير را دارد.
در پژوهش حاضر، از آنجا که داده هاي استفاده شده ساختاريافته نيسـتند، الگـوريتم پيشـنهاد شده مبتني بر روش لغتنامه پياده سازي مي شود و به منظور افزايش دقت اين روش ، علاوه بر لغات عاطفي ، از ويژگي هاي ديگري نظير تشديدکننده و نفي کننده نيز بهره بـرده شـده اسـت تـا ايـن الگوريتم بتواند حس متن را بر اساس شش حس پايه تشخيص دهد.
همچنين براي آناليز، از تعداد تکرار لغت هاي مربوط بـه دسـتة حسـي (منظور از دستة حس ، شش حس پاية خوشحالي ، ناراحتي ، خشم ، ترس ، نفرت و تعجب است ) که به آن تعلق دارند، استفاده نشده است ؛ بلکه در لغتنامه به لغت ها وزني اختصـاص داده شـده و بـا محاسبة نهايي آن و تأثير مؤلفه هاي ديگر در جمله ، حس آن مشخص شده است .
يافته هاي پژوهش پس از تهية لغتنامه هاي بيان شده در بخش قبل ، الگوريتم به زبـان سـي شـارپ بـا شـش روش ترکيبي استفاده از ويژگي ها پياده سازي شد و براي بررسي عملکرد آنها ويرايشگري تهيه گرديد تا جمله را به صورت ورودي از کاربر گرفته و با انتخاب هر يک از ويژگي ها تشخيص حـس توسـط الگوريتم را ارزيابي کند.