چکیده:
امروزه، شناسایی متون مشابه، موضوعی با کاربردهای فراوان میباشد که با توجه به اهمیت آن، توسط پژوهشگران زبانهای مختلف مورد تحلیل و بررسی قرارگرفته است. در گذشته اغلب برای درک جملات توسط سیستمهای کامپیوتری، جملات به صورت مجموعه کلمات مورد بررسی قرار میگرفتند. اما امروزه، با گسترش فناوری و استفاده از شبکههای عصبی عمیق، میتوان از خود جملات، مفهوم اصلی را استخراج نمود. بنابراین، رسیدن به مدلی که بتواند جملات را کدگذاری کرده و مفهوم اصلی جمله را با دقت هرچه بیشتر استخراج نماید، یکی از نیازهای ضروری برای این هدف بهشمار میرود.این مقاله قصد دارد تا میزان شباهت جملات را از نقطه نظر معنایی بدست آورد که از روشهای یادگیری عمیق استفاده میکند. از آنجاییکه روشهای یادگیری عمیق نیاز به داده آموزشی زیادی دارند، این مقاله از ایده نگاشت بین زبانی بهره میبرد. روش پیشنهادی، فضای برداری تعبیه کلمات انگلیسی را به فارسی نگاشت کرده و با کمک مدل آموزش دادهشده در زبان انگلیسی، شباهت جملات فارسی بهدست میآید. در نهایت، نتایج نهایی با امتیازات انسانی مورد مقایسه قرارگرفته است. نتایج حاصل از روش پیشنهادی، میزان دقت این سیستم پیشنهادی را 89 درصد ارائه میدهد که نسبت به سایر مدلهای یادگیری عمیق برتری دارد.
Nowadays, similar texts recognition is a subject with many applications that due to its importance, has been analyzed and studied by researchers in different languages. In the past, sentences were often used as a set of words to be understood by computer systems. But today, with the spread of technology and the use of deep neural networks, the main concept of sentences can be extracted from the sentences themselves. Therefore, achieving a model that can encode sentences and extract the main concept of the sentence as accurately as possible is one of the essential needs for this purpose.This paper proposes to reach the degree of semantic similarity between sentences and uses deep learning methods. As the deep learning methods need many data, this paper gains an interlinguistic mapping idea. The proposed method maps English word embedding vector space to Persian, and Persian sentence similarity is calculated by a trained model in English. Finally, the final results are compared with human scores. The results of the proposed method show the accuracy of this proposed system to be 89%, which is the superior to other deep learning models.