خلاصة:
هدف: در دهههای اخیر، موتورهای جستجوی وب به یکی از ابزارهای برجسته و ضروری برای به دست آوردن اطلاعات در جهان متصل شده امروزی تبدیل شدهاند. با افزایش حجم اطلاعات موجود در وب، نیاز به یافتن و دسترسی به اطلاعات مرتبط و معنادارتر افزایش یافته است. اما موتورهای جستجوی سنّتی، معمولاً براساس تطابق کلمات کلیدی و تعداد ورودیهای مشابه در متنها، نتایج را بازیابی میکنند. این روش، در بسیاری از موارد به نتایج ناخوشایند و غیرمرتبط منجر میشود. در زبان فارسی و عربی نیز این مشکلات به دلیل وجود دستور زبان پیچیدۀ آن که در بین کلمات وجود دارد و برای ماشین قابل درک نیست، بیشتر وجود دارد. در این راستا، هدف پژوهش حاضر بررسی و ارائه راهکارهای جستجو و بازیابی معنایی متون فارسی و عربی است. روش: تحقیق حاضر از نوع تحلیل محتوا بوده و برای گردآوری دادهها از روش کتابخانهای استفاده شده است. به منظور جمعآوری اطلاعات و دستیابی به منابع مورد نیاز، از منابع مختلفی ازجمله مقالات علمی، کتب، پایاننامهها و گزارشها استفاده گردید. برای جمعآوری مقالات فارسی، منابعی با تاریخ انتشار از سال 1398، و برای جمعآوری مقالات انگلیسی، منابعی با تاریخ انتشار از سال 2020 به بعد مورد استفاده قرار گرفتند. برای تحلیل دادههای جمعآوری شده، از روش تحلیل محتوا استفاده شد. با استفاده از روشهای تحلیل و تفسیر دادهها، نتایج حاصل از مطالعات پیشین و یافتههای جدید تحقیق مورد بررسی و ارزیابی قرار گرفت. این ارزیابی شامل شناسایی مشکلات و محدودیتهای موجود در موتورهای جستجوی معنایی و ارائه پیشنهادها برای بهبود عملکرد آنها است. یافتهها: در پژوهشهای جستجوی معنایی و بازیابی اطلاعات در متون فارسی و عربی، روشهای مبتنی بر تحلیل و پردازش معنایی متون با استفاده از مدلهای زبانی پیشآموزش دیده، الگوریتمهای خوشهبندی مانند K-Means و منابع دانش مانند گرافهای دانش بهکار گرفته میشوند. همچنین تفاوتها در مجموعه داده، نحوه استفاده از این مدلها و الگوریتمها و روش جستجو و بازیابی معنایی بین کلمات، عملکرد و دقت سیستم را تحت تأثیر قرار میدهد. نتایج حاصل از پژوهشهای متعدد، حاکی از آن است که برای جستجو و بازیابی معنای متون، گسترهای از روشها و الگوریتمها وجود دارد که میتوانند نتایج متفاوتی را ارائه دهند. این نتایج نشان میدهند که هر یک از روشهای مورد استفاده، قابلیت بازیابی معنایی متون را دارا هستند و قابلیتهای مختلفی در ارائه دقت جستجو دارند. همچنین برخی از روشها عملکرد بهتری نسبت به سایر روشها از خود نشان میدهند. این روشها با استفاده از تکنیکها و الگوریتمهای متفاوتی مانند تحلیل موضوع، شبکههای عصبی، بازنماییهای برداری و غیره، قدرت خوبی در جستجوی معنایی دارند. از طرفی، انتخاب روش مناسب باید با توجه به ماهیت مسئله و ویژگیهای دادهها انجام شود. هر مسئله و داده ممکن است نیازهای خاص خود را داشته باشد و برای بهترین عملکرد، انتخاب روش مناسب و تنظیم پارامترهای آن ضروری است. نتیجهگیری: هر کدام از روشهای ارائه شده برای مشکلات و ویژگیهای زبانی دو زبان فارسی و عربی، راهکارهای منحصربهفردی ارائه میدهند. همچنین روشهای مختلف از مدلهای زبانی پیشآموزش دیده مانند BERT، الگوریتمهای خوشهبندی مانند K-Means و سیستمهای بازیابی مبتنی بر منابع دانش مانند گرافهای دانش استفاده میکنند. همچنین راهکارهای ارائه شده، مجموعه دادهها و منابع خاصی را برای آموزش و ارزیابی مورد استفاده قرار میدهند. تفاوتها در مجموعه داده و نحوه استفاده و تنظیم این مدلها و الگوریتمها بسیار حائز اهمیت است. برخی از روشها نیز براساس معنا و روابط معنایی بین کلمات، جستجوی اطلاعات را انجام میدهند، در حالیکه برخی دیگر، از روشهای مبتنی بر کلمات کلیدی و ریشهها استفاده میکنند. این تفاوت در روش جستجو و بازیابی میتواند بر عملکرد و دقت سیستم تأثیر داشته باشد. هر روش، عملکرد و دقت متفاوتی در بازیابی اطلاعات دارد که این تفاوتها به دلیل نحوه استفاده از مدلها، الگوریتمها و منابع داده مختلف است.
Purpose: In recent decades, web search engines have become one of the most prominent and essential tools for accessing information in today's interconnected world. With the increasing volume of information available on the web, the demand for locating and accessing relevant and meaningful information has also risen. Traditional search engines typically retrieve results based on keyword matching and the number of similar entries in the texts. This method often leads to undesirable and irrelevant results. These problems are even more pronounced in Persian and Arabic due to the complex grammar of these languages, which is not machine-readable. The aim of this research is to review and present solutions for semantic search and retrieval of Persian and Arabic texts. Method: This research is a content analysis study, and the library method was used to collect data. To collect information and access the required resources, various sources were used, including scientific articles, books, theses, and reports. For collecting Persian articles, sources, and for collecting English articles, sources with publication dates from 2020 onwards were used. The content analysis method was utilized to analyze the collected data. By employing data analysis and interpretation methods, the results of previous studies were reviewed and evaluated alongside the new findings of the research. This evaluation involved identifying the issues and constraints of current semantic search engines and offering suggestions for enhancement. Findings: In Persian and Arabic text semantic search and information retrieval research, methods based on text semantic analysis and processing using pre-trained language models, clustering algorithms like K-Means, and knowledge resources such as knowledge graphs are employed. Additionally, the dataset, the utilization of models and algorithms, and the method of semantic search and retrieval between words all influence the system's performance and accuracy. According to the findings of numerous studies, there is a wide range of methods and algorithms available for text semantic search and retrieval, each of which can produce different results. These findings demonstrate that each of the methods used has the ability to retrieve the semantic meaning of texts and varies in terms of search accuracy capabilities. An examination of the research findings reveals that some methods outperform others. These methods demonstrate strong semantic search capabilities by employing various techniques and algorithms such as topic analysis, neural networks, vector representations, and more. On the other hand, the appropriate method should be chosen based on the nature of the problem and the characteristics of the data. Each problem and dataset may have its own unique requirements. Selecting the best method and adjusting its parameters is critical for optimal performance. Conclusion: Each of the presented methods offers unique solutions for the issues and linguistic characteristics of the two languages, Persian and Arabic. Additionally, various methods utilizepre-trained language models like BERT, clustering algorithms such as K-Means, and knowledge resource-based retrieval systems like knowledge graphs. The presented solutions also utilize specific datasets and resources for training and evaluation. The differences in the dataset and how these models and algorithms are used and configured are critical. Some methods perform information retrieval based on meaning and semantic relationships between words, while others use keyword and root-based methods. This variation in the search and retrieval method can impact the system's performance and accuracy. Each method has a different performance and accuracy in retrieving information, which is attributed to the varied ways in which models, algorithms, and data sources are utilized.