خلاصة:
دادهکاوی به مفهوم آشکارسازی الگوهای موجود در حجم انبوه دادههاست که در بسیاری از رشتهها به کار گرفته شده است. در رشته علم اطلاعات و دانششناسی به ویژه در بازیابی اطلاعات نیز میتوان از آن بهره برد. در بازیابی اطلاعات ابتدا پارادایم نظامگرا و سپس پاردایم کاربرگرا مطرح شده است که در پارادایم دوم به نیاز اطلاعاتی توجه شده است. در پارادایم دوم، ورود پرسشهای نامناسب از سوی کاربران، دلیل اصلی عدم بازیابی مدارک مرتبط تلقی میشود. ازاینرو، یکی از مباحث اصلی این پارادایم، پیشنهاد و بسط پرسش مناسب در نظام بازیابی اطلاعات است که میتوان از روشهای دادهکاوی برای آن استفاده نمود. چهار روش مهم برای پیشنهاد پرسش جهت تقویت نظام توصیهگر وجود دارد. قاعده سری زمانی یکی از این روش هاست که به فراونی پرسش در واحد زمانی خاص میپردازد. یکی دیگر از روشها، قانون همایندی است که به وابستگی و تداعی پرسشها توجه دارد. در روش قانون همایندی همراه با فاصله لون اشتاین، افزون بر توجه به وابستگی و تداعی پرسشها به ترتیب واژههای پرسش نیز توجه میشود. به هر حال، در هر سه روش یاد شده، از فایل ثبت رخداد استفاده میشود؛ در حالی که در نظریه احتمالاتی از واژههای مدارک جهت ترمیم شکاف واژگانی بین پرسش و مدارک استفاده میشود. در نهایت به نظر میرسد، به کارگیری روشهای یاد شده به ویژه روش احتمالی در پیشنهاد پرسش منجر به نتایج مناسبتری شود.
Data mining detects patterns in the massive volume of data used in many disciplines. It can also be useful in our field, especially in information retrieval. In information retrieval, first the system-oriented paradigm and then the user-oriented paradigm have been introduced, the second paradigm being concerned with information needs. In the second paradigm, the inclusion of inappropriate queries is considered the main reason for not retrieving relevant documents. Therefore, one of the main topics of this paradigm is proposing and extending the appropriate query in the recommender system that can be used for data mining methods. There are four important methods to propose a query to strengthen the recommender system. The time series rule is one of these methods that deal with query frequency in a particular time unit. Another method is the association rule that addresses the dependency and association of queries. In addition to the dependence and association of queries, the order of query terms is also considered in the method of Association rule with Levenshtein distances. However, in all three of these methods, the log file is used, while in probabilistic theory, the document words are used to repair the lexical gap between the queries and the documents. Therefore, it seems that using probability theory to suggest the query yields better results.
ملخص الجهاز:
به کارگیری داده کاوی برای پیشنهاد پرسش در نظام های بازیابی اطلاعات مهدی زینالی تازه کندی ١، محسن نوکاریزی 2 مطالعات دانش شناسی سال ششم ، شماره ٢٣، تابستان ٩٩، ص ١ تا ١٨ تاریخ دریافت : ٩٨/٠٣/١٥ تاریخ پذیرش : ٩٨/١٢/١٠ چکیده داده کاوی به مفهوم آشکارسازی الگوهای موجود در حجم انبوه داده هاست که در بسیاری از رشته ها به کار گرفته شده است .
ازاین رو، یکی از مباحث اصلی این پارادایم ، پیشنهاد و بسط پرسش مناسب در نظام بازیابی اطلاعات است که میتوان از روش های داده کاوی برای آن استفاده کرد.
ازاین رو، در این مقاله تلاش شده است به گوشه ای از کاربرد روش های داده کاوی در رابطه با رشته علم اطلاعات و دانش شناسی به ویژه بازیابی اطلاعات پرداخته شود.
ازآنجاییکه توجه به پارادایم کاربری در رشته علم اطلاعات و دانش شناسی از اهمیت ویژه ای برخوردار است و درنهایت موجب تقویت نظام های بازیابی اطلاعات برای بازیابی منابع مرتبط تر میشود، در ادامه به روش های مختلف داده کاوی که موجب کمک به درک صحیح نیاز اطلاعاتی و ورود پرسش مناسب به نظام های بازیابی اطلاعات میشود، اشاره شده است .
Vidinli & Ozcan داده کاوی از روش های مختلفی نظیر درختواره تصمیم ١، قواعد همایندی ، نظریه احتمالات ٣ 2 و نظیر آن استفاده میشود که در این مقاله ، چهار نوع روش مهم برای پیشنهاد پرسش در موتورهای کاوش شناسایی شد و در ادامه به هر یک از آن ها پرداخته شده است .
Fonseca, Golgher, Moura, & Ziviani 2.
In Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval (pp.