چکیده:
نمایهها و چکیدههای یک متن خلاصهای از متن را در اختیار خواننده قرار میدهند. پس، میتوان از آنها برای درک سریع و بازیابی سند استفاده کرد. از آنجا که بخش عمدهای از فعالیتهای علمی فارسی در کشور ایران را پارساها تشکیل میدهند، در این پژوهش نمایهسازی پارساها از دو دیدگاه نویسنده پارسا و نمایهساز حرفهای مورد بررسی قرار خواهد گرفت. سپس، این نمایهها با عنوان پارساها مورد بررسی قرار میگیرند تا میزان انطباق با کلیدواژههای عنوانی بهدست آید. از سوی دیگر، با بررسی کلی مجموعهای از نمایهها و چکیدهها علاوه بر قابلیت بهبود در بازیابی اطلاعات برای محقق، حوزه فعالیتی که بیشتر اسناد بر روی آن تمرکز کردهاند، مشخص میشود. علاوه بر آن، در این پژوهش وجود نمایهها و توزیع آنها در چکیده بررسی میشود. از توزیع کلیدواژهها در چکیده میتوان در استخراج خودکار کلیدواژهها از چکیده پارساها در کارهای آتی استفاده نمود. این پژوهش بر روی پارساهای موجود در پایگاه داده «پژوهشگاه علوم و فناوری اطلاعات ایران» که منبع گردآوری پارساهای فارسی است، انجام شده است. روش پژوهش به این صورت است که بعد از گردآوری دادهها، پارساهایی که اطلاعات کافی ندارند، پالایه شده و بقیه «پارساها» توسط برنامهای که برای پردازش متن چکیده و نمایههای پارساها نوشتهایم، مورد تحلیل قرار خواهند گرفت. سپس، اطلاعات بهدستآمده با استفاده از آمار توصیفی شرح داده خواهد شد. بررسی انجامشده در این پژوهش نشان داده است که عموماً نمایههای انتخابشده (بیش از 60 درصد) توسط نویسنده و نمایهساز حرفهای از 40 درصد ابتدایی چکیده انتخاب شدهاند. دیگر تحلیلهای آماری این پژوهش نشان میدهند که میزان انطباق بین توصیفگرها و کلیدواژهها 8 درصد است. این اختلاف نشاندهنده میزان تفاوت نظر زیاد بین نویسندگان پارساها و نمایهسازان است. با بهرهگیری از این اختلاف و با تجمیع کلمات و غنیکردن کلیدواژههای سیستم بازیابی اطلاعات میتوان در بهبود بازیابی اطلاعات نیز استفاده کرد.
Index terms provided by authors and professional indexers are used in traditional information retrieval schemes. However, abstracts ideally contain the core message of a document. This can potentially give us the opportunities to use the abstracts to automatically extract index terms. This work is an effort to increase the accuracy of keyword extraction mechanism by adding a temporal weighting to candidate. In addition, this work can be used to research trend analysis and shows where the ongoing research is headed in Iranian Theses and Dissertations (TDs). To achieve the aforementioned objectives, we studied on more than 500 samples in different engineering research area from 50 different universities 1) the correlation between the authors and professional indexers keywords. We observed only 8% similarity between these two indices. 2) We studied the correlation between the index terms and words in abstract and title. We found that 40% of author keywords are extracted from first 20% of the abstract (This figure changes to 45% for professional indexer) and 24% from the second 20% (19% from the next 20%) This finding can be further used to narrow down the input dimensions for the various machine learning schemes for automatic keyword extraction. 3) Using some classification schemes it can be perceived that the most of the ongoing research in Iran is headed toward neural network and optimization.