خلاصة:
بازیابی اطلاعات، فرایند یافتن اطلاعات (مدارک) مربوط به جستجوی کاربر در مجموعه مدارک است. با پیاده سازی الگوریتمهای متفاوت، استراتژیهای مختلفی در بازیابی اطلاعات وجود دارد. وجه مشترک استراتژیهای بازیابی، یافتن مدارک مشابه با موضوع جستجوی کاربر است. یکی از الگوریتمهای مهمی که در بازیابی اطلاعات، کاربرد بسیار دارد، الگوریتم فضای برداری است که می کوشد تمام مدارک را در مجموعه و جستجوهای کاربر به صورت بردارها نشان دهد و ضریب تشابه میان بردارهای مدرک و بردار جستجو را جهت بازیابی مدرک مربوط، محاسبه نماید.
ملخص الجهاز:
يکي از الگوريتمهاي مهمي که در بازيابي اطّلاعات، کاربرد بسيار دارد، الگوريتم فضاي برداري است که مي کوشد تمام مدارک را در مجموعه و جستجوهاي کاربر به صورت بردارها نشان دهد و ضريب تشابه ميان بردارهاي مدرک و بردار جستجو را جهت بازيابي مدرک مربوط، محاسبه نمايد.
بازيابي اطّلاعات، مدل فضاي برداري، فراواني اصطلاح، و زن اصطلاح، رتبهبندي مدارک مقدمه پيشرفتهاي اخير در علم الکترونيک، به توليد ابزارهاي مدرن براي ذخيرهسازي انبوهي از اطّلاعات منجر گرديده است.
پژوهشگران اين حوزه، در فرايند بازيابي، روشهاي متفاوتي براي تشخيص همبستگي اصطلاحات ارائه کردهاند، از جمله ميتوان به تحليل آماري جستجوها در مدارک مربوط و نامربوط به ترتيب همبستگيهاي مثبت و منفي اصطلاحات، اشاره کرد [5].
بعيد است واژههايي که فاقد بار معنايي هستند و به طور معمول در مدارک يافت ميشوند، اطّلاعات مهّمي ارائه دهند، بنابراين ميتوان اين واژهها را براي سرعت دادن به پردازش، حذف کرد.
با در نظر گرفتن بردار جستجوي Q و نمايش برداري مدرکi به صورت، تشابه ميان جستجو و مدرک به صورت زير محاسبه مي شود [1]: به تصویر صفحه مراجعه شود در اينجا tj اصطلاحي است که در جستجو و مدرک، ظاهر شده و qj و زن اصطلاح tj در جستجو و tijوزن آن در مدرکi است.
نمايش برداري دو مدرک و يک جستجو با توجه به اين شکل، تشابه ميان مدرک و جستجوي Q، برابر با کسينوس زاوية بين دو بردار، يعني است به تصویر صفحه مراجعه شود 4-2.
براي مثال، ميتوان از کسينوس زاوية ميان اين دو بردار به صورت زير استفاده کرد [2].