Abstract:
هرروز بر تعداد مدارک ساختیافته (مانند مدارک قابل نشانهگذاری) در اینترنت اضافه میشود. این نوع مدارک ساختیافته، علاوه بر محتوای مدرک، قالب معنایی مدرک را نیز ذخیره میکنند؛ بنابراین مدرک بهصورت یک درختواره ذخیره میگردد.از طرفی با افزایش اطلاعات موجود در شبکه، تقاضا برای بازیابی اطلاعات، بیشتر و پیچیدهتر شده است. امروزه کاربران پرسشهایی را مطرح میکنند که دارای ساختار درختی است. برای بازیابی اطلاعات مرتبط، روشهای کلاسیک که صرفا از عملگرهای منطقی برای تطبیق پرسش با مدارک استفاده میکنند، نمیتوانند چنین پرسشهایی را با دقت مناسب بازیابی نمایند. هدف از این مقاله بررسی نمایهسازی سلسلهمراتبی و تطبیق سلسلهمراتبی مدارک است.
Machine summary:
"این مقاله دربارة بازیابی مدارک ساختیافته، با روش نمایهسازی سلسلهمراتبی و اطلاعات آماری مدرک میباشد.
این روش نمایهسازی با ساختار سلسلهمراتبی درخت متناسب نیست و رابطة معنایی میان نهادهای مدرک از بین میرود (Hang & Wen, 2003).
در روشهای مرسوم بازیابی اطلاعات که از نمایة مقلوب استفاده میشود، فایل نمایه فقط حاوی اطلاعات دسترسی به مدارک است و در این فایل، اطلاعاتی برای توصیف و نمایة اجزای مدارک وجود ندارد (Pottenger & Meling).
ایجاد نمایههای سلسلهمراتبی برای بالابردن دقت جستجو و مرور اطلاعات بسیار مفید است، و اگر بتوان آن را به صورت درونخطی[7] تولید کرد، در کاوشگر وب نیز بدون دخالت انسان قابل استفاده است.
پس از اتمام این مرحله، نمایة سلسلهمراتبی، اطلاعات کافی برای نمایش رابطة نسبی هر دسته، نسبت به کل اطلاعات مجموعه را دارد (Pottenger & Melling, 2001; Sykes, 2001).
نمایش نتایج روش 5- گرم در مقایسه با کلمة اصلی ضریب توفیق5[29] تعداد دستهها موضوع کل کلمه بدون ریشهیابی 5- گرم 53% 87% 10 آشپزی 47% 85% 16 سیستم عامل در حالتی که کلمه کمتر از پنج حرف داشته باشد، خود کلمه به عنوان ریشة کلمه درنظر گرفته میشود.
در این مرحله، از قوانین کتابشناختی (از قبیل فراوانی عمومی پایین و فراوانی جزئی بالا) یا تطبیق معنایی معادل در گنجینة لغت برای تطبیق و نمایة سلسلهمراتبی استفاده میشود.
در این روش جستجو به صورت درختی انجام میشود، بنابراین نتایج بهدست آمده قابل انعطاف و گسترده است.
بنابراین با توجه به گسترش قاببندی «ایکس ام ال» در سطح شبکه وب، نمایة سلسلهمراتبی روش موفقی در نمایهسازی و بازیابی اطلاعات مدارک با قالببندی جدید میباشد."