چکیده:
هدف: به علت خاص بودن برخی از مسائل زبانی، لازم است که مدلهای بومی نمایهسازی خودکار را با توجه به ویژگیهای هر زبان طراحی کرد. این مدلها باید بهگونهای طراحی شود که جامعیت و مانعیت نمایهسازی مورد توجه باشد. هدف این مقاله معرفی و سنجش توانمندی مدل دو مرحلهای شکاف – گلچین برای نمایهسازی خودکار مقالات فارسی است. ابتدا الگوریتم کار به تفصیل توضیح داده میشود و سپس همخوانی نتایج حاصل از این الگوریتم با کلیدواژههای نویسنده سنجیده خواهد شد. روش: مدل نمایهسازی خودکار فارسی بههمراه توضیح مراحل و مسائل مرتبط با آن معرفی خواهد شد. ارزیابی مدل از طریق شاخص دربردارندگی انجام میشود که برای تعیین درصد همخوانی بین نمایهسازان مورد استفاده قرار میگیرد. برای این کار، میزان همخوانی اصطلاحات نمایهای که از پیادهسازی الگوریتم این مدل حاصل شدهاند، با کلیدواژههای نویسندگان مقالات بررسی میگردد. یافتهها: یافتهها نشان داد که در 90 درصد از موارد، اصطلاحی که این مدل در یک مقاله بهعنوان پروزنترین اصطلاح تشخیص داده است، مشابه اولین کلیدواژۀ نویسنده آن مقاله است. در کل، بین نتایج این مدل و کلیدواژههای نویسندگان 76 درصد همخوانی وجود داشت که در مقایسه با کارهای قبلی، قابل قبول به نظر میرسد. اصالت/ارزش: ارزش اولیۀ این کار پرداختن به نمایهسازی خودکار با توجه به ویژگیهای زبان فارسی است. برای پیادهسازی مدل ارائه شده، فرض بر استفاده از زبان عبارات الگودار است که توسط بسیاری از زبانهای برنامهنویسی پشتیبانی میشود و نیاز به نصب و استفاده از جدولهای بانک اطلاعاتی را برای پردازش متن کاهش میدهد. همچنین، مشکل تعیین آستانۀ بالایی اصطلاحات اصلی را حل میکند. علاوه بر آن، با الگوریتمی خاص، حد پایینی را نیز تعیین میکند؛ بهگونهای که دیگر تعداد اصطلاحات گلچین شده به طول متن بستگی ندارد. این امکان، جامعیت و مانعیت نمایهسازی را تضمین میکند.
خلاصه ماشینی:
الگوریتم های متفاوتی برای نمایه سازی خودکار وجود دارد کـه عمومـا دارای سـه مرحله اند:الف ) استخراج واژه هاو عبـارات ممنوعـه ؛ ب )ریشـه یـابی واژه هـا بـرای یـک دسـتی و حذف افزونگی ؛ وپ )وزن دهی .
در اینجـا دو سـؤال اساسی پیش می آید: کدام یک از اصطلاحات بین شـکافی مـرتبط ترنـد؟ چـه تعـداد ازآنهـا بایـد گلچین شود تا جامعیت و مانعیت نمایه سازی حفظ شود؟ وزن دهی یکـی از کارهـای مقـدماتی بـرای تعیـین مـرتبط تـرین هـا، وزن دادن بـه اصـطلاحات اسـت .
Salton & Buckley الف ) wd = fw, d * log (|D|/fw, D) (2) در فرمول بالا، wd برابر با وزن اصطلاح و fw, d فراوانی یا تعداد دفعاتی اسـت کـه اصـطلاح مورد نظر در مدرک dظاهر شده است و|D|تعـداد مـدارکی اسـت کـه در مجموعـه وجـود داردو fw, D نیز تعداد مدارکی است که اصطلاح w را در خود دارند.
فرض کنیم که با فنون یادشـده ، یـک مـدرک را نمایه سازی کرده و فهرستی از اصطلاحات بین شکافی به دست آورده ایم که ایـن اصـطلاحات بـه ترتیب وزنشان به شکل زیر تنظیم شده است : سامانه های مدیریت اطلاعـات ، مـدیریت اطلاعـات ، اطلاعـات بیمارسـتانی ، سـاماندهی اطلاعات ، ساماندهی اطلاعات بیمارستانی ، پرستاران ، مدیریت طبق پیش فرض ١، اصطلاح «سامانه های مدیریت اطلاعات » چون وزن بیشتری داشـته اسـت ، بــر ســایر اصــطلاحات ایــن فهرســت مقــدم اســت .
Information & Libraries Journal,29 (4), 285–295.
Inter-Indexer Consistency and Retrieval Effectiveness: Measurement of Relationships,PhD Thesis, Illinois: University of Illinois.