مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی مقاله

نویسنده: توکلی زاده راوری، محمد ؛

تحقیقات اطلاع رسانی و کتابخانه‌های عمومی بهار 1394 - شماره 80 رتبه علمی-پژوهشی (وزارت علوم/ISC (‎29 صفحه - از 12 تا 40 )

کلیدواژه ها: زبان فارسی نمايه‎سازی خودکار مدل شکاف – گلچين مدل فارسی نمایه‌سازی اطلاعات کلیدواژه اصـطلاح اصطلاحات واژه

چکیده:

هدف: به علت خاص بودن برخی از مسائل زبانی، لازم است که مدل‌‌های بومی نمایه‌سازی خودکار را با توجه به ویژگی‌های هر زبان طراحی کرد. این مدل‌ها باید به‌گونه‌ای طراحی شود که جامعیت و مانعیت نمایه‌سازی مورد توجه باشد. هدف این مقاله معرفی و سنجش توانمندی مدل دو مرحله‌ای شکاف – گلچین برای نمایه‌سازی خودکار مقالات فارسی است. ابتدا الگوریتم کار به تفصیل توضیح داده می‌شود و سپس همخوانی نتایج حاصل از این الگوریتم با کلیدواژه‌های نویسنده سنجیده خواهد شد. روش: مدل نمایه‌سازی خودکار فارسی به‌همراه توضیح مراحل و مسائل مرتبط با آن معرفی خواهد شد. ارزیابی مدل از طریق شاخص دربردارندگی انجام می‌شود که برای تعیین درصد همخوانی بین نمایه‌سازان مورد استفاده قرار می‌گیرد. برای این کار، میزان همخوانی اصطلاحات نمایه‌ای که از پیاده‌سازی الگوریتم این مدل حاصل شده‌اند، با کلیدواژه‌های نویسندگان مقالات بررسی می‌گردد. یافته‌ها: یافته‌ها نشان داد که در 90 درصد از موارد، اصطلاحی که این مدل در یک مقاله به‌عنوان پروزن‌ترین اصطلاح تشخیص داده است، مشابه اولین کلیدواژۀ نویسنده آن مقاله است. در کل، بین نتایج این مدل و کلیدواژه‌های نویسندگان 76 درصد همخوانی وجود داشت که در مقایسه با کارهای قبلی، قابل قبول به نظر می‌رسد. اصالت/ارزش: ارزش اولیۀ این کار پرداختن به نمایه‌سازی خودکار با توجه به ویژگی‌های زبان فارسی است. برای پیاده‌سازی مدل ارائه شده، فرض بر استفاده از زبان عبارات الگودار است که توسط بسیاری از زبان‌های برنامه‌نویسی پشتیبانی می‌شود و نیاز به نصب و استفاده از جدول‌های بانک اطلاعاتی را برای پردازش متن کاهش می‌دهد. همچنین، مشکل تعیین آستانۀ بالایی اصطلاحات اصلی را حل می‌کند. علاوه بر آن، با الگوریتمی خاص، حد پایینی را نیز تعیین می‌کند؛ به‌گونه‌ای که دیگر تعداد اصطلاحات گلچین شده به طول متن بستگی ندارد. این امکان، جامعیت و مانعیت نمایه‌سازی را تضمین می‌کند.

خلاصه ماشینی:

الگوریتم های متفاوتی برای نمایه سازی خودکار وجود دارد کـه عمومـا دارای سـه مرحله اند:الف ) استخراج واژه هاو عبـارات ممنوعـه ؛ ب )ریشـه یـابی واژه هـا بـرای یـک دسـتی و حذف افزونگی ؛ وپ )وزن دهی . در اینجـا دو سـؤال اساسی پیش می آید: کدام یک از اصطلاحات بین شـکافی مـرتبط ترنـد؟ چـه تعـداد ازآنهـا بایـد گلچین شود تا جامعیت و مانعیت نمایه سازی حفظ شود؟ وزن دهی یکـی از کارهـای مقـدماتی بـرای تعیـین مـرتبط تـرین هـا، وزن دادن بـه اصـطلاحات اسـت . Salton & Buckley الف ) wd = fw, d * log (|D|/fw, D) (2) در فرمول بالا، wd برابر با وزن اصطلاح و fw, d فراوانی یا تعداد دفعاتی اسـت کـه اصـطلاح مورد نظر در مدرک dظاهر شده است و|D|تعـداد مـدارکی اسـت کـه در مجموعـه وجـود داردو fw, D نیز تعداد مدارکی است که اصطلاح w را در خود دارند. فرض کنیم که با فنون یادشـده ، یـک مـدرک را نمایه سازی کرده و فهرستی از اصطلاحات بین شکافی به دست آورده ایم که ایـن اصـطلاحات بـه ترتیب وزنشان به شکل زیر تنظیم شده است : سامانه های مدیریت اطلاعـات ، مـدیریت اطلاعـات ، اطلاعـات بیمارسـتانی ، سـاماندهی اطلاعات ، ساماندهی اطلاعات بیمارستانی ، پرستاران ، مدیریت طبق پیش فرض ١، اصطلاح «سامانه های مدیریت اطلاعات » چون وزن بیشتری داشـته اسـت ، بــر ســایر اصــطلاحات ایــن فهرســت مقــدم اســت . Information & Libraries Journal,29 (4), 285–295. Inter-Indexer Consistency and Retrieval Effectiveness: Measurement of Relationships,PhD Thesis, Illinois: University of Illinois.

دریافت فایل ارجاع :
(پژوهیار, , , )

دانلود PDF
دانلود HTML

صفحه:

ورود / عضویت

برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.

ورود

عضویت

تحتاج دخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.
إن كنت لا تقدر علی شراء الاشتراك عبرPayPal أو بطاقة VISA، الرجاء ارسال رقم هاتفك المحمول إلی مدير الموقع عبر webmaster@noormags.com .

You need Sign in to view the content of the article. If you are not a member, proceed from part Sign up.
If you fail to purchase subscription via PayPal or VISA Card, please send your mobile number to the Website Administrator via webmaster@noormags.com .

لینک کوتاه:

1402

1401

1400

1399

1398

1397

1396

1395

1394

1393

1392

1391

1390

1389

1388

1387

1383

1382

1381

1380

1379

1378

1377

1376

1375

1374

1373

1372

1371

1370

مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی مقاله