چکیده:
سیستمهای خلاصهسازی خودکار متون، یکی از انواع سیستمهای مدیریت اطلاعات حجیم هستند. این مقاله به یکی از انواع خلاصهسازی استخراجی به نام خلاصهسازی مبتنی بر پرسوجوی کاربر بر روی زبان فارسی میپردازد که بسیار برای مرور اطلاعات بر روی موضوعات مشخص توسط فرماندهان مفید میباشد. مهمترین فاز در این نوع خلاصهسازی، محاسبه شباهت بین عبارت پرسوجو و اجزای متن اصلی است. برای رسیدن به این مهم، پس از فاز پیشپردازش، تبدیل عبارت پرسوجو به جمله و بهره بردن از ابهامزدایی معنایی کلمات، شباهت معنایی بین عبارت پرسوجو و جملات متن با استفاده از فارسنت محاسبه میشود. سپس، جملاتی که بیشترین شباهت معنایی را با عبارت پرسوجو داشته باشند برای حضور در خلاصه انتخاب میشوند. ارزیابیهای حاصل از رویکرد پیشنهادی مقاله، نشان از مطلوب بودن نسبی الگوریتم موردنظر دارد. با توجه به نوپا بودن زبان فارسی در زمینه پردازش زبان طبیعی، توسعه آنچه در این مقاله بررسی شدهاست و نظایر آن میتواند کمک شایانی به بهبود نتایج کند.
خلاصه ماشینی:
برای رسیدن به این مهم، پس از فاز پیشپردازش، تبدیل عبارت پرسوجو به جمله و بهره بردن از ابهامزدایی معنایی کلمات، شباهت معنایی بین عبارت پرسوجو و جملات متن با استفاده از فارسنت محاسبه میشود.
در این رویکرد جهت محاسبه میزان شباهت دو جمله، پس از انتساب بهترین sense به هر کلمه و در واقع ابهامزدایی معنایی کلمات (با توجه به جملهای که در آن قرار گرفته است)، از میزان همپوشانی این senseها در دو جمله استفاده شده است [22].
این مقاله به معرفی روشی جهت محاسبه شباهت معنایی جملات که کمتر در کارهای بالا مورد توجه قرار گرفته است و کاربرد آن در ایجاد خلاصه مبتنیبر کاربر میپردازد.
در این راستا پس از تبدیل عبارت پرسوجو به جمله، ابتدا شباهت میان کلمات محاسبه شده و سپس براساس [19] بردار شباهت چیدمان و شباهت معنایی تشکیل و میزان شباهت بین عبارت پرسوجو و جملات متن محاسبه میشود.
منابع مورد استفاده این مقاله جهت محاسبه شباهت میان کلمات، تبدیل عبارت پرسوجو به جمله و محاسبه شباهت بین عبارت پرسوجو و جملات متن به ترتیب از 3 مجموعه "فارسنت"، "فرهنگ ظرفیت افعال فارسی" و " بیجنخان" استفاده کردهاست.
با توجه به نظام پیچیده صرف فارسی، تعداد وندهای زیاد و تصریفهای متعدد کلمات، این بخش با چالشهای زیادی روبهرو خواهد بود که بهعنوان نمونه میتوان موارد زیر را نام برد: - تشخیص کلمات مرکب - تشخیص اسامی خاص به این منظور، از لیستی از کلمات مرکب (متشکل از 16000 کلمه)، لیستی از اسامی افراد مطرح در حوزه" سیاسی" (به همراه سمت آنها) و لیستی از اسامی شهرها و کشورها استفاده و به این ترتیب، کلمات از متن استخراج میشوند.