طراحی و پیاده‌سازی یک سامانه‌ بازیابی اطلاعات دوزبانه با استفاده از پیکره‌های زبانی مقاله

پردازش و مدیریت اطلاعات زمستان 1390 - شماره 66 رتبه علمی-پژوهشی (وزارت علوم/ISC (‎16 صفحه - از 197 تا 212 )

کلیدواژه ها: عامل‌های هوشمند ترجمه خودکار بازیابی اطلاعات دوزبانه پیکره‌های زبانی معادل‌های واژگانی Cross-language information retrieval linguistic corpora automated translation intelligent factors پیکره زبان بانک اطلاعاتی فارسی بـا دوزبانه

fa en

چکیده:

بازیابی اطلاعات بین زبانی به فرایندی گفته می‌شود که طی آن یک کاربر، جستاری (یک واژه، عبارت، یا حتی جمله‌ای) را به یک زبان جستجو می‌کند درحالی‌که انتظار دارد نتایج جستجوی خود را به زبان دیگری دریافت نماید. یکی از مشکلات عمده‌ کاربران فارسی‌زبان در استفاده از منابع موجود در فضای سایبر، عدم امکان بازیابی موضوعات مورد نظر است که این مسأله تا حد زیادی به حجم کم اطلاعات به زبان فارسی در این فضا برمی‌گردد. استفاده از فرهنگ لغت نیز به‌دلیل عدم توانایی در ارائه‌ پاسخ مناسب به ترکیبات چندتایی رایج در زبان‌ها کمتر در این زمینه راه‌گشاست. طرح حاضر که با هدف یافتن راه‌حلی مناسب برای این مشکل با تهیه‌ نرم‌افزار آزمایشگاهی مرتبط تعریف شده است، سعی دارد که با استفاده از پیکره‌های یک‌زبانه و دوزبانه و با کمک الگوریتم‌های رایانه‌ای راه‌حل منطقی و مقرون به‌صرفه‌ای برای این مشکل ارائه نماید. به‌منظور آزمودن کیفیت کار سامانه‌ طراحی‌شده در این طرح، آزمایشی بر روی تعداد 100 ترکیب از زبان فارسی و انگلیسی انجام شد که برونداد سامانه‌ بازیابی اطلاعات برای این مجموعه از ترکیبات بسیار رضایت‌بخش بوده است. یکی از دستاوردهای اجرایی این طرح، بالا بردن دقت سامانه‌‌های بازیابی اطلاعات در موتورهای جستجو است که با استفاده از پیکره و بانک اطلاعاتی، ترکیب‌بندی واژه‌ها قابل دسترس است.

خلاصه ماشینی:

از اين رو، در اين پژوهش سعي خواهد شد به سؤالات زير پاسخ داده شود: ١) آيا مي توان سامانه بازيابي اطلاعات بين زباني را فقط با کمک فرهنگ لغـت پيـاده سـازي کرد؟ ٢) آيا مي توان ازعامل هـاي هوشـمند جمـع آوري اطلاعـات بـه منظـورتشـکيل يـک پيکـره دوزبانه استفاده کرد؟ ٣) نقش پيکره درسامانه بازيابي اطلاعات بين زباني تا چه اندازه است ؟ ٤. (Luck and Padgham در اين پژوهش ، به منظور تکميل بانک اطلاعاتي مورد نيـاز در نـرم افـزار بازيـابي اطلاعـات ، يک عامل هوشمند نرم افزاري تهيه شده است که مي تواند ضمن جابجـايي در محـيط وب ، اقـدام به جمع آوري متون وداده هاي مورد نياز نمايد. در پژوهش ديگري که توسط موسوي ميانگـاه صـورت گرفتـه است ، يک پيکره متني فارسي با بـيش از ٢٦٤٠٠٠٠ جملـه و ١٤٩٠٠٠٠٠٠ لغـت تهيـه شـده اسـت (موسوي ميانگـاه ١٣٨٨) کـه در ايـن پـژوهش بـا اسـتفاده از روش هـاي نـرم افـزاري و بـا کمـک عامل هاي هوشمند٣نرم افزاري اقدام به تکميل و گسترش پيکـره متنـي تـک زبانـه و دوزبانـه شـد. نتيجه گيري در اين پژوهش سعي شده است که علاوه بر تکميل پيکره هاي متني ساخته شده درطرح هـاي پيشين (يک زبانه و دوزبانه )، يک روش آماري دسته بندي جهت تعيين ميزان وابستگي عبـارات بـه يکديگر ارائه شود و با استفاده از آن اقدام به رفع ابهام در ترجمه عبارات چندتايي گردد. Querying across languages: a dictionary –based approach to multilingual information retrieval. In Proceedings of the 19th Annual International ACM Sigir, Conference on Research and Development in Information Retrieval,Zurich, Switzerland, 49-57. Automatic term extraction for cross-language information retrieval using a bilingual parallel corpus.

دریافت فایل ارجاع :
(پژوهیار, , , )

دانلود PDF
دانلود HTML

صفحه:

لینک کوتاه: