چکیده:
بازیابی اطلاعات بین زبانی به فرایندی گفته میشود که طی آن یک کاربر، جستاری (یک واژه، عبارت، یا حتی جملهای) را به یک زبان جستجو میکند درحالیکه انتظار دارد نتایج جستجوی خود را به زبان دیگری دریافت نماید. یکی از مشکلات عمده کاربران فارسیزبان در استفاده از منابع موجود در فضای سایبر، عدم امکان بازیابی موضوعات مورد نظر است که این مسأله تا حد زیادی به حجم کم اطلاعات به زبان فارسی در این فضا برمیگردد. استفاده از فرهنگ لغت نیز بهدلیل عدم توانایی در ارائه پاسخ مناسب به ترکیبات چندتایی رایج در زبانها کمتر در این زمینه راهگشاست. طرح حاضر که با هدف یافتن راهحلی مناسب برای این مشکل با تهیه نرمافزار آزمایشگاهی مرتبط تعریف شده است، سعی دارد که با استفاده از پیکرههای یکزبانه و دوزبانه و با کمک الگوریتمهای رایانهای راهحل منطقی و مقرون بهصرفهای برای این مشکل ارائه نماید. بهمنظور آزمودن کیفیت کار سامانه طراحیشده در این طرح، آزمایشی بر روی تعداد 100 ترکیب از زبان فارسی و انگلیسی انجام شد که برونداد سامانه بازیابی اطلاعات برای این مجموعه از ترکیبات بسیار رضایتبخش بوده است. یکی از دستاوردهای اجرایی این طرح، بالا بردن دقت سامانههای بازیابی اطلاعات در موتورهای جستجو است که با استفاده از پیکره و بانک اطلاعاتی، ترکیببندی واژهها قابل دسترس است.
Information retrieval (IR) is a crucial area of natural language processing (NLP) and can be defined as finding documents whose content is relevant to the query need of a user. Cross-language information retrieval (CLIR) refers to a kind of information retrieval in which the language of the query and that of searched document are different. In fact, it is a retrieval process where the user presents queries in one language to retrieve documents in another language. This paper tried to construct a bilingual lexicon of parallel chunks of English and Persian from two very large monolingual corpora an English-Persian parallel corpus which could be directly applied to cross-language information retrieval tasks. For this purpose, a statistical measure known as Association Score (AS) was used to compute the association value between every two corresponding chunks in the corpus using a couple of complicated algorithms. Once the CLIR system was developed using this bilingual lexicon, an experiment was performed on a set of one hundred English and Persian phrases and collocations to see to what extend this system was effective in assisting the users find the most relevant and suitable equivalents of their queries in either language.
خلاصه ماشینی:
از اين رو، در اين پژوهش سعي خواهد شد به سؤالات زير پاسخ داده شود: ١) آيا مي توان سامانه بازيابي اطلاعات بين زباني را فقط با کمک فرهنگ لغـت پيـاده سـازي کرد؟ ٢) آيا مي توان ازعامل هـاي هوشـمند جمـع آوري اطلاعـات بـه منظـورتشـکيل يـک پيکـره دوزبانه استفاده کرد؟ ٣) نقش پيکره درسامانه بازيابي اطلاعات بين زباني تا چه اندازه است ؟ ٤.
(Luck and Padgham در اين پژوهش ، به منظور تکميل بانک اطلاعاتي مورد نيـاز در نـرم افـزار بازيـابي اطلاعـات ، يک عامل هوشمند نرم افزاري تهيه شده است که مي تواند ضمن جابجـايي در محـيط وب ، اقـدام به جمع آوري متون وداده هاي مورد نياز نمايد.
در پژوهش ديگري که توسط موسوي ميانگـاه صـورت گرفتـه است ، يک پيکره متني فارسي با بـيش از ٢٦٤٠٠٠٠ جملـه و ١٤٩٠٠٠٠٠٠ لغـت تهيـه شـده اسـت (موسوي ميانگـاه ١٣٨٨) کـه در ايـن پـژوهش بـا اسـتفاده از روش هـاي نـرم افـزاري و بـا کمـک عامل هاي هوشمند٣نرم افزاري اقدام به تکميل و گسترش پيکـره متنـي تـک زبانـه و دوزبانـه شـد.
نتيجه گيري در اين پژوهش سعي شده است که علاوه بر تکميل پيکره هاي متني ساخته شده درطرح هـاي پيشين (يک زبانه و دوزبانه )، يک روش آماري دسته بندي جهت تعيين ميزان وابستگي عبـارات بـه يکديگر ارائه شود و با استفاده از آن اقدام به رفع ابهام در ترجمه عبارات چندتايي گردد.
Querying across languages: a dictionary –based approach to multilingual information retrieval.
In Proceedings of the 19th Annual International ACM Sigir, Conference on Research and Development in Information Retrieval,Zurich, Switzerland, 49-57.
Automatic term extraction for cross-language information retrieval using a bilingual parallel corpus.