خلاصة:
شناسایی و تحلیل واژگان عمومی در منابع وب: رویکردی نو به بسط عبارت جستجو با استفاده از زبان طبیعی در موتورهای کاوش
فتاحی رحمت اله*
* دانشگاه فردوسی مشهد
بسط جستجو با استفاده از واژه های عمومی که همراه کلید واژه های موضوعی در منابع و متون موجود در وب ظاهر می شوند می تواند موجب افزایش میزان دقت و ربط در نتایج بازیابی در موتورهای کاوش شود. به این منظور، پژوهشی در دو مرحله انجام گرفت. یافته های مرحله نخست نشان داد که 14.6% از واژه های عمومی میان دو حوزه مشترک هستند، یعنی عمومی مطلق به شمار می آیند، 85.4% از واژه های عمومی وابسته به حوزه موضوعی می باشند، 65% درصد واژه های عمومی پیش و 35% از آنها پس از کلید واژه های موضوعی در متون ظاهر می شوند. همچنین، از نظر نوع واژه ها، 62.5% غیرموضوعی و 37.5% نیمه موضوعی به شمار می روند. در مرحله دوم پژوهش، با اضافه کردن واژه های عمومی به کلید واژه های موضوعی اولیه و انجام دوباره جستجو (یعنی بسط جستجو) در 4 حالت جستجوی کلید واژه ای عمومی، عبارت دقیق، عنوان دقیق، و نشانی اینترنتی دقیق در گوگل، مشخص شد که این کار موجب بازیابی نتایج بسیار دقیقتر و مرتبط تر می شود. نتایج نشان داد که تفاوت معناداری در نتایج جستجوی کلید واژه ای و عبارتی دقیق میان دو حوزه وجود دارد. همچنین، میان دو حوزه از نظر نتایج جستجوی دقیق عنوانی و نشانی اینترنتی، تفاوت معنادار مشاهده شد. همچنین، آزمون نسبت بسامد نتایج بازیابی در حالت های مختلف نسبت به جستجوی کلید واژه ای نشان داد که تفاوت معناداری میان دو حوزه وجود دارد. در مجموع، نتایج پژوهش نشان داد که بسط جستجو در حالت جستجوی عنوانی و نشانی اینترنتی در هر حوزه موضوعی می تواند بسیار موفقیت آمیز باشد. به همین جهت، موتورهای جستجو، می توانند پیش فرض جستجو را به دو حالت عنوانی و نشانی اینترنتی محدود کنند. همچنین، می توان یک سیاهه از واژگان عمومی ایجاد کرده و به منزله یک ابزار هوشمند در موتورهای کاوش تعبیه کرد تا در بسط جستجو مورد استفاده کاربران قرار گیرد.
ملخص الجهاز:
هدف،دامنه و رویکرد پژوهش حاضر با رویکرد موتور AskJeeves از چند جنبه متفاوت است: 1):شناسایی واژههای عمومی که همراه کلید واژههای موضوعی در متون و بیظاهر میشوند،2): دستهبندی آن واژهها از نظر میزان وابستگی حوزهای2،3):تحلیل واژههای عمومی از نظر اینکه بیشتر پیش از کلید واژههای موضوعی ظاهر میشوند یا پس از آنها،و4):بررسی قابلیت این واژهها از نظر بازیابی دقیقتر و مرتبط اطلاعاتی در 4 حالت جستجو(جستجوی کلید واژهای عمومی،3،عبارتی دقیق4، عنوان دقیق5،و نشانی اینترنتی دقیق6)در موتور کاوش گوگل.
com (2) Domain-specifi terms (3) General keyword search (4) Exact phrase search (5) Exact title search (6) Exact URL search بهداشت1،و2)علوم اجتماعی2ظاهر میشوند کدام است؟ 2-پربسامدترین واژههای غیر موضوعی که پیش و پس از واژههای موضوعی میآیند کدام است؟ 3-پر بسامدترین واژههای غیر موضوعی مشترک میان دو حوزه پزشکی و علوم اجتماعی کدام است؟ 4-آیا تفاوت معناداری میان منابع حوزههای پزشکی و علوم اجتماعی در وب از نظر فراوانی واژههای غیر موضوعی وجود دارد؟ 5-انواع حالتهای جستجو(کلید واژهای،عبارتی دقیق،عنوان دقیق،و نشانی اینترنتی دقیق)چه تأثیری بر فراوانی منابع بازیابی شده در وب دارد؟ روش و مراحل انجام پژوهش در این پژوهش،که در دو حوزه پزشکی و علوم اجتماعی و تنها در مورد وب سایتهای متنی انجام شد،از روش تحلیل متن3که گونهای از روش تحلیل محتوا است استفاده گردید.
4-پژوهش دیگری میتوان به صورت گسترده در زمینه میزان وجود واژههای عمومی در عنوان و نیز در نشانی اینترنتی صفحات وب انجام داد تا قابلیت این دو مورد را به منزله پیش فرض جستجو در موتورهای کاوش و سنجش میزان بازیابی دقیق و مرتبط بررسی کرد.