چکیده:
هدفهای پژوهش: زبان فارسی، به سبب ویژگیهای خاص آن و در عین حال نهادینه نشدن سبک نگارش استاندارد، در رویارویی با محیطهای الکترونیکی، با دشواریهایی روبهروست که تاثیری بسزا بر اثربخشی بازیابی اطلاعات میگذارد. پژوهش حاضر میکوشد تا با بررسی متون و پیشینههای موجود، چالشهای نگارش فارسی، تاثیر آنها بر اثربخشی بازیابی اطلاعات، و پیشنهادهای ارائه شده در جهت رفع این دشواریها را مورد بحث و بررسی قرار دهد.
اهمیت پژوهش: با تحلیل و مرور جامع متونی که درباره چالشهای نگارش فارسی در محیطهای دیجیتال نگارش یافته است، میتوان دانشی را که تاکنون در این باره گرد آمده است به تصویر کشید و کاستیها و پیشرفتهای به دست آمده در این زمینه را آشکار ساخت.
روش پژوهش: روش پژوهش حاضر، متنپژوهی با رویکرد تحلیل محتواست که از روشهای پژوهش کیفی به شمار میآید. «پاراگراف»، «جمله» و «کلمه» به عنوان واحد تحلیل انتخاب شد، زیرا ممکن بود هر دشواری یا راهکار تنها در یک کلمه یا عبارت مورد اشاره قرار گرفته یا در جمله یا پاراگراف شرح داده شده باشد.
یافتهها: آثار مورد بررسی، بیش از ٤٠ دشواری نگارشی را در رابطه با جستجو و بازیابی اطلاعات فارسی ذکر کردهاند. این گونهگونی نگارشی به نایکدستی و تطور بسیار در نگارش فارسی میانجامد که میتواند اثربخشی بازیابی را بویژه از منظر کاهش دقت یا ریزش کاذب و نیز کاهش جامعیت بازیابی، متاثر سازد. در نتیجه، ضروری است در طراحی الگوریتمهای سامانههای جستجو و بازیابی فارسی، بههنجارسازی تنوعات و چنددستیهای نگارشی و دستوری مد نظر قرار گیرد. تدوین استاندارد نگارش فارسی، استفاده از سیاهههای از پیش تعیین شده، تجهیز پایگاه اطلاعاتی به اصطلاحنامه و فرهنگهای املایی، و تدوین دستنامه یا راهنمای جستجو، از جمله راهکارهای ارائه شده است. این راهکارها با وجود جامع نبودن، کم و بیش اثربخش به نظر میرسند.
نتیجهگیری: از آنجا که راهکارهای انسانی، نیازمند مشارکت فعالانه و آموزش نویسندگان متون (تایپیستها و کاربران) است و از روندی بلندمدت و هزینهبر برخوردار است، حرکت به سوی راهکارهای خودکارسازی پردازش متن و نمایهسازی، ضروری است
خلاصه ماشینی:
مروری بر دشواریهای زبان فارسی در محیط دیجیتال و تأثیرات آنها بر اثربخشی پردازش خودکار متن و بازیابی اطلاعات دکتر هاجر ستوده<FootNote No="107" Text=" عضو هیئت علمی دانشگاه شیراز sotudeh@shirazu.
پژوهش حاضر میکوشد تا با بررسی متون و پیشینههای موجود، چالشهای نگارش فارسی، تأثیر آنها بر اثربخشی بازیابی اطلاعات، و پیشنهادهای ارائه شده در جهت رفع این دشواریها را مورد بحث و بررسی قرار دهد.
شیوهنامهای که فرهنگستان ادب و زبان فارسی در سالهای اخیر برای یکدستی نگارش فارسی ارائه کرده نیز نتوانسته است از این دشواریها بکاهد، زیرا این شیوهنامه به دلیل ناهماهنگی درونی، هدف قرار دادن عامه مردم و در نتیجه کاهش دقت و پرهیز از وضع قانون برای برخی استثناها، وضع قانون برای پیوسته یا جدانویسی برخی کلمات مرکب و واگذار کردن سایر موارد به سلیقة نویسندگان و در نهایت نپرداختن به همة دشواریهای نگارشی، مورد انتقاد بوده است (طرح جامع پیکره زبان...
پیشینة پژوهش پژوهشها پیرامون زبان فارسی چنان که بیان شد، پژوهشهای بسیاری در زمینة بازیابی اطلاعات در زبان فارسی انجام شده است که شمار اندکی از آنها به طور بنیادین و جامع به بررسی چالشهای نگارش فارسی پرداختهاند.
آشکار است که این گونهگونی نگارشی به نایکدستی و دگرگونی بسیار در نگارش فارسی میانجامد که میتواند اثربخشی بازیابی را بویژه از منظر کاهش دقت یا ریزش کاذب و نیز کاهش جامعیت بازیابی، متأثر سازد.
AleAhmad, A, Hakimian, P, Mahdikhani, F and Oroumchian, F, (2007) N-gram and local context analysis for Persian text retrieval, 9th International Symposium on Signal Processing and Its Applications - ISSPA 2007, Sharjah, United Arab Emirates, 12-15 February 2007.