خلاصة:
با توجه به حجم عظیم دادههای جمعآوریشده در سازمانها و سیستمهای نگهداشت و مدیریت اطلاعات که سبب شکلگیری انبار دادههای بسیار بزرگ شده، نیاز به استخراج الگو از متون هر روز بیشتر احساس میشود. متنکاوی یکی از مهمترین روشها در استخراج الگوی مناسب است که بهوسیله اقتباس یا استخراج دانش از مجموعهای از دادهها به اهداف سازمانها بسیار کمک میکند. این روشها همچنین میتوانند افق جدیدی را برای تجارت و حفاظت از مالکیت معنوی آثار نویسندگان بهوجود آورند. در این مقاله با رویکردی جدید به کشف الگوهای متنی جهت سازماندهی و تجزیه و تحلیل هوشمند متن میپردازیم. هدف اصلی، بهکارگیری الگوی مناسب در جهت حفظ آثار نویسندگان، محققان و اسناد متنی است. با توجه به حجم آثار نویسندگان و سیستمهای مدیریت اسناد، حجم اطلاعات در دسترس نیز به شدت افزایش یافته است. برای کشف دانش موجود در این داده‏ها، که منفعت زیادی را برای کاربران اطلاعات بهدنبال دارد، روش‏های خاصی مورد نیاز است که در حوزه داده‏کاوی به آن پرداخته شده است. بخش اعظم این داده‏های در دسترس بهصورت متنی و بدون ساختار یا نیمهساختارمند هستند که برای استفاده از آن‏ها میتوان علاوه بر روش‏های مورد استفاده در داده‏کاوی، از فناوریهایی مانند پردازش زبان طبیعی، تجزیه و تحلیل هوشمند و علم آمار بهره گرفت.
Regarding the fact that stored data occupies a large space in organizations and retention systems and information management that has been resulted in gigantic data warehouses, the need for extracting an appropriate model is felt increasingly. Text mining is one of the most significant methods for extracting a useful and appropriate model that helps organizations in achieving their goals through extraction and adaption of knowledge out of data sets. Those methods allow for a new horizon for trading and protecting intellectual property of authors’ works. In this paper, a new approach is needed to decipher the text patterns to organize an intelligent text analysis. The main purpose of the paper is applying a proper method of preserving the works of writers, scholars and text documents. Regarding the number of those works and documentary management systems the size of available data has been increased considerably. In order to uncover the implicit knowledge out of this data with considerable usefulness for users a specific method is required that has been practiced in the data mining field. Much of this available data is unstructured or semi-structured text which one can use it in addition to data mining methods, technologies such as natural language processing, intelligent analysis and Science Statistics used.
ملخص الجهاز:
متــن کاوي يکــي از مهم تريــن روش هــا در اســتخراج الگــوي مناسـب اسـت کـه به وسـيلۀ اقتبـاس يـا اسـتخراج دانـش از مجموعـه اي از داده هـا بــه اهــداف ســازمان ها بســيار کمــک ميکنــد.
امـروزه ، راه حل هـاي متنوعـي بــراي مديريــت و ســازماندهي مقــدار زيــادي از اســناد متنــي و به دســت آوردن اطلاعــات مفيــد از ايــن داده هــا (متــن کاوي) در حــال پيشــرفت و تحقيــق اســت .
متــن کاوي کــه تحــت عناويــن تجزيــه و تحليــل هوشــمند متــن ، کاوش داده هــاي متنــي و کشــف دانــش از متـون نيـز شـناخته ميشـود، به طـور کلـي، بـه فراينـد اسـتخراج اطلاعـات و دانـش جالـب توجـه و غيربديهــي از متــن بــدون ســاختار اشــاره دارد (٢٠٠٩ Gupta, and Lehal).
داده کاوي بــراي ايــن منظــور به وجــود آمــد و ميتــوان گفــت کــه مقــدار زيــادي از دانــش را پــردازش کــرده و آن هــا را بــه اطلاعــات کاربــردي تبديــل ميکنــد و در صورتيکــه داده هــاي مــورد پــردازش به صـورت متـن و بـدون سـاختار يـا نيمه سـاختارمند باشـند، ايـن فراينـد متـن کاوي ناميـده 1176 ميشـود (٢٠٠٨ Saracoglu, Tutuncu, and Allahverdi؛٢٠٠٣ Weng and Lin).
متـن کاوي مشـابه داده کاوي اســت (٢٠٠٤ Berry and Linoff)، بــا ايــن تفــاوت کــه ابزارهــاي داده کاوي بــراي مديريــت داده هــاي ســاختارمند از پايــگاه داده هــا طراحــي شــده اند (Elmasri and Navathe ٢٠٠٠).
ايــن مشــکل ممکــن اســت موجــب افزايــش پيچيدگــي محاســباتي روش هــاي يادگيــري ماشــين بــراي رده بنــدي متــن شــده و بــا توجــه بــه کلمــات نامرتبــط يــا زائــد موجــب ناکارآمــدي نتايــج 1.