چکیده:
در دنیای امروز شاهد رشد تولید دادههای مختلف از جمله دادههای متنی هستیم و همواره حجم زیادی از دادههای متنی به روشهای مختلف به خصوص در شبکههای اجتماعی تولید میشود. ولی این متنها غالباً غیررسمی و دارای خطاهای بسیاری هستند که باعث میشود امکان استفاده از آنها در بسیاری از پردازشهای زبان طبیعی وجود نداشته باشد. در این مقاله به تبدیل متن محاوره به متن رسمی در زبان فارسی پرداختهشده است. برای این منظور دو مدل مختلف براساس مدل کدگذار-کدگشا و مدل مبدل که از بهروزترین مدلهای دنباله-به-دنباله هستند پیادهسازی شدهاند. در کنار استفاده از مدلهای شبکه عصبی، مجموعهای از قواعد در تبدیل محاوره به رسمی فراهم شدهاند و تأثیر استفاده از این قواعد در کنار هر یک از دو مدل بررسی شده است. در انتها نتایج مدلهای گفته شده مقایسه شدهاند که در بهترین حالت این نتایج به دست آمده به دقت ۷۰.۷ درصد در معیار بلوی ارتقاء یافته رسیدهاند.
خلاصه ماشینی:
همچنـین بررسـیهایی بر روی الگوهای تبدیل متن محاوره ای به رسمی انجـام شـده و بـا اسـتفاده از ایـن الگوهـا، قواعدی ساخته شده است که سعی شده با استفاده از آن هـا در کنـار اسـتفاده از شـبکه هـای عصبی عمیق نتایج بهبود یابد.
در این مقاله بـه دلیل نبـود داده های محاوره ای به رسمی از مجموعه قواعدی برای تبـدیل مـتن رسـمی بـه محـاوره ای استفاده شده است تـا دادة مناسـب بـرای آمـوزش مـدل سـاخته شـود و از مـتن صـفحات ویکیپدیا و یک میلیون جمله از پیکره «میزان » به عنوان متن اسـتاندارد اسـتفاده شـده اسـت .
نتایج نیز نشان میدهد که استفاده از ایـن قواعد باعث بهبود محسوس دقت برچسب گذاری شده است کـه نشـان دهنده آن اسـت کـه رسمیسازی انجام شده روشی مناسـب بـرای تبـدیل مـتن محـاوره ای بـه رسـمی در متـون شـبکه هـای اجتمـاعی اسـت و همچنـین ایـن روش مـیتوانـد باعـث بهبـود دقـت سـایر پردازش های زبان طبیعی شود.
International Workshop on Spoken Language Translation ٢-٤ نتایج در ارزیابی نتایجِ به دست آمده از این پژوهش ، مجموعـه ای شـامل ١٠٠ جملـۀ محـاوره ای و معادل رسمی آن را از داده هایی که در قسمت آموزش مدل توضیح داده شد جدا کرده ایـم و بررسی شده است که این داده ها در مجموعه داده های آموزشی حضور نداشته باشند تا نتـایج به دست آمده از آن قابل اطمینان باشد.
"Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis".