تبدیل متن محاوره‌ای به رسمی فارسی با استفاده از شبکه‌های عصبی مبتنی بر مبدل مقاله

نویسنده: ممتازی، سعیده ؛ ادیبیان، مجید ؛

زبان و زبان شناسی بهار و تابستان 1401 - شماره 35 رتبه د (وزارت علوم (‎22 صفحه - از 48 تا 69 )

کلیدواژه ها: پردازش زبان طبیعی تبدیل محاوره به رسمی مدل کدگذار-کدگشا مدل مبدل محاوره‌ای فارسی هـا بـه مدل اسـتفاده دنباله

چکیده:

در دنیای امروز شاهد رشد تولید داده‌‎های مختلف از جمله داده‌های متنی هستیم و همواره حجم زیادی از داده‎‌های متنی به روش‌های مختلف به خصوص در شبکه‌‎های اجتماعی تولید می‎‌شود. ولی این متن‌‎ها غالباً غیررسمی و دارای خطاهای بسیاری هستند که باعث می‌‎شود امکان استفاده از آن‏ها در بسیاری از پردازش‎‌های زبان طبیعی وجود نداشته باشد. در این مقاله به تبدیل متن محاوره به متن رسمی در زبان فارسی پرداخته‌شده است. برای این منظور دو مدل مختلف براساس مدل کدگذار-کدگشا و مدل مبدل که از به‌روزترین مدل‌های دنباله-به-دنباله هستند پیاده‌سازی شده‌اند. در کنار استفاده از مدل‌های شبکه عصبی، مجموعه‌ای از قواعد در تبدیل محاوره به رسمی فراهم شده‌اند و تأثیر استفاده از این قواعد در کنار هر یک از دو مدل بررسی شده است. در انتها نتایج مدل‌های گفته شده مقایسه شده‌اند که در بهترین حالت این نتایج به دست آمده به دقت ۷۰.۷ درصد در معیار بلوی ارتقاء یافته رسیده‌اند.

خلاصه ماشینی:

همچنـین بررسـیهایی بر روی الگوهای تبدیل متن محاوره ای به رسمی انجـام شـده و بـا اسـتفاده از ایـن الگوهـا، قواعدی ساخته شده است که سعی شده با استفاده از آن هـا در کنـار اسـتفاده از شـبکه هـای عصبی عمیق نتایج بهبود یابد. در این مقاله بـه دلیل نبـود داده های محاوره ای به رسمی از مجموعه قواعدی برای تبـدیل مـتن رسـمی بـه محـاوره ای استفاده شده است تـا دادة مناسـب بـرای آمـوزش مـدل سـاخته شـود و از مـتن صـفحات ویکیپدیا و یک میلیون جمله از پیکره «میزان » به عنوان متن اسـتاندارد اسـتفاده شـده اسـت . نتایج نیز نشان میدهد که استفاده از ایـن قواعد باعث بهبود محسوس دقت برچسب گذاری شده است کـه نشـان دهنده آن اسـت کـه رسمیسازی انجام شده روشی مناسـب بـرای تبـدیل مـتن محـاوره ای بـه رسـمی در متـون شـبکه هـای اجتمـاعی اسـت و همچنـین ایـن روش مـیتوانـد باعـث بهبـود دقـت سـایر پردازش های زبان طبیعی شود. International Workshop on Spoken Language Translation ٢-٤ نتایج در ارزیابی نتایجِ به دست آمده از این پژوهش ، مجموعـه ای شـامل ١٠٠ جملـۀ محـاوره ای و معادل رسمی آن را از داده هایی که در قسمت آموزش مدل توضیح داده شد جدا کرده ایـم و بررسی شده است که این داده ها در مجموعه داده های آموزشی حضور نداشته باشند تا نتـایج به دست آمده از آن قابل اطمینان باشد. "Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis".

دریافت فایل ارجاع :
(پژوهیار, , , )

دانلود HTML
دانلود PDF

ورود / عضویت

برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.

ورود

عضویت

تحتاج دخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.
إن كنت لا تقدر علی شراء الاشتراك عبرPayPal أو بطاقة VISA، الرجاء ارسال رقم هاتفك المحمول إلی مدير الموقع عبر webmaster@noormags.com .

You need Sign in to view the content of the article. If you are not a member, proceed from part Sign up.
If you fail to purchase subscription via PayPal or VISA Card, please send your mobile number to the Website Administrator via webmaster@noormags.com .

لینک کوتاه:

1401

1400

1399

1398

1397

1396

1395

1394

1393

1392

1391

1390

1389

1388

1387

1386

1385

1384

تبدیل متن محاوره‌ای به رسمی فارسی با استفاده از شبکه‌های عصبی مبتنی بر مبدل مقاله