خلاصة:
This research is a general overview of the Latin script languages part of speech (POS) tagging with a specific focus on the non-Latin script languages, especially Persian. The study reviews the progress in POS tagging among the 23 highest native spoken languages in the world. Some of these languages follow the right-to-left (RTL) writing system such as Arabic, Urdu and Persian which have their own specific issues in POS tagging. This paper also goes through the issues and challenges which occurs during the tokenization and part of speech tagging of these languages. The challenges can be common between the languages or be specified to one. The Persian Language is chosen as the main interest of this paper and an attempt is made to critically overview the recent studies on Persian part of speech tagging and enumerate the specific challenges occurring in these studies. Reviewing the bulk of literature and examining the features, challenges, issues, and POS tagging tools in Persian, it was concluded that significant challenges of the researches on Persian were generally in the tokenization level and mostly as a result of using the Arabic script and its characteristics.
مقاله حاضر، به بررسی جامع موضوع برچسبگذاری واژگانی صورت نوشتاری زبانهای لاتین و غیرلاتین به ویژه زبان فارسی میپردازد. در این نوشتار میزان پیشرفت برچسبگذاری واژگانی در بیست و سه زبان گفتاری دنیا، که دارای بیشترین متکلم میباشند، مورد بررسی قرار میگیرد. برخی از این زبانها مثل زبانهای عربی، اردو و فارسی از سیستم نوشتاری از راست به چپ پیروی میکنند، و در نوع خود با مشکلات و چالشهایی در زمینه برچسبگذاری واژگانی روبرو هستند. این چالشها میتواند منحصر به یک زبان خاص باشد و یا در بین زبانهای گوناگون مشترک باشند، که به برخی از انها اشاره خواهیم کرد. در این مقاله، با مروری نقادانه بر مطالعات اخیر در حیطه برچسبگذاری واژگانی، چالشهای پیش روی زبان فارسی مد نظر قرار گرفته شده است. با مرور تحقیقات پیشین و مطالعه ویژگیها، مسايل، چالشها و ابزارهای برچسبگذاری واژگانی، این نتیجه حاصل میشود که، چالشهای برچسبگذاری واژگانی در زبان فارسی بیشتر در سطح توکنسازی و مربوط به شرایط رسم الخط عربی است.