چکیده:
رویکرد نوین در مطالعات زبانشناختی یا یک پدیده زبانی بر اصل وجود مجموعهای از دادههای زبانی گردآوریشده نهادینه شدهاست؛ بنابراین به تهیه یک پیکره زبانی نیاز است که از تولیدات واقعی گویشوران و نه براساس شمّ زبانیِ فردی گردآوری شدهاست. این شیوۀ پژوهشی برای بررسی دادههای زبانی تاریخی که جزء زبانهای مرده است و اکنون هیچگونه گویشوری ندارد از اهمیت بهسزایی برخوردار است. هدف از انجام این پژوهش، تهیه پیکرۀ زبان پهلوی ساسانی (فارسی میانه) و ساماندهی آن در یک پایگاه است. برای هر واژه، شش لایۀ اطلاعاتی، اعم از حرفنویسی متن پهلوی، آوانویسی واژهها بههمراه ترجمۀ فارسی آنها، تعیین مقولۀ دستوری دانهریز واژهها، بنواژهسازی واژهها و تعیین هزوارشبودن آنها، تعریف شدهاست. برای مقولۀ دستوری دانهریز واژهها، مجموعۀ برچسب مقولات دستوری فارسی معاصر تهیهشده توسط بیجنخان و همکاران (2011) و ساختارمندشده توسط قیومی (2014) باتوجهبه نیازهای زبان پهلوی جرح و تعدیل شدهاست و از مجموعۀ جدید برای برچسبگذاری واژههای پهلوی استفاده شدهاست. پس از نشانهگذاری واژهها و ساماندهی اطلاعات، امکان استخراج اطلاعات آماری وجود دارد که میتواند بینش عمیقتری از محتوای متن منتقل نماید. ازاینرو، اطلاعات آماری از پیکرۀ بهدستآمده استخراج شده و توضیح داده میشود تا دورنمای کلی نسبتبه منابع تشکیلدهندۀ این پیکره بهدستآید.
Recent attitude towards studying a language and a linguistic phenomenon is based upon the existence of a collection of data; therefore it is required to develop a linguistic corpus that is naturally occurred and it is not collected from the one’s intuition. This research methodology is highly important to study linguistic historical data, which is dead and has no speaker. The current research puts an effort to develop a linguistic corpus of middle Persian and to organize the data in a data-base. To this end, six information levels are determined in the annotation process, including transliteration of the Pahlavi texts, transcription of the words along with their Persian translation, defining fine-grained syntactic category of the words, lemmatizing the words, and identifying whether the word is huzwares or not. To define fine-grained syntactic categories, the tag set for contemporary Persian developed by Bijankhan et al (2011) and organized by Ghayoomi (2004) are modified and adapted to the Pahlavi language according to the requirements. The new tag set is used to label Pahlavi words. After annotating words and organizing the information, extracting the statistical information is possible to deepen the insight over the text’s content.