خلاصة:
رویکرد نوین در مطالعات زبانشناختی یا یک پدیده زبانی بر اصل وجود مجموعهای از دادههای زبانی گردآوریشده نهادینه شدهاست؛ بنابراین به تهیه یک پیکره زبانی نیاز است که از تولیدات واقعی گویشوران و نه براساس شمّ زبانیِ فردی گردآوری شدهاست. این شیوۀ پژوهشی برای بررسی دادههای زبانی تاریخی که جزء زبانهای مرده است و اکنون هیچگونه گویشوری ندارد از اهمیت بهسزایی برخوردار است. هدف از انجام این پژوهش، تهیه پیکرۀ زبان پهلوی ساسانی (فارسی میانه) و ساماندهی آن در یک پایگاه است. برای هر واژه، شش لایۀ اطلاعاتی، اعم از حرفنویسی متن پهلوی، آوانویسی واژهها بههمراه ترجمۀ فارسی آنها، تعیین مقولۀ دستوری دانهریز واژهها، بنواژهسازی واژهها و تعیین هزوارشبودن آنها، تعریف شدهاست. برای مقولۀ دستوری دانهریز واژهها، مجموعۀ برچسب مقولات دستوری فارسی معاصر تهیهشده توسط بیجنخان و همکاران (2011) و ساختارمندشده توسط قیومی (2014) باتوجهبه نیازهای زبان پهلوی جرح و تعدیل شدهاست و از مجموعۀ جدید برای برچسبگذاری واژههای پهلوی استفاده شدهاست. پس از نشانهگذاری واژهها و ساماندهی اطلاعات، امکان استخراج اطلاعات آماری وجود دارد که میتواند بینش عمیقتری از محتوای متن منتقل نماید. ازاینرو، اطلاعات آماری از پیکرۀ بهدستآمده استخراج شده و توضیح داده میشود تا دورنمای کلی نسبتبه منابع تشکیلدهندۀ این پیکره بهدستآید.
Recent attitude towards studying a language and a linguistic phenomenon is based upon the existence of a collection of data; therefore it is required to develop a linguistic corpus that is naturally occurred and it is not collected from the one’s intuition. This research methodology is highly important to study linguistic historical data, which is dead and has no speaker. The current research puts an effort to develop a linguistic corpus of middle Persian and to organize the data in a data-base. To this end, six information levels are determined in the annotation process, including transliteration of the Pahlavi texts, transcription of the words along with their Persian translation, defining fine-grained syntactic category of the words, lemmatizing the words, and identifying whether the word is huzwares or not. To define fine-grained syntactic categories, the tag set for contemporary Persian developed by Bijankhan et al (2011) and organized by Ghayoomi (2004) are modified and adapted to the Pahlavi language according to the requirements. The new tag set is used to label Pahlavi words. After annotating words and organizing the information, extracting the statistical information is possible to deepen the insight over the text’s content.
ملخص الجهاز:
زبان شناخت ، پژوهشگاه علوم انسانی و مطالعات فرهنگی دوفصل نامۀ علمی (مقالۀ علمی ـ پژوهشی)، سال دوازدهم ، شمارة اول ، بهار و تابستان ١٤٠٠ تحلیل پیکره بنیان متون فارسی میانه بر مبنای پایگاه داده پارسیگ فرزانه گشتاسب * مسعود قیومی **، نادیا حاجی پور *** چکیده رویکرد نوین در مطالعات زبان شناختی یا یک پدیده زبانی بر اصـل وجـود مجموعـه ای از داده های زبانی گردآوریشده نهادینه شده است ؛ بنابراین به تهیه یک پیکره زبانی نیاز اسـت که از تولیدات واقعی گویشوران و نه براساس شمّ زبانی فردی گردآوری شـده اسـت .
ازجملـه شـاخص تـرین پژوهش هایی که میتوان به آنها اشاره کرد عبارت است از کتاب های «گزیده هـای زادسـپرم » و «دینکـرد هفـتم » از راشدمحصـل (١٣٨٥؛ ١٣٨٩)، «روایـت پهلـوی» از ویلیـامز (١٩٩٠) و میرفخرایی (١٣٦٧)، و «بررسـی دینکـرد ششـم » از شـاکد (١٩٧٩) و میرفخرایـی (١٣٩٣) و «ارداویراف نامه » از ژینیو (ترجمه فارسی در ١٣٨٢) که همگی دارای واژه نامه به زبان پهلـوی بوده و بجز املای پهلوی واژه و آوانویسی آن ، معنای فارسی و ارجاع به متن نیز در واژه نامـۀ آنها آمده است .
همۀ این پژوهش ها تاکنون فقط بـه صـورت کتـاب منتشـر شـده اسـت و اقـدامی بـرای جمع آوری داده های زبانی آنها در یک پایگاه اطلاعاتی واحد انجام نشده است ؛ حتی به دلیـل 257 تحلیل پیکره بنیان متون فارسی میانه بر مبنای پایگاه داده پارسیگ ٥ حجم زیاد داده ها، واژه نامه ای جامع به صـورت کتـاب نیـز بـرای متـون فارسـی میانـه تهیـه نشده است .