Abstract:
از زمان پیدایش اینترنت تاکنون، با حجم زیادی از دادههایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوۀ مطالعۀ دادهها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرحشده در مقالات رشتۀ زبانشناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدلسازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده میشود. پیکرۀ این پژوهش ازطریق خزش بهدست آمده و پساز پالایش و پیشپردازش دادهها، تعداد ۵، ۱۰ و ۱۵ موضوع از مقالات استخراج شده و براساس واژههای هر موضوع بهصورت دستی برچسبگذاری شده است. توزیع مقالات از سال ۱۳۰۶ تا ۱۳۹۹ سبب شد تا این مدت به ۵ مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پساز فرایند برچسبگذاری مشخص شود. رشد و افول موضوعات استخراجشده از مقالات در پردازشهای با تعداد ۵، ۱۰ و ۱۵ موضوع در بازههای زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاستگذاری در حوزۀ علم است که علاوهبر مطرحکردن یک روششناسی فناورانۀ کاربردی در پژوهش، میتوان موضوعات داغ میان پژوهشگران یک رشتۀ علمی را مشخص کرد و خلأهای موضوعات پژوهشی را یافت و بر متنوعسازی و متوازنسازی موضوعات پژوهشی اهتمام ورزید.
Since the advent of the Internet, we have come across a large amount of data that has been placed on this platform. This has caused the way data is studied and examined to evolve from manual to automatic. This research aims to extract the topics raised in articles in the field of language and linguistics and to study the evolution of topics over time with the help of the topic modeling algorithm. To this end, the Latent Dirichlet allocation algorithm is used. The corpus of this research was developed through crawling; and after filtering and pre-processing of the data, the number of 5, 10 and 15 topics are extracted from the articles; and based on the words of each topic, they are manually labeled. Due to the distribution of articles from 1927 to 2020 (1306 to 1399 according to the solar calendar), the time is divided into 5 time span and the topics related to each time span is identified after the labeling process. Among the 5 extracted topics, including Education, Discourse Analysis, Psychology, Syntax and Dialectology, all topics, except Discourse Analysis, are progressively studied over time. The growth and decline of the topics extracted from the articles can be seen in 10 and 15 topics. The practical achievement of this research is policy-making in the field of science. In addition to introducing a practical, technological methodology in do research, it is possible to identify hot topics among researchers in a scientific field and to find the gaps in research topics and to try to diversify and balance research topics.
Machine summary:
بر رسی تکوین مباحث مقالات فارسی زبان و زبان شناسی با کمک رایانه مسعود قیومی ١ (استادیار زبان شناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی ) تاریخ دریافت مقاله : ١٤٠١/٣/١٦، تاریخ پذیرش : ١٤٠١/٠٥/٢١، تاریخ انتشار: تابستان ١٤٠١ از زمان پیدایش اینترنت تاکنون ، با حجم زیادی از داده هایی مواجه هستیم که در ایـن بسـتر قرار گرفته است .
هدف از انجام این پژوهش ، استخراج موضوعات مطرح شده در مقالات رشتۀ زبان شناسی و روندشناسی تحول موضـوعات در طـول زمـان بـا کمـک الگـوریتم مدل سـازی موضوعی است .
/ شکل ۲- فرایند تهیۀ داده های پژوهش ۴-۱ گردآوری داده برای گردآوری داده های این پیکره ، از روش خزش وبگاه هایی که حاوی بایگانی مقالات علمی اسـت ، مانند بایگانی پرتال جامع علـوم انسـانی١، نسـخۀ پیشـین پایگـاه اطلاعـات علمـی ایـران (گـنج ) و ٢ نورمگز٣، استفاده شده است .
٣. در داده های خزش شده از منابع مختلف ، اسناد علمی به زبان هایی جز فارسی چون عربی، انگلیسی، آلمانی، روسی و غیره موجود است که مستندات علمی مربوط بـه ایـن مـوارد در پژوهش حاضر قابل استفاده نیست .
برای بررسی مطالعات مربوط به موضوعات آموزش زبان (Topic٠) و روان شناسی زبان (Topic٢) که براساس شکل های ۷-الف و ۷-د نوعی اشتراک موضوعی در مقالات ایجاد شده است ، ۱۰ واژٔە پرکاربرد این دو موضوع متعلق به بازٔە زمانی ۱۳۰۶ تا ۱۳۸۰ را با ۱۰ واژٔە پرکاربرد این دو موضوع متعلق به بازٔە زمانی ۱۳۹۶ تا ۱۳۹۹ مقایسه کردیم .