چکیده:
در تحلیل داده ها، گاهی برخی مشاهدات به دلایل گوناگون و روش های متفاوت، گمشده محسوب می شوند. چگونگی برخورد با این مشاهدات در تحلیل داده ها، به دلیل اهمیت نتایج حاصل از آنها به ویژه در تصمیم گیری های حساس، از اهمیت به سزایی برخوردار است. پیش از این، برای غلبه بر مشکل داده های گمشده مرسوم ترین روش، حذف داده های گمشده بود که منجر به داده هایی با کیفیت پایین و به تبع آن تحلیل و استخراج نتایج دارای سوگیری می شد. امروزه با پیشرفت های علمی در حوزه های گوناگون و پیدایش روش های توانمند آماری، می توان پیش از مد ل سازی داده های ناکامل، مقادیر گمشده را با مقادیر مناسب جایگذاری یا برآورد کرد. در این مقاله، به بررسی انواع داده های گمشده، روش های جانهی، مفروضه ها، مقایسه روش های جانهی و مزایا-معایب آنها و معرفی مختصر نرم افزارهای کاربردی در این حوزه پرداخته شده است. برای تحلیل داده ها (با استفاده از نرم افزار R) یک نمونه داده تجربی مربوط به نتایج نود و یکمین آزمون تولیمو در سال 1393 ارائه شده است. نتایج نشان داد که در خصوص این داده ها از بین سه روش جانهی چندگانه، الگوریتم EM و الگوریتم DA، با توجه به معیار MSE، الگوریتم EM، بهترین عملکرد را داشته است.
In some cases، in data analysis، missingness happens in the observations for different reasons and ways. How to deal with these observations in the data analysis process is very important، especially in the high stack decisions. Previously، the prevalent method to deal with missing data problems was to eliminate them، which resulted in low quality data and consequently، biased results. Today، due to the advances in various fields of science and powerful statistical methods، it is possible to apply imputation methods to replace the missing data with suitable values before modeling the incomplete data. In this paper، the various types of missing data، imputation methods، the assumptions، their advantages and disadvantages are discussed. In this setting، we shall try to provide applied examples using statistical software. Especially an applied example due to 91th TOLIMO test، which was provided by Iranian National Organization of Educational Testing، has been presented (NOET). Comparison of results according to MSE using three methods of multiple imputation، the EM algorithm and the DA algorithm، indicated that the EM algorithm had the best performance for analyzing this data set.
خلاصه ماشینی:
"کارهای زیادی در زمینه روشهای جانهی برای دادههای گمشده انجام شده است (ون بورن 12 ، 2012)؛ اما بیشتر این Missing data imputation biases Wayman Not responded Omitted Not reach panel data Little & Rubin Inflated standard errors De Leeuw Van Buuren روشها برای دادههای پیوسته و غالبا مبتنی بر فرض نرمال بودن پاسخها است.
همچنین در این روش Missingness that depends on the missing value itself Nirelli et al Deletion of missing data Glynn & Laird حذف مقادیر گمشده میتواند به دور ریختن اطلاعات با ارزش منجر شود و دادههای باقیمانده نمونه خوبی برای کل دادهها نباشند (وایمن، 2003).
در برخی موارد، این روشها صرفا در پیشینه پژوهشی متون مقادیر گمشده ذکر نمیشوند بلکه با شرایطی مجموعه دادههای «نامتعادل» را توصیف میکنند، که در آن دادهها در یک زمان واحد اندازهگیری نشده است و نوعی حالت عدم تعادل زمانی در Graham & Hofer Yuan Schimert Jo¨reskog & So¨rbom Muthe´n & Muthe´n Bryk Multilevel Models Project Insightful اندازهگیری دادهها وجود دارد.
Neale Arbuckle & Wothke von Hippel Honaker King et al Sectional surveys Time series data Time series data / cross Imai علاوه بر این، یک بسته نرمافزاری تکمیلی در دسترس است که نصب Amelia II را بدون نیاز به هر دانشی و یا حتی اجرای مستقیم، در سیستم R به کاربر اجازه میدهد، اگر این مسیر ترجیح داده شود، Amelia میتواند مجموعه داده را برای تحلیل و ترکیب در بسته دیگری، خروجی دهد (هورتون و همکاران، 2007)."