روش های برخورد با داده های گمشده: مزایا، معایب، رویکردهای نظری و معرفی نرم افزارها مقاله

نویسنده: باقی یزدل، رقیه ؛ جمالی، احسان ؛ خدایی، ابراهیم ؛ حبیبی، مجتبی ؛

نامه آموزش عالی بهار 1395 - شماره 33 رتبه علمی-ترویجی (وزارت علوم/ISC (‎28 صفحه - از 11 تا 38 )

کلیدواژه ها: داده های گمشده روش های جانهی نرم افزارهای کاربردی Missing Data Imputation Methods Applicable Software جانهی اطلاعات الگوریتم EM مقادیر گمشده برآورد پارامترها نرم‌افزار

fa en

چکیده:

در تحلیل داده ها، گاهی برخی مشاهدات به دلایل گوناگون و روش های متفاوت، گمشده محسوب می شوند. چگونگی برخورد با این مشاهدات در تحلیل داده ها، به دلیل اهمیت نتایج حاصل از آنها به ویژه در تصمیم گیری های حساس، از اهمیت به سزایی برخوردار است. پیش از این، برای غلبه بر مشکل داده های گمشده مرسوم ترین روش، حذف داده های گمشده بود که منجر به داده هایی با کیفیت پایین و به تبع آن تحلیل و استخراج نتایج دارای سوگیری می شد. امروزه با پیشرفت های علمی در حوزه های گوناگون و پیدایش روش های توانمند آماری، می توان پیش از مد ل سازی داده های ناکامل، مقادیر گمشده را با مقادیر مناسب جایگذاری یا برآورد کرد. در این مقاله، به بررسی انواع داده های گمشده، روش های جانهی، مفروضه ها، مقایسه روش های جانهی و مزایا-معایب آنها و معرفی مختصر نرم افزارهای کاربردی در این حوزه پرداخته شده است. برای تحلیل داده ها (با استفاده از نرم افزار R) یک نمونه داده تجربی مربوط به نتایج نود و یکمین آزمون تولیمو در سال 1393 ارائه شده است. نتایج نشان داد که در خصوص این داده ها از بین سه روش جانهی چندگانه، الگوریتم EM و الگوریتم DA، با توجه به معیار MSE، الگوریتم EM، بهترین عملکرد را داشته است.

خلاصه ماشینی:

"کارهای زیادی در زمینه روش‌های جانهی برای داده‌های گمشده انجام شده است (ون بورن 12 ، 2012)؛ اما بیشتر این Missing data imputation biases Wayman Not responded Omitted Not reach panel data Little & Rubin Inflated standard errors De Leeuw Van Buuren روش‌ها برای داده‌های پیوسته و غالبا مبتنی بر فرض نرمال بودن پاسخ‌ها است. همچنین در این روش Missingness that depends on the missing value itself Nirelli et al Deletion of missing data Glynn & Laird حذف مقادیر گمشده می‌تواند به دور ریختن اطلاعات با ارزش منجر شود و داده‌های باقیمانده نمونه خوبی برای کل داده‌ها نباشند (وایمن، 2003). در برخی موارد، این روش‌ها صرفا در پیشینه پژوهشی متون مقادیر گمشده ذکر نمی‌شوند بلکه با شرایطی مجموعه داده‌های «نامتعادل» را توصیف می‌کنند، که در آن داده‌ها در یک زمان واحد اندازه‌گیری نشده است و نوعی حالت عدم تعادل زمانی در Graham &amp; Hofer Yuan Schimert Jo¨reskog & So¨rbom Muthe´n & Muthe´n Bryk Multilevel Models Project Insightful اندازه‌گیری داده‌ها وجود دارد. Neale Arbuckle & Wothke von Hippel Honaker King et al Sectional surveys Time series data Time series data / cross Imai علاوه بر این، یک بسته نرم‌افزاری تکمیلی در دسترس است که نصب Amelia II را بدون نیاز به هر دانشی و یا حتی اجرای مستقیم، در سیستم R به کاربر اجازه می‌دهد، اگر این مسیر ترجیح داده شود، Amelia می‌تواند مجموعه داده را برای تحلیل و ترکیب در بسته دیگری، خروجی دهد (هورتون و همکاران، 2007)."

دریافت فایل ارجاع :
(پژوهیار, , , )

دانلود PDF
دانلود HTML

صفحه:

ورود / عضویت

برای مشاهده محتوای مقاله لازم است وارد پایگاه شوید. در صورتی که عضو نیستید از قسمت عضویت اقدام فرمایید.

ورود

عضویت

تحتاج دخول لعرض محتوى المقالة. إذا لم تكن عضوًا ، فتابع من الجزء الاشتراک.
إن كنت لا تقدر علی شراء الاشتراك عبرPayPal أو بطاقة VISA، الرجاء ارسال رقم هاتفك المحمول إلی مدير الموقع عبر webmaster@noormags.com .

You need Sign in to view the content of the article. If you are not a member, proceed from part Sign up.
If you fail to purchase subscription via PayPal or VISA Card, please send your mobile number to the Website Administrator via webmaster@noormags.com .

لینک کوتاه:

1402

1401

1400

1399

1398

1397

1396

1395

1394

1393

1392

1391

1390

1389

1388

1387

روش های برخورد با داده های گمشده: مزایا، معایب، رویکردهای نظری و معرفی نرم افزارها مقاله