چکیده:
امروزه محققان با انفجار اطلاعات مواجه شده اند. برای نمونه، چند منشا این اطلاعات، سرمایه گذاری های بسیار زیادی است که در تولید بانک های اطلاعاتی، انتقال مفاهیم (داده ها و اطلاعات) از طریق شبکه و کامپیوتری شدن فرآیندهای اجرایی انجام می گیرد. یکی از مجموعه داده هایی (Data bases) که حاوی اطلاعات ذی قیمتی درباره فاکتورهای موثر و احتمالا دارای همبستگی های خطی و غیرخطی (از دیدگاه تحلیل رگرسیونی) برای موضوع تصادفات است، نرم افزار سیستم جامع تصادفات جاده ای موسوم به نرم افزار تحلیل فرم های کام113 و کام114 است. این پژوهش با توجه به اهمیت دانش پنهان در انبوه اطلاعات موجود در مجموعه داده های یادشده و لزوم به کارگیری مدیریت دانش در این خصوص بالاخص به کار گیری الگوریتم های تحلیلی در حوزه داده کاوی هم اکنون طی موضوع تحقیقی ای با عنوان بررسی علل و عوامل موثر بر تصادفات بر اساس مدل های رگرسیونی LR و CART به تحلیل رگرسیونی درختی و لجستیک متغیرهای مستقل و وابسته پرداخته است. بر این عقیده ایم که این روش ها اساسا متکی به الگوریتم ها و ساختارهای داده برای آمار محاسباتی با کارایی بالا خواهند بود. همچنین معتقدیم برای اینکه یک سیستم اکتشاف واقعا برای جامعه اطلاعاتی محققان ترافیک مفید باشد باید بتواند تحلیل را به محض اینکه دانشمندان پرسش هایشان را فرمول بندی می کنند و فرضیه شان را توضیح می دهند، انجام دهد. این کار، نیاز به ساختارهای داده مقیاس پذیر و الگوریتم هایی دارد که قادر باشند میلیون ها نقطه داده را با ده ها یا ده ها هزار بعد روی سخت افزارهای محاسباتی مدرن در زمان چند ثانیه تحلیل کنند که نیازمند طراحی الگوریتم های مبتنی بر چنین نیازی بوده و تا حصول منظور نهایی در چنین سیستم اکتشافی که به محققان امکان می دهد به جای علم محاسبات روی موضوع تحقیقشان متمرکز شوند، گام های نپیموده بسیاری هست که در حوصله این مقاله نمی گنجد. این مقاله می کوشد با معرفی الگوریتم درخت تصمیم علاوه بر آموزش روش تحلیلی یادشده، محققان حوزه ترافیک را با یکی از ابزارهای داده کاوی آشنا کند.
خلاصه ماشینی:
"امروزه دیگر نمیتوان آنچنان که باید و شاید تنها با به کارگیری سیستمها و تکنیکهایسنتی از دادههای بانکهای اطلاعاتی استفاده برد زیرا این دادهها معمولا جزو دادههایدست دوم محسوب میشوند و براساس نیاز محقق برای دستیابی به اطلاعات خاص در موردفرضیه،سوال یا هدف پژوهشی موردنظر به دست نیامدهاند تا به استخراج سریع اطلاعاتموردنظر و پردازش دادههای موجود پرداخته شوند و به همین جهت نیاز به طراحیسیستمهایی که قادر به اکتشاف و دستیابی به اطلاعات موردنظر کاربران با تاکید بر مداخلهحد اقل انسان و با همان سرعتی که دادهها در بانکهای اطلاعاتی تولید میشوند،احساسشده است4.
این مرحله را مرحله یادگیری{P8P}گوییم که در آن یک الگوریتم طبقهبندی یک مدل را با تحلیل مجموعهای آموزشی{P9P}که از{P(1)- laveirteR noitamrofnI P} {P(2)- noitcartxE noitamrofnI P} {P(3)- gniniM ataD dna yrevocsiD egdelwonK P} {P(4)- ykstetaiP P} {P(5)- dayyaF P} {P(6)- gninraeL enihcaM P} {P(7)- ecneiS retupmoC P} {P(8)- gninraeL P} {P(9)- tes gniniart P} مولفههای پایگاه است میسازد و برچسب طبقههای مربوط به این مولفهها را مشخصمیکند.
هنگامیکه دقیقا دو شاخه از یک گره داخلی منشعب شود(چنین درختی را درخت دوحالته{P6P}میگویند)-همانطورکه در شکل شماره یک نشان داده شده-هریک از این دو شاخهمیتواند نماینده یک عبارت درست یا غلط برچسب خصوصیات معلوم باشد.
انواع روشهای پایه برنامهریزی گسسته عبارتند از:جستوجوی کامل،روش برنامهریزیدینامیک و روش شاخهها و اتصالات،استفاده از این روشها برای درخت تصمیم نیاز بهکاربسیار زیادی دارد مخصوصا اگر تعداد مشاهدات یا تعداد خصوصیتها زیاد باشد بنابراینروشهای تقریبی را در نظر میگیریم که عبارتند از:روش شاخهبندی ساختمانی،روشهرس کردن و روش برگشتی.
عمل تعریف درجه توافق برای شاخهبندی گره(قانون توقف یک گره آزاد(گرهای که شاخهای از آن منشعب نشده)را در درخت در نظر بگیرید کهمشخص نیست آیا این گره یک برگ است یا اینکه باید شاخهبندی شود."