استفاده از داده کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی و ایجاد یک سیستم تشخیص،  …

افزایش: ۴۵۰۰۰۰ < PLT

۱۴

ESR

کاهش، نرمال، افزایش

کاهش: ۱ > ESR
نرمال: ۱۸ ≤ ESR ≤ ۱
افزایش: ۱۸ < ESR

۱۵

CRP

کاهش، نرمال، افزایش

کاهش: ۰٫۸> CRP
نرمال: ۴ ≤ CRP ≤۰٫۸
افزایش: ۴ < CRP

۱۶

BS

کاهش، نرمال، افزایش

کاهش: ۷۰ > BS
نرمال: ۱۲۷ ≤ BS ≤ ۷۰
افزایش: ۱۲۷ < BS

۴-۶٫ نمونهبرداری[۸۰]
پیش از عملیات ردهبندی، ابتدا باید مجموعهی داده به دو بخش آموزش و آزمون تقسیم شود. روشهای متفاوتی برای نمونهبرداری از مجموعه دادهی اصلی و تولید مجموعهی آموزش و آزمون وجود دارد. از آنجا که دادههای مورد استفاده در این تحقیق بهشدت نامتوازن هستند، بنابراین درصورت استفاده از روش نمونهبرداری تصادفی برای تهیه مجموعهی آموزش و آزمون، این احتمال وجود دارد که هیچیک از افرادی که تومور بدخیم دارند، در مجموعهی آموزش قرار نگیرند و به این ترتیب ردهبند نهایی به هیچ وجه قادر به تشخیص این رده نخواهد بود. برای حل این مشکل، از روش نمونهبرداری طبقهبندی شده[۸۱] برای تولید مجموعهی آموزش و آزمون استفاده شده است.
روش نمونهبرداری طبقهبندی شده، زمانی مورد استفاده قرار میگیرد که مجموعهی داده، شامل اقشار مختلفی باشد و بخواهیم تمام این اقشار در مجموعهی آموزش و همچنین در مجموعهی آزمون حضور داشتهباشند. در اینصورت بهجای اینکه مثلا ۵۰ درصد دادهها را بهعنوان مجموعهی آموزش در نظر بگیریم، از هر قشر ۵۰ درصد نمونهها را انتخاب کرده و تمام نمونههای انتخاب شده را بهعنوان مجموعهی آموزش در نظر میگیریم (مطابق شکل۴-۳). بنابراین با استفاده از این روش اطمینان داریم که مجموعهی آموزش، نمایندهی خوبی از تمام دادهها بوده و نمونههایی از هر قشر را شامل میشود [۲۶].
 
شکل۴-۳: نمونهبرداری طبقهبندی شده [۲۶]
فصل۵: نتایج و یافتههای تحقیق
۵-۱٫ مقدمه
در این فصل، نتایج حاصل از اجرای الگوریتمها با هم مقایسه میشوند. باتوجه به اینکه الگوریتم C5.0 که در فصل دوم توضیح داده شد، در اکثر معیارهای ارزیابی معرفی شده در فصل سوم، در تشخیص ردهی اقلیت بیماری مزمن انسدادی ریه موفق نبوده است، به همیندلیل از مقایسهی آن با الگوریتمهای دیگر در این تحقیق چشمپوشی کردیم.
۵-۲٫ ردهبندی
در این بخش نتایج حاصل از الگوریتمها را با هم مقایسه کرده و همچنین این الگوریتمها را با تعدادی از روشهای یادگیری در دادههای نامتوازن، مقایسه خواهیم کرد. پیادهسازی تمامی الگوریتمها و همچنین سایر روشهای موجود در مقایسات، با استفاده از نرمافزار دادهکاوی رپیدماینر[۸۲] انجام شده است. نتایج معرفی شده در هریک از جداول و شکلهای این فصل، شامل میانگین بهدست آمده از ۱۰ بار اجرای هریک از الگوریتمهای مورد بررسی میباشد.
همانطور که در فصل سوم گفته شد، معیارهای بازخوانی، دقت، معیار F و معیار G، برای ارزیابی ردهبند در مسائل نامتوازن مناسب هستند. همچنین برای مسائل چند ردهای، دو روش متفاوت برای میانگینگیری از نتایج معیارهای ردهها، معرفی شد که عبارت بودند از: میانگینگیری میکرو و میانگینگیری ماکرو. گفته شد که روش میانگینگیری میکرو، بهسمت کارایی ردهبند ردهی اکثریت متمایل است و به همین دلیل برای مسائل نامتوازن مناسب نیست. به همین جهت در این بخش، از روش میانگینگیری ماکرو استفاده شده است[۸۳].
۵-۲-۱٫ مقایسهی الگوریتمهای پایه
در این بخش الگوریتمهای شبکهی عصبی[۸۴]، ماشین بردار پشتیبان[۸۵]، CHAID، ID3 مقایسه شده است. این الگوریتمها بهطور مختصر در فصل دوم معرفی شدهاند.

دانلود متن کامل پایان نامه در سایت jemo.ir موجود است

برچسب ها :

ناموجود