وبلاگ

توضیح وبلاگ من

پروژه های پژوهشی درباره :پیش پردازش داده های نا متوازن ...

 
تاریخ: 29-09-00
نویسنده: فاطمه کرمانی

با بهره گرفتن از این کرنل ها، سطح تصمیم گیری در فضای ورودی  به شکل منحنی چند جمله ای از درجه d در می ­آید.
2-8-9-2 کرنل های شبکه عصبی[70]
استفاده از طبقه بندی کننده­ های شبکه عصبی نیاز به تعریف خاص معماری، تعداد لایه ها و واحدهای تشکیل­دهنده هر لایه دارد.وقتی از کرنل­های هلالی شکل(S مانند) به فرم  برای یک  خاص استفاده می­کنیم، SVM می ­تواند به عنوان یک لایه مخفی طبقه بندی کننده شبکه عصبی با تعداد واحدهای برابر با تعداد sv ها در نظر گرفته شود. در این حالت وزن های اتصالات از ورودی به لایه مخفی برابر با مقدار sv ها می­باشند و به همین ترتیب وزن های اتصالات از لایه مخفی به خروجی برابر با پارامترهای آموزش هستند.

( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

2-8-9-3 کرنل های گوسی[71]
فرم این کرنل ها مطابق زیر می باشد :

این کرنل ها یک ضرب نقطه ای در فضایی با ابعاد نامحدود بوده و جداپذیری دو مجموعه با برچسب های متفاوت را تضمین می­ کنند.اگرچه بعد VC یک مجموعه از SVM اموزش دیده شده با بهره گرفتن از کرنل گوسی نامحدود است ولی عملکرد این کرنل در عمل وقتی که  درست انتخاب شود بسیار خوب است. اگر  خیلی بزرک انتخاب شود فرم نمایی کرنل تقریبا به صورت خطی عمل می­ کند و می ­تواند بیانگر یک نگاشت خطی به فضای ویژگی ها با ابعاد بالاتر باشد که بی فایده به نظر می­رسد.(شکل د- با=1000  )
از طرف دیگر اگر  خیلی کوچک انتخاب شود تابع کرنل انعطاف پذیر نمی ­باشد و در نتیجه مرز تصمیم گیری ناهموار و نسبت به داده های نویزی دارای حساسیت بالا می­باشد]11[. (شکل ج- با  10=)
بنابراین با انتخاب مناسب  میتوان مشکلات بالا را حل کرد. (شکل ب- با=50  )

شکل (2-15)-مثالی از تقسیم بندی غیر خطی با کرنل گوسی بر روی داده های قسمت الف به این ترتیب که ناحیه سفید منطبق بر کلاس مثبت(•) و ناحیه سیاه منطبق با کلاس منفی (*)می باشد.الف : داده های آموزشی، ب : کرنل گوسی با  50=، ج: کرنل گوسی با  10=، د: کرنل گوسی با  1000= ]11[
معمولا انتخاب  اینگونه انجام می­ شود که ابتدا طبقه بندی کننده SVM را با  های مختلف آموزش داده، سپس  ای را برای طبقه بندی کننده انتخاب می­کنیم که کمترین نرخ خطا را روی یک مجموعه معتبر داشته باشد(شکل 2-16).
شکل (2-16)- منحنی تغییرات خطا نسبت به مقادیرمختلف  ]11[

2-9 تکنیک های پیش پردازش نامتوازن

مشکل عدم توازن در بسیاری از حوزه های نرم افزار وجود دارد که از آنها می­توان به این موارد اشاره کرد: تشخیص نشت نفت در تصاویر ماهواره ای، طبقه بندی متن، مدیریت ریسک، بازیابی اطلاعات و وظایف فیلترینگ، تشخیص پزشکی(مانند بیماری نادر و تشخیص جهش ژنتیکی نادر)، تشخیص نفوذ، تشخیص تقلب و .. از دیدگاه برنامه های کاربردی، ماهیت عدم تعادل در دو مورد اتفاق می­افتد: داده ها به طور طبیعی نامتعادل هستند (مانند تقلب در کارت های اعتباری و بیماری های نادر) و یا اینکه داده ها به طور طبیعی نامتعادل نیستند اما به دست آوردن اطلاعات مربوط به کلاس اقلیت هزینه زیادی را در بردارد]34[.
ماشین بردارپشتیبان یک تکنیک یادگیری ماشین است.این تکنیک به دلیل تمام مزیت های نظری و عملی آن، مانند قابلیت تعمیم بالا و توانایی پیداکردن راه حل های غیرخطی و عمومی طبقه بندی در میان محققان داده کاوی و یادگیری ماشین بسیار محبوب شده است. اگرچه SVM در برخورد با مجموعه داده های متوازن به خوبی عمل می­ کند اما در مواجهه با مجموعه داده های نامتوازن، نتایج کمتر از حد مطلوب تولید می­ کند.به همین دلیل کلاسه بند SVM مدل هایی با بهینگی کمتر از حد مطلوب تولید می­نماید که به سمت کلاس اکثریت گرایش داشته و مانند بسیاری از پارادایم­های طبقه ­بندی در ارتباط با کلاس اقلیت کارایی پایینی دارد.برای کاهش این مشکل SVM، تکنیک های الگوریتمی و روش های متفاوت پیش پردازش داده ارائه شده است.در این بخش به بررسی و تشریح این تکنیک ها می­پردازیم.

2-9-1 ماشین بردار پشتیبان و مشکل عدم توازن کلاس

اگرچه SVMها برای مجموعه داده های متوازن، نتایج موثری را تولید می­ کنند اما آنها به عدم توازن در مجموعه داده ها حساس هستند و مدلهایی با بهینگی کمتر[72] را تولید می­ کنند. مطالعاتی در این زمینه صورت گرفت و دلایلی در ارتباط با اینکه چرا ماشین بردار پشتیبان می ­تواند به عدم توازن کلاس حساس باشد، ارائه شد.این دلایل در زیر مورد بحث قرار میگیرد.

2-9-1-1 عیب مشکل بهینه سازی با ناحیه مرزی نرم

استفاده از مدل SVM برای مجموعه داده نامتوازن، باعث می­ شود که ابرصفحه جدا کننده به سمت کلاس اقلیت منحرف شود و این عدم تقارن می ­تواند کارایی مدل را در ارتباط با کلاس اقلیت کاهش دهد]16[.این پدیده را می­توان به صورت زیر تشریح کرد :
فرمول تابع هدف برای بهینه سازی ناحیه مرزی نرم SVM را در نظر بگیرید :

(2-34)
بخش اول تابع هدف بر به حداکثر رساندن حاشیه تمرکز می­ کند، در حالی که بخش دوم تلاش می­ کند تا جریمه طبقه بندی اشتباه را کاهش دهد.پارامتر تنظیمC [73] نیز می ­تواند به عنوان هزینه طبقه ­بندی اشتباه تخصیص داده شده، در نظر گرفته شود. از این رو، ما برای تمام نمونه های اموزشی، یک هزینه طبقه بندی اشتباه یکسان را درنظر می­گیریم(یک مقدار یکسان برای همه نمونه های مثبت و منفی).به منظور کاهش جریمه، تعداد کل طبقه بندی­های اشتباه را باید کاهش داد.
وقتی که مجموعه داده نامتوازن است، تراکم نمونه های کلاس اکثریت، حتی در اطراف ناحیه مرزی کلاس[74](جایی که ابرصفحه مطلوب عبور می­ کند)، بیشتر از نمونه های کلاس اقلیت است. در اینجا کلاس اکثریت را به عنوان کلاس منفی، و کلاس اقلیت را به عنوان کلاس مثبت در نظر می­گیریم.برای اینکه تعداد طبقه بندی اشتباه در یادگیری SVM کاهش یابد، ابرصفحه جداکننده می ­تواند به سمت کلاس اقلیت شیفت یابد(منحرف شود[75]). این تغییر مکان/مورب بودن، باعث تولید پیشگویی­های منفی غلط[76] بیشتری می­ شود و کارایی مدل را برای کلاس مثبت اقلیت[77] کاهش می­دهد.زمانی که عدم توازن کلاس زیاد باشد، SVM می ­تواند مدل هایی را تولید کند که ابرصفحه ی آنها به شدت مورب است و حتی ممکن است تمام نمونه ها را به عنوان نمونه های منفی تشخیص دهد]18[.
2-9-1-2 نسبت بردار پشتیبان نامتوازن[78]
افزایش عدم توازن داده های اموزشی باعث می­ شود که نسبت بردارهای پشتیبان مثبت و منفی نیز نا­­متقارن­تر شود]18[. فرض بر این بود که در نتیجه این عدم توازن، همسایگی یک نمونه تست که نزدیک به مرز قرار دارد، به احتمال زیاد تحت تسلط بردارهای پشتیبان منفی قرار می­گیرد و از این رو، بیشتر احتمال دارد که تابع تصمیم گیری، نقطه مرزی را به عنوان منفی طبقه بندی کند.اما این تصور بدین صورت مورد بحث قرار گرفت که با توجه به محدودیت ، مربوط به هر بردار پشتیبان مثبت باید از نظر مقدار از بردارهای پشتیبان منفی بیشتر باشد.در واقع این مقادیر به عنوان وزن در تابع تصمیم نهایی عمل می­ کنند (فرمول 2-33). و از این رو، بزرگتر در بردارهای پشتیبان مثبت، وزن بیشتری را از بردارهای پشتیبان منفی دریافت می­ کنند، که باعث کاهش تاثیر عدم توازن در بردارهای پشتیبان می­ شود.این می ­تواند دلیل بر این موضوع باشد که چرا SVM در مقایسه با سایر الگوریتم های یادگیری ماشین برای مجموعه داده نسبتا مورب، خیلی بد عمل نمی­کند]18[.
در ادامه این فصل به بررسی روش های موجود می­پردازیم.این روش ها مسئولیت رسیدگی به مشکل عدم توازن کلاس برای SVM را دارند.این روش ها به دو بخش روش­های پیش پردازش داده (روش­های خارجی) و روش­های اصلاح الگوریتمی SVM (روش­های داخلی) تقسیم می­شوند.

2-9-2 روش­های یادگیری عدم توازن خارجی[79] برای SVM (روش­های پیش پردازش داده)

2-9-2-1 روش­های نمونه برداری دوباره[80]

روش­های نمونه برداری در یادگیری نامتوازن باعث اصلاحات مجموعه داده نامتوازن می­شوند.این اصلاحات به منظور ارائه یک توزیع متعادل صورت می­گیرد.مطالعات نشان می­دهد که کلاسه­بندهای پایه برای مجموعه داده متوازن، عملکرد طبقه بندی بهتری را نسبت به مجموعه داده نامتوازن فراهم می­ کنند.این موضوع استفاده از روش­های نمونه برداری برای مجموعه داده های نامتوازن را توجیه می­ کند.اما کلاسه بندها نمی ­توانند از مجموعه داده های نامتوازن یاد بگیرند.
برخی روش­های پیش پردازش داده برای متعادل کردن مجموعه داده که می­توانند قبل از آموزش مدل SVM بکار رود عبارتند از : زیر نمونه برداری تصادفی و متمرکز[81] ، بیش نمونه برداری تصادفی و متمرکز[82] و همچنین روش­های تولید داده های مصنوعی مانند SMOTE. از این روش­ها در حوزه های مختلفی برای آموزش SVM با مجموعه داده های نامتوازن استفاده شده است.
توزیع متوازن را می­توان از طریق زیرنمونه برداری کلاس اکثریت، بیش نمونه برداری کلاس اقلیت، ترکیب این روش ها و روش های نمونه برداری پیشرفته بدست آورد که در ادامه به توضیح برخی از آنها می­پردازیم.
2-9-2-1-1زیر نمونه برداری[83]
در این روش زیرمجموعه ای از مجموعه داده اصلی از طریق حذف برخی از نمونه ها انتخاب می­ شود.معمولا کلاس اکثریت تحت زیرنمونه برداری قرار می­گیرد. یکی از روش های زیرنمونه برداری غیر اکتشافی، زیرنمونه برداری تصادفی است. در این روش سعی می­ شود تا از طریق حذف تصادفی نمونه های کلاس اکثریت به تعادل در کلاس دست یابیم.این روش منجر به دور انداختن اطلاعات بالقوه مفیدی می­ شود که ممکن است برای کلاسه بندها مهم باشند.چندین روش اکتشافی نیز وجود دارد که در آن روش­ها از فرضیه های مختلفی برای انتخاب نمونه های نویز استفاده می­ شود. در برخی از این روش ها، نمونه هایی که نزدیک به مرز طبقه بندی دو کلاس قرار دارند به عنوان نویز در نظر گرفته می­شوند و در برخی از روش های دیگر نمونه هایی که بیشتر همسایگان آنها داده هایی با برچسب های گوناگون هستند به عنوان نویز در نظر گرفته می­شوند]38[.

2-9-2-1-2بیش نمونه برداری

در بیش نمونه برداری، نمونه هایی به مجموعه داده اصلی اضافه می­ شود.این کار از طریق کپی کردن نمونه های موجود و یا ایجاد نمونه های جدید صورت می­گیرد. بیش نمونه برداری تکراری روشی غیراکتشافی است که از طریق کپی کردن و تکثیر نمونه های کلاس اقلیت، منجر به ایجاد تعادل در توزیع کلاس می­ شود.این روش دارای کمبودهایی است. نخست آنکه احتمال وقوع بیش برازش را افزایش می­دهد. زیرا در این روش نمونه های کلاس اقلیت دقیقا کپی می­شوند. دوم آنکه این روش باعث افزایش زمان فرایند یادگیری می­ شود.
چندین روش اکتشافی بیش نمونه برداری بر مبنای روش بیش نمونه برداری اقلیت مصنوعی(SMOTE)[84] وجود دارد.در این روش برای بیش نمونه برداری کلاس اقلیت، نمونه های مصنوعی ساخته می­ شود و از کپی کردن نمونه ها استفاده نمی­ شود.در واقع از طریق درون یابی نقاط داده ای که در یک خط قرار دارند، می­توانیم نمونه های جدیدی بسازیم. در واقع زمانی که ما برای ایجاد نمونه های جدید، از روش درون یابی نمونه ها استفاده کنیم(به جای کپی کردن نمونه ها)، این کار از بیش-برازش جلوگیری می­ کند و باعث می­ شود که مرز تصمیم به سمت فضای کلاس اکثریت برود.
تشخیص نمونه هایی که نزدیک به مرز کلاس ها قرار دارند بسیار مهم است و این نمونه ها ممکن است به آسانی به شکل نادرستی طبقه ­بندی شوند.بنابراین روشی تحت عنوان Borderline_SMOTE ارائه شد. در این روش بیش نمونه برداری تنها بر نمونه های مرزی در کلاس اقلیت اعمال می­ شود]38[.
به خصوص روشی تحت عنوان بیش نمونه برداری متمرکز در سال 2010 با عملکرد کارا برای SVM ارائه شده است]19[.در این روش، ابتدا ابر صفحه جدا کننده ( که توسط آموزش مدل SVM بر روی مجموعه داده اصلی نامتوازن ایجاد شده)، برای انتخاب نمونه هایی استفاده می­ شود که این نمونه ها حاوی اطلاعات مفیدی هستند.این نقاط داده در اطراف ناحیه مرزی کلاس[85] قرار دارند.پس از آن برخلاف روش بیش نمونه­برداری کورکورانه(که برای تمام نمونه های مجموعه داده انجام می­ شود)، در این روش فقط این نمونه های انتخاب شده توسط روش Oversampling متعادل می­شوند.این متد، زمان مورد نیاز برای آموزش SVM را کاهش می­دهد و نتایج حاصل با روش بیش نمونه گیری اصلی قابل مقایسه است]19[.

2-9-2-1-3 SCM[86]

یکی دیگر از روش­های نمونه برداری مجدد متمرکز[87]، روشSCM است.این روش در ابتدا نمونه ها را با بهره گرفتن از متد خوشه­بندیkernel-k-means به خوشه های مجزا پارتیشن­بندی می­ کند.سپس با بهره گرفتن از نمونه های مثبت و نمایندگانی از خوشه های منفی، مدل SVM اولیه را اموزش می­دهد.یعنی نمونه های داده بیانگر مراکز خوشه هستند.با بهره گرفتن از این SVM اولیه، بردارهای پشتیبان و بردارهای غیرپشتیبان تقریبا شناسایی می­شوند. سپس برای حذف نمونه هایی که به احتمال زیاد بردارهای غیر پشتیبان هستند، از یک تکنیک کاهش[88] استفاده می­ شود. رویه خوشه­بندی و تکنیک کاهش چندین بار اعمال می­ شود تا به همگرایی[89] دست یابیم]20[.

2-9-2-1-4 نمونه برداری پیشرفته

روش­های نمونه­برداری پیشرفته نیز وجود دارد . یکی از آنها الگوریتم Boosting است.Boosting یک الگوریتم تکرارشونده است که در هر تکرار وزن های متفاوتی را به توزیع ها اختصاص می­دهد. Boosting بعد از هر تکرار، وزن نمونه هایی را که به نادرستی طبقه بندی شده اند افزایش داده و وزن نمونه­هایی را که به درستی طبقه بندی شده ­اند کاهش می­دهد. این امر باعث میشود که در تکرار بعدی، توجه یادگیرنده بیشتر بر روی نمونه­هایی که به نادرستی طبقه بندی شده ­اند متمرکز شود.توجه داشته باشید که این الگوریتم به طور موثری باعث تغییر در توزیع داده های آموزشی می­ شود.بنابراین میتوان آن را به عنوان یکی از روش های نمونه برداری پیشرفته در نظر گرفت.
2-9-2-1-5 تکنیک بیش نمونه برداری اقلیت مصنوعی[90]


فرم در حال بارگذاری ...

« مطالب درباره بررسی رابطه مدیریت دانش و نوآوری محصول ...دانلود مطالب در مورد بررسی صنایع بدیعی از دیدگاه زیبایی شناختی ... »
 
مداحی های محرم