وبلاگ

توضیح وبلاگ من

منابع کارشناسی ارشد با موضوع هدایت فازی ربات های خود ...

 
تاریخ: 29-09-00
نویسنده: فاطمه کرمانی

واکنش

توانایی سامانه درپاسخگویی و وفق­پذیری با تغییرات ناگهانی محیط

عملکرد بهینه

قابلیت سامانه در به دست آوردن تابع هزینه بهینه از نظر معیارهای حرکت نظیر زمان، فاصله، برخورد و غیره

یادگیری وظایف

توانایی یادگیری وظایف مشخص توسط سامانه با بهره گرفتن از مربی یا عملیات خود

قدرتمندی

توانایی سامانه در اداره تغییرات ناگهانی، ورودی­های ناقص و بد عمل کردن

طرح ریزی

مجموعه ­ای از دستورات که بایستی توسط ربات اجرا شوند

کارآمدی

مجموعه ­ای از قابلیت­ها و عملکردها که برای تولید یک مسیر بهینه و هموار به کار می­آیند

( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

فصل سوم
منطق فازی، یادگیری Q
و بهینه سازی کلونی زنبور مصنوعی

منطق فازی، یادگیری Q و بهینه­سازی کلونی زنبور مصنوعی

مقدمه
ابزارهای مورد استفاده در طراحی الگوریتم پیشنهادی برای ناوبری ربات، شامل منطق فازی، یادگیری Q و الگوریتم بهینه­سازی کلونی زنبور مصنوعی می­باشند. از منطق فازی به عنوان زیربنای واحد تصمیم ­گیری ربات، از یادگیری Q جهت تنطیم برخط سامانه تصمیم ­گیری فازی و از بهینه­سازی کلونی زنبور مصنوعی برای به دست آوردن پارامترهای توابع عضویت ورودی فازی و همچنین عامل فراموشی یادگیری Q بهره گرفته شد. جهت فراهم آوردن پیش­زمینه مناسب جهت ارائه الگوریتم پیشنهادی، در این فصل هر یک از این ابزارها به اختصار توضیح داده می­شوند.
منطق فازی
الگوریتم­های فازی در سه مرحله­ اصلی اجرا می­شوند: فازی سازی[۲۶]، استنباط[۲۷]، فازی زدایی[۲۸]. در مرحله­ فازی­سازی ورودی­های حسگرها با توجه به درجه­ عضویتشان با مجموعه صفات فازی، که در بازه‌ی بسته­ی ۰ و ۱ قرار دارند، توصیف می­شوند. به این مجموعه­های فازی اسامی­ای اختصاص می­یابند که چگونگی متغیر ورودی را با صفات قابل فهم و ساده بیان می­ کنند. تابع عضویت، مقدار متغیر ورودی را به یک درجه­ عضویت در هر مجموعه­ فازی نگاشت می­دهد. برای مثال جهت زاویه­ای یک مانع نسبت به ربات ممکن است مقداری بین -۹۰ و ۹۰ درجه داشته باشد. شکل(‏۳‑۱) تعریفی ممکن از مجموعه­های فازی را نشان می­دهد؛ که در آن می­بینیم چگونه زاویه­ی ورودی عددی، به طور زبانی و توسط درجات عضویت فازی به صفات چپ، جلو یا راست ربات نگاشت پیدا می­ کند. درجات عضویت فازی زوایه­ی ۳۰ درجه نیز در مجموعه­های جلو و راست در شکل مشخص شده ­اند.

شکل(‏۳‑۱): توابع عضویت فازی متغیرهای ورودی

مجموعه­های فازی قابلیت سازگاری با داده ­های غیردقیق را دارند. بدین ترتیب که اگر زاویه­ی ورودی غیردقیق حس شود، ممکن است درجه­ درستی آن در مجموعه­های فازی به طور مجزا و کمی تغییر کند، ولی درجه­ های عضویت نسبی آن در مجموعه­ها به طور کیفی یکسان خواهند بود. مجموعه­های فازی اغلب به صورت شکل­های خطی-تکه ای تعریف می­شوند تا پیچیدگی محاسباتی تعیین درجات عضویت در مجموعه­ها کاهش یابند. شکل­های معمول شامل مثلثی، مربعی، گوسین یا انواع مجانبی می­باشند. متغیرهای مورد توجه در کاربردهای رباتیک شامل فاصله از یک مانع و سرعت ربات می­باشد. مرحله­ استنباط، داده­ی ورودی فازی شده را در یک پایگاه قانون[۲۹] به کار می­گیرد تا فرمان خروجی را تعیین کند. پایگاه قانون شامل هوش عملیاتی سامانه است و مشابه استدلال انسان در تصمیم ­گیری می­باشد . یک قانون نمونه که ممکن است برای ربات متحرک به کار رود به صورت زیر است:
اگر زاویه ی مانع راست و فاصله نزدیک است، آنگاه جهت فرمان بزرگ و به چپ باشد.
یک پایگاه قانون بایستی تمامی جایگشت­های ممکن فازی متغیرهای ورودی را پوشش دهد. برای ترکیب صفات فازی متغیرهای ورودی، عملگرهای فازی مختلفی نظیر AND، OR و مجموع به کار می­روند. معمولاً از عملیات AND (min)، مانند مثال بالا، استفاده می­ شود. مرحله­ فازی­زدایی، خروجی عددی را با بهره گرفتن از استنباط قوانین استخراج می­ کند. روش­های فازی­زدایی معمولاً مستلزم تحلیل نواحی ایجاد شده توسط برش مجموعه­های خروجی به وسیله ی نتیجه­ عملیات بر روی ورودی­ ها است. مثالی از این نواحی ایجاد شده در شکل(‏۳‑۲) آمده است. روش­های متداول شامل به دست آوردن مرکز بزرگترین ناحیه[۳۰] و متوسط مقدار بیشینه[۳۱] می باشند [۴۲, ۴۳].

شکل(‏۳‑۲): روش فازی­زدایی متوسط مقدار بیشینه

اساسی­ترین مسایل در رباتیک عبارتند از: (۱) معمولاً مدل ریاضی از محیط در دسترس نمی ­باشد؛ (۲) داده ­های حسگرها نامطمئن و غیر دقیق هستند؛ (۳) عملکرد زمان واقعی ضروری است. منطق فازی خصوصیاتی دارد که آن را ابزاری کافی برای سازگاری با این مسایل رباتیک می­سازد. به طور کلی محققان سه مزیت اصلی برای روش­های فازی ذکر کرده ­اند. اولاً شکل قانون فازی، پیاده­سازی رفتارهای ساده و کارآمد را برای وظایف متنوعی بدون نیاز به مدل­های پیچیده­ ریاضی تسهیل می­نماید. دوماً به علت طبیعت کیفی، رفتارهای فازی مستعد انتقال از محیطی به محیط دیگر بدون نیاز به تغییرات می­باشند. نهایتاً طبیعت درون­یاب سامانه فازی منجر به حرکت هموار ربات و عملکردی قابل قبول در مواجه با خطاها و نوسانات در داده ­های حسگر می­ شود.
یادگیری Q
یادگیری تشدیدی یک نوع یادگیری ماشین است. ایده پایه در یادگیری تشدیدی این است که ربات در محیط قرار بگیرد و نتایج فعالیت های خود را مشاهده ­کند. ربات می ­تواند حالت[۳۲] فعلی (Xt) خود را مشاهده کند، سپس عملی[۳۳] اتخاذ کند. این عمل می ­تواند محیط را تغییر دهد و حالت ربات (Xt+1) می­ شود. ربات یک پاداش r برای تصمیم اتخاذ شده دریافت می­ کند. حین پردازش ربات سعی می­ کند رویه­ای[۳۴] در پیش بگیرد که این پاداش را بیشینه نماید.
یادگیری تشدیدی به ربات امکان می­دهد رفتار خود را از طریق سعی و خطا بهبود بخشد. انتخاب مناسب عمل برای حالت فعلی منجر به پاداش­ می­ شود، که در نتیجه رفتار سودمند را تشدید می­ کند. برعکس، انتخاب نامناسب عمل منجر به جریمه می­ شود، که رفتارهای غیرسومند را منع می‌کند. چهارچوب یادگیری تشدیدی بر بیشینه­سازی مجموع پاداش‌ دریافتی فعلی و تخمینی از پاداش­های آینده در طول زمان استوار است. ربات می­آموزد عمل­هایی را انتخاب کند که نتایج بلند مدت مثبت را تقویت کند. یادگیری تشدیدی بین کرانه­های یادگیری بامربی، که در آن رویه توسط یک نخبه آموزش داده می شود، و یادگیری بدون مربی، که در آن هیچ پسخور ارزیابی کننده ­ای وجود ندارد، قرار دارد. در یادگیری تشدیدی پسخور ارزیابی­کننده به شکل سیگنال اسکالر پاداش فراهم می­ شود. سیگنال پاداش متناسب با وظیفه‌ی مطلوب تعریف می­ شود. پاداش هنگامی داده می­ شود که سامانه به طور موفقیت­آمیزی وظیفه را انجام داده باشد. هدف سامانه یادگیری یافتن رویه‌ای است که مجموع تخفیف یافته[۳۵] (فراموش شده) پاداش­های مورد انتظار (تخمین زده شده) در آینده را بیشینه کند (معادله(۳-۱)).
(۳-۱)
که در آن E عملگر امید ریاضی است. rپاداش است. ɣ عامل فراموشی، بین ۰ و ۱ است. عامل فراموشی، پاداش­هایی که دیرتر به دست آمده اند را به طور نمایی کم ارزش می­سازد. یادگیری Q روشی برای حل مسایل یادگیری تشدیدی است، که به دلیل ساختار پویا، بدون مربی و مستقل از مدل، برای محیط­های واقعی بسیار مناسب است. در یادگیری Q، ربات محیط را به صورت جفت­های حالت-عمل مشاهده می­ کند، که به هر عمل یک مقدار Q منتسب است. انتقال از یک حالت به حالت دیگر (با اتخاذ عمل مناسب) می ­تواند برای ربات پاداش یا جریمه به همراه داشته باشد که طبق آن مقادیر Q به روز می­شوند (معادله(۳-۲)):
(۳-۲)
که درآن xحالت فعلی، aعمل اتخاذ شده در حالت xt و Q(xt,at) مقدار حالت xمی­باشد. V(xt+1) مقدار تخمین زده شده برای حالت جدید است. β و γ به ترتیب نرخ یادگیری و عامل فراموشی هستند که مقادیرشان در بازه­ی بسته ۰ و ۱ قرار می­گیرد. درالگوریتم پیشنهادی مقدار β طبق مرجع [۳۸] مساوی ۱ در نظر گرفته شده است. مقدار γ طی فرایند بهینه­سازی ۸/۰ به دست آمد. rt نیز سیگنال تشدیدی فوری می­باشد و در فصل بعدی تعریف می­ شود.
بهینه سازی کلونی زنبور مصنوعی
در مسایل بهینه سازی، عموماً یک تابع که به آن تابع هدف، تابع عملکرد و یا تابع هزینه گفته می­ شود، کمینه و یا بیشینه می­گردد. بهینه­سازی گاهی با قیود خاصی و گاهی نیز بدون داشتن قیود صورت می پذیرد. روش‌های بهینه­سازی که مبنی بر گرادیان تابع هدف هستند، در واقع جستجوی فضای راه حل­ها را به صورت نقطه به نقطه انجام می­ دهند، غالباً نیز قدرت رهایی از کمینه­های محلی را نداشته و در آن به تله می­افتند. در مقابل الگوریتم­های بهینه­سازی گروهی[۳۶]، نوعی از الگوریتم­های بهینه­سازی بدون مشتق­گیری هستند. شاخصه این روش­ها به تصادفی بودن آن­ها است و نقاط بهینه را در میان جمعیت به وجود آمده از اعداد تصادفی، جستجو می­ کنند. تصادفی بودن و ارائه چندین راه­حل در هر تکرار، این الگوریتم ها را قادر به یافتن بهینه سراسری می­نماید. مجموعه نقاط در یک دور محاسباتی، جمعیت و هر نقطه یک عضو جمعیت است. معمولاً جمعیت اولیه در این الگوریتم­ها به صورت تصادفی تولید می­ شود. اساس یک الگوریتم گروهی تکاملی تشکیل جمعیت اولیه، انتخاب و بهبود اعضا با معیار تابع هدف می­باشد. الگوریتم­های گروهی از طبیعت به منظور جستجو برای راه­حل بهینه الگو‌برداری می­ کنند و شامل بهینه سازی کلونی مورچه[۳۷]، الگوریتم ژنتیک[۳۸]، بهینه سازی دسته ذرات[۳۹]، الگوریتم زنبور عسل[۴۰] و بهینه­سازی کلونی زنبور مصنوعی می­باشند.
زنبور ها در طبیعت
کلونی حشرات اجتماعی می ­تواند به عنوان سامانه پویایی در نظر گرفته شود که اطلاعات را از محیط اطراف جمع­آوری می­ کند و رفتارش را با توجه به آن تنظیم می­نماید. در حین جمع­آوری اطلاعات و فرایند جستجو، حشرات به دلیل تخصصی بودنشان به تنهایی همه وظایف را انجام نمی­دهند. مدل کمینه جستجوی غذا که موجب ظهور هوش دسته جمعی زنبورهای عسل می­ شود، دو حالت رفتاری را تعریف می­ کند: سربازگیری برای منبع نکتار و ترک کردن منبع [۴۴]. این مدل شامل سه قسمت ضروری است:
منابع غذا: ارزش یک منبع غذا به پارامترهای مختلفی مثل نزدیکی به لانه، فراوانی انرژی (زیادی شهد) وسهولت بهره ­برداری بستگی دارد.
کاوشگرهای به کار گرفته نشده[۴۱]: اگر فرض شود که یک زنبور هیچ دانشی درباره منابع غذا ندارد، جستجوی خود را به عنوان یک کاوشگر به کار گرفته نشده شروع می­ کند. این زنبورها به دنبال منبع غذایی برای بهره ­برداری می­گردند. دو نوع کاوشگر به کار گرفته نشده وجود دارند.


فرم در حال بارگذاری ...

« دانلود پایان نامه بررسی اندیشه سیاسی چهار روشنفکر پیشامشروطه با تاکید ...نگارش پایان نامه در مورد بررسی کارایی درونی ... »