راهنمای نگارش پایان نامه و مقاله درباره تشخیص هرزنامه وب ...

هرزنامه نویسان می توانند یک صفحه هرزنامه را به وسیله تغییر مسیر خودکار مرورگر به یک URL که به زودی بارگذاری می شود، پنهان کنند. بنابراین صفحه هرزنامه به موتور جستجو برای شاخص سازی داده می شود و صفحه هدف به کاربر از طریق تغییر مسیر نشان داده می شود. یک راه برای تغییر مسیر استفاده از برچسب های متا و تنظیم زمان refresh به صفر است، راه دیگر استفاده از اسکریپت ها است] ۳۱[.

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

هرزنامه مبتنی بر لایه:
لایه های CSS مفاهیم جدیدی در وب ۲ هستند. لایه ها می توانند به عنوان بخش^[۳۱] های صفحه HTML دیده شوند و CSS می تواند برای نمایش لایه های متفاوت در یک صفحه در نظر گرفته شود. هرزنامه نویسان این لایه را به Invisible تغییر می دهند، در حالیکه محتویات این لایه هرزنامه است. کاربرعادی نمی تواند محتویات هرزنامه را ببیند اما ربات های موتورهای جستجو می توانند مشاهده کنند ] ۳۳[.
سایر انواع هرزنامه ها :
هرزنامه های کپی:
هرزنامه نویسان محتویات وب سایت های شناخته شده را به صفحه خود کپی می کنند.برای مثال هرزنامه نویسان محتویات را از dmoz یا ویکی پدیا کپی می کنند و سپس لینک هایی را به سایت های اسپم در این صفحات قرار می دهند یا فقط تبلیغات و آگهی قرار می دهند ] ۳۳[.
هرزنامه پرس و جو:
هرزنامه نویسان به ربات های پرس و جو اجازه جستجو می دهند لاگ فایل های پرس و جوی خود را آلوده کنند] ۳۳[.
هرزنامه نوار ابزار:
هرزنامه نویسان به موتورهای جستجو اجازه جستجوی داده های نوار ابزار باگ را میدهند که منجر به آلوده شدن لاگ فایل های مربوطه می شود ] ۳۳[.
۲-۵- یادگیری ماشین:
شاخه ای برای طراحی و توسعه الگوریتم هایی که یاد می گیرند. در اینجا “یادگیری” به این معناست که برای یک وظیفه، الگوریتم می تواند کارایی را در طی زمان به وسیله داده های بیشتر بهبود دهد. یادگیری ماشین می تواند جستجو برای مدلهایی که تقریب خوبی از یک تابع ناشناخته که سیستم در حال پرسش را توصیف می کنند، باشد.
فرض بر این است که یک تابع y=f(x) داریم که ورودی x را به خروجی y نگاشت می کند. ما f واقعی را نمی دانیم اما ما مشاهداتی روی ورودی، گاهی روی خروجی و داده های آموزشی داریم. یادگیری فرایند جستجو برای یک f’ است که منطبق بر مشاهدات است.تابع f’ اغلب به عنوان مدل است و مجموعه ای از توابع که تابع از آن انتخاب شده به عنوان فضای فرضیه در نظر گرفته می شود.
مجموعه داده استفاده شده برای یادگیری، داده های آموزشی^[۳۲] است. بعد از اینکه یک مدل از داده های آموزشی به وسیله الگوریتم های یادگیری ساخته می شود، به وسیله داده تست^[۳۳](داده های مشاهده نشده) برای دستیابی به دقت مدل ارزیابی می شود. دقت یک مدل طبقه بندی روی مجموعه تست به صورت زیر تعریف می شود:
دقت= تعداد نمونه های درست طبقه بندی شده / کل موارد تست
روش های یاگیری ماشین می تواند مبتنی بر ماهیت داده های آموزشی و شیوه ی استفاده، به عنوان مختلف تقسیم شود. در یادگیری نظارت شده یک مجموعه با پاسخ درست داده می شود. برای هر ورودی x در داده های آموزشی، ما خروجی صحیح y=f(x) را می دانیم. وظیفه، پیش بینی پاسخ برای ورودی های بعدی است. مدل، بعد از پردازش داده های آموزشی، نهایی می شود و اصلاحی در طی پیش بینی برای داده های دیده نشده صورت نمی گیرد.
در یادگیری بدون نظارت، پاسخ صحیح داده نمی شود. وظیفه، شرح داده ها در تعدادی کلاس یا پارامتر است. الگوریتم کشف می کند که چگونه داده ها سازماندهی شده اند و کلاس ها را شناسایی می کند. شکل شناخته شده یادگیری بدون نظارت، خوشه بندی است که داده ها از گروههایی (خوشه) تشکیل شده اند. داده های در یک گروه باید مشابه باشند و در گروه های مختلف مبتنی بر یک اندازه داده شده، با هم متفاوت باشند. وظیفه خوشه بندی، تعیین خوشه مناسب برای هر نقطه داده است.
یادگیری نیمه نظارت شده که ترکیبی از یادگیری با ناظر و بدون ناظر است. یک مجموعه داده می شود اما پاسخ تنها برای کسری از آنها داده می شود. این روش معمولاً یک قاعده ویژه در داده های بدون برچسب را شناسایی می کنند و داده های برچسب دار را بر روی آن استفاده می کنند.
نتایج نشان داده است که استفاده از داده های بدون برچسب و تست، یادگیری را بهبود می دهد. با بهره گرفتن از یادگیری نیمه نظارت شده، هزینه زیاد داده های برچسب دار می تواند کاهش یابد ]۲۴ .[
مختصراً تعدادی از تکنیکهای یادگیری ماشین را شرح می دهیم:
۲-۵-۱- NaΪve Bayes:
طبقه بندی کننده NaΪve Bayes یک رویکرد مبتنی بر استنتاج بیز است. یک نمونه …….,) x_k= ( و یک کلاس H_i داده شده است. روش NaΪve Bayes، احتمال تعلق x_k را به H_i محاسبه می کند، به طوری که ]۳۴[:
P(H_i|,……,)=
حال برای هر x_i، ما احتیاج به تعیین کلاس H_i با بالاترین احتمال داریم :
برای همه i:j که i≠j P(H_i|x_k)>P(H_L|x_k)
از آنجایی که مخرج در معادله بالا ثابت است، داریم:
P(H_i|,……,)=Z. P(H_i|,……,)P(H_i)
که Z یک مقدار ثابت مستقل از H_i است.
قاعده بیز، فرض می کند که تمام ویژگی های,……, مستقل هستند، بنابراین توزیع شرطی می تواند به این صورت محاسبه می شود:
P(H_i|,……,)=Z.P(H_i)
یک برچسب کلاس H*=H_i به هر نمونه کلاس x_k با یک قانون تصمیم که بیشترین احتمال را بر می دارد، اختصاص می یابد.
قاعده بیز، یک روش کاملاً ساده و سریع است. قاعده بیز برای طبقه بندی کردن اسناد متنی با بهره گرفتن از کلمات به عنوان ویژگی ها به خوبی عمل می کند ]۳۴[.
۲-۵-۲- درخت تصمیم:
درخت تصمیم یک طبقه بندی کننده است که در شکل یک درخت دودویی ارائه شده که هر گره آن مربوط به یک متغییر است و به ما احتمال تحقق آن متغییر را نشان می دهد. برای یک نمونه داده …….,) ( x_k=، گره های برگ مربوط به احتمال کلاس H هستند.
هدف اصلی درخت تصمیم، ساخت فرضیه های کلاس مبتنی بر ویژگی های مشاهده شده از داده های آموزشی است. خروجی درخت تصمیم می تواند برای تعیین برچسب کلاسِ یک نمونه کلاس بندی نشده با در نظر گرفتن تحقق ویژگی های توصیفی آن استفاده شود ]۲۴[.
یادگیری درخت اغلب به کمک استراتژی تقسیم و غلبه انجام می گیرد که تقسیمات داده، درخت را به صورت بازگشتی تولید می کنند. در ابتدا همه نمونه ها در ریشه هستند، همانطور که درخت رشد می کند نمونه ها نیز به صورت بازگشتی تقسیم می شوند.
در یادگیری درخت، هر بازگشتی، بهترین خصیصه را برای قسمت بندی داده در گره جاری مطابق با مقدار خصیصه انتخاب می کند.
بهترین خصیصه براساس یک تابع انتخاب می شود که ناخالصی را بعد از تقسیم حداقل می کند، پس نکته کلیدی در درخت تصمیم گیری انتخاب تابع ناخالصی است ]۳۵٫[
تابع ناخالصی که اغلب در یادگیری درخت تصمیم مورد استفاده قرار می گیرد information gain می باشد که در C4.5 مورد استفاده می باشد.
Information gain مبتنی بر تابع انتروپی می باشد ]۳۵٫[
entropy(D)=-) )
(۲-۹)
)=۱
، احتمال کلاس c_j در مجموعه داده D است. واحد انتروپی بیت است.روند به این صورت است که وقتی داده ها خالص تر و خالص تر می شوند، مقدار انتروپی کوچک و کوچکتر می شود.
در واقع روشن است که اندازه انتروپی، مقدار ناخالصی در داده را نشان میدهد. همان چیزی که ما در یادگیری درخت تصمیم احتیاج داریم.
Information gain:
در مجموعه داده D، نخست از تابع انتروپی برای محاسبه مقدار ناخالصی D استفاده می کنیم، همان entropy (D).
سپس نیاز داریم که بدانیم کدام خصیصه میزان ناخالصی را کاهش می دهد. برای پیدا کردن آن، هر خصیصه مورد ارزیابی قرار می گیرد.
انتروپی بعد از تقسیم

فرم در حال بارگذاری ...

فید نظر برای این مطلب

شن	یک	دو	سه	چهار	پنج	جم
<< <				> >>
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

وبلاگ

توضیح وبلاگ من

راهنمای نگارش پایان نامه و مقاله درباره تشخیص هرزنامه وب ...