دوره یادگیری ماشین (Machin Learning with Python)

پیشنمایش
برنامه تحصیلی
مربی

دوره یادگیری ماشین (Machin Learning with Python)

یادگیری ماشین یکی از جذاب‌ترین و پرکاربردترین شاخه‌های علوم کامپیوتر است. در این فناوری سیستم‌ها و الگوریتم‌ها توانایی یادگیری از داده‌ها را به دست می‌آورند. یعنی یادگیری ماشین به سیستم‌ها اجازه می‌دهد تا از داده‌ها یاد بگیرند و بدون نیاز به برنامه‌نویسی صریح، عملکرد خود را بهبود بخشند.

این فناوری در دنیای امروز ارزش بسیاری دارد و شرکت‌ها و سازمان‌ها به دنبال افرادی هستند که در این زمینه متخصص باشند. به همین علت آموزش machine learning روز به روز اهمیت بیشتری پیدا می‌کند.

این فناوری از تشخیص چهره در عکس‌ها گرفته تا پیش‌بینی بازارهای مالی، یادگیری ماشین در بسیاری از زمینه‌ها کاربرد دارد. همچنین به عنوان یکی از ابزارهای قدرتمند در تحلیل داده‌ها و تصمیم‌گیری‌های هوشمند شناخته می‌شود. به همین علت توجه مدیران را به خود جلب کرده است. اگر قصد دارید مهارت‌های خود را در این زمینه افزایش دهید و در این حوزه مشغول به کار شوید، این مطلب را تا انتها کنید تا با بهترین دوره یادگیری ماشین آشنا شوید.

پیش نیاز آموزش machine learning

دوره آموزش machine learning، دوره‌ای تخصصی است؛ به همین علت افرادی که قصد دارند در این آموزش شرکت کنند باید پیش نیازهایی را گذرانده باشند. دانشجویان دوره آموزش ماشین لرنینگ باید با آمار و احتمال ریاضی، برنامه نویسی پایتون و آنالیز داده آشنا باشند و تسلط کافی به آن‌ها داشته باشند.

سرفصل آموزش machine learning | دوره یادگیری ماشین

بررسی روشهای گوناگون آماده سازی مجموعه دادگان
بررسی رویکردهای گوناگون دسته بندی داده ها
بررسی رویکرد نزدیکترین همسایه
بررسی رویکردهای گوناگون رگرسیون خطی
بررسی رویکرد ماشین بردار پشتیبان
بررسی رویکرد درخت تصمیم
بررسی رویکردهای گوناگون خوشه بندی اطلاعات
بررسی رویکردهای مختلف کاهش بعد
بررسی رویکردهای مختلف مدل های ترکیبی
بررسی ساختارهای گوناگون شبکه های عصبی
ادامه سر فصل ها …

روش‌های گوناگون آماده‌سازی مجموعه دادگان در یادگیری ماشین

یکی از اولین و مهم‌ترین مراحل در هر پروژه یادگیری ماشین، آماده‌سازی مجموعه دادگان است. داده‌های خام معمولاً پر از خطا، ناهماهنگی یا مقادیر گمشده هستند. این مشکلات می‌توانند عملکرد مدل را به شدت تحت تأثیر قرار دهند. به همین دلیل، آماده‌سازی دقیق و اصولی داده‌ها ضروری است. برای آماده‌سازی مجموعه دادگان، روش‌های مختلفی وجود دارد که به طور کلی می‌توان آن‌ها را در چند دسته تقسیم کرد که عبارت‌اند از:

تمیزسازی داده‌ها:تمیزسازی داده‌ها شامل حذف مقادیر تکراری، اصلاح خطاهای نوشتاری و جایگزینی مقادیر گمشده است. این مرحله شبیه به جاروکردن یک اتاق قبل از شروع به چیدمان آن خواهد بود.
رمزگذاری ویژگی‌ها:بسیاری از داده‌ها به صورت متنی ذخیره شده‌اند، اما مدل‌های یادگیری ماشین با داده‌های عددی بهتر کار می‌کنند. در یادگیری ماشین روشی مانند One-Hot Encoding وجود دارد که می‌تواند داده‌های متنی را به عددی تبدیل کند تا استفاده از داده‌ها راحت‌تر و بهتر شود.
استانداردسازی و نرمال‌سازی:برای اطمینان از این‌که تمام ویژگی‌ها در مقیاس یکسان قرار دارند، می‌توان از استانداردسازی (تبدیل مقادیر به مقیاس میانگین صفر و واریانس یک) یا نرمال‌سازی (تبدیل مقادیر به بازه 0 تا 1) استفاده کرد.
تقسیم‌بندی داده‌ها:داده‌ها معمولاً به سه دسته آموزش، اعتبارسنجی و آزمون تقسیم می‌شوند. این تقسیم‌بندی به مدل کمک می‌کند که عملکرد خود را در شرایط مختلف آزمایش کند.

این روش‌ها که در دوره آموزش machine learning به صورت کامل آموزش داده می‌شوند،تضمین می‌کنند که داده‌ها به درستی آماده شده‌اند و مدل‌های یادگیری ماشین قادرند بهترین استفاده را از آن‌ها داشته باشند.

انواع رویکرد در دسته‌بندی داده‌ها در یادگیری ماشین

دسته‌بندی داده‌ها یکی از اصلی‌ترین وظایف در یادگیری ماشین است. در این فرایند، مدل سعی می‌کند داده‌ها را به دسته‌های مشخص تقسیم کند. برای مثال، تشخیص ایمیل‌های اسپم از غیر اسپم یا پیش‌بینی نوع بیماری بر اساس علائم بیمار، نمونه‌هایی از دسته‌بندی داده‌ها هستند. برای انجام این کار، از رویکردهای متنوعی استفاده می‌شود که برخی از مهم‌ترین این رویکردها شامل موارد زیر هستند:

بیز ساده(Naive Bayes): این الگوریتم بر اساس تئوری احتمال کار می‌کند. الگوریتم بیز ساده فرض می‌کند که ویژگی‌های داده‌ها مستقل از یکدیگر هستند. اگرچه این فرض ممکن است در عمل همیشه درست نباشد، اما نتایج شگفت‌آوری نمایش خواهد داد.
ماشین بردار پشتیبان(SVM): SVM با استفاده از یک ابرصفحه (Hyperplane) داده‌ها را به دو دسته تقسیم می‌کند. این الگوریتم برای داده‌های با ابعاد گسترده و زیاد در زمانی که مرز میان دسته‌ها غیرخطی است، کارآیی زیادی دارد.
درخت تصمیم(Decision Tree): از دیگر رویکردهای دسته‌بندی داده‌ها می‌توان به درخت تصمیم اشاره کرد. این رویکرد با تقسیم داده‌ها بر اساس شرایط مختلف، ساختاری شبیه به درخت ایجاد می‌کند. هر گره از درخت نشان‌دهنده یک تصمیم است که در نتیجه به دسته‌بندی داده‌ها کمک خواهد کرد.
شبکه‌های عصبی مصنوعی(ANN): این روش با الهام از مغز انسان طراحی شده و می‌تواند روابط پیچیده و غیرخطی بین داده‌ها را یاد بگیرد. شبکه‌های عصبی مخصوصاً برای داده‌های بزرگ و پیچیده مانند تصاویر و ویدئوها بسیار مناسب هستند.
K- نزدیک ترین همسایگان (KNN):این الگوریتم، داده‌های جدید را بر اساس نزدیکی به داده‌های موجود در مجموعه یادگیری، دسته‌بندی می‌کند. این روش ساده اما مؤثر است و برای مسائل کوچک و داده‌های با ساختار مشخص بسیار کاربردی دارد.

هر یک از این رویکردها دارای مزایا و محدودیت‌های خاص خود هستند. انتخاب بهترین روش به نوع داده‌ها و مسئله‌ای که قرار است حل شود، بستگی به نوع و اندازه پروژه دارد. دانشجویان در آموزش machine learning یاد می‌گیرند که از چه رویکردی برای دسته‌بندی چه داده‌هایی باید استفاده کرد تا نتیجه مورد نظر را به دست آورند.

رویکردهای گوناگون رگرسیون خطی

رگرسیون خطی یکی از اساسی‌ترین و پرکاربردترین الگوریتم‌های یادگیری ماشین است که برای پیش‌بینی مقادیر پیوسته مورد استفاده قرار می‌گیرد. این روش که در دوره یادگیری ماشین توجه ویژه‌ای به آن شده است بر اساس رابطه بین متغیرهای مستقل و وابسته، خطی را ایجاد می‌کند که بهترین انطباق را با داده‌ها دارد. انواع مختلف رگرسیون خطی در یادگیری ماشین عبارت‌اند از:

رگرسیون خطی ساده(Simple Linear Regression): این مدل فقط شامل یک متغیر مستقل و یک متغیر وابسته است. هدف رگرسیون خطی ساده، یافتن خطی است که کمترین میزان خطا را در پیش‌بینی مقدار متغیر وابسته داشته باشد. به زبان ساده می‌توان گفت، انگار می‌خواهید یک خط مستقیم روی نمودار بکشید که نقاط، داده‌ها را به بهترین شکل ممکن پوشش دهند.
رگرسیون خطی چندگانه(Multiple Linear Regression): وقتی بیش از یک متغیر مستقل در داده‌ها وجود داشته باشد از این روش استفاده می‌شود. مدل رگرسیون خطی چندگانه به دنبال یافتن ترکیبی از متغیرها است که بیشترین تأثیر را روی متغیر وابسته دارند. مثلاً پیش‌بینی قیمت خانه با توجه به متراژ، تعداد اتاق‌ها و موقعیت جغرافیایی.
رگرسیون لجستیک(Logistic Regression): در رگرسیون لجستیک از یک متغیر دو حالته استفاده می‌شود. از این روش در مواردی که فقط دو پاسخ خاص برای حل مسئله وجود دارد، استفاده می‌شود.

هر یک از این رویکردها برای مسائل خاصی طراحی شده‌اند و انتخاب آن‌ها به نوع داده‌ها و هدف پیش‌بینی شده بستگی دارد. رگرسیون خطی که به صورت کامل و دقیق در آموزش machine learning وجود دارد، به عنوان یک ابزار پایه، درک اولیه از تحلیل داده‌ها و ساخت مدل‌های پیش‌بینی شده را فراهم می‌کند.

معرفی درخت تصمیم

درخت تصمیم (Decision Tree) یکی از محبوب‌ترین الگوریتم‌های یادگیری ماشین است که در هر دو حوزه دسته‌بندی و رگرسیون کاربرد دارد. این مدل به دلیل سادگی در تفسیر و توانایی مدیریت داده‌های پیچیده و غیرخطی در بسیاری از مسائل یادگیری ماشین مورد استفاده قرار می‌گیرد. برای درک بهتر این مفهوم، تصور کنید که درخت تصمیم مانند یک سری سؤالات بله/خیر عمل می‌کند که به طور پیوسته داده‌ها را تقسیم‌بندی خواهد کرد. درخت تصمیم از سه بخش اصلی تشکیل شده است که عبارت‌اند از:

گره ریشه (Root Node): گره ریشه نقطه شروع درخت است که شامل مجموعه داده‌های اولیه می‌شود.
گره داخلی (Internal Nodes): هر گره داخلی نمایانگر تصمیم‌گیری بر اساس یک ویژگی خاص است. به عنوان مثال، “آیا سن کاربر بیشتر از 30 است؟”
گره برگ (Leaf Nodes): گره برگ، گره‌های انتهایی که خروجی یا دسته نهایی را نشان می‌دهند. برای مثال، در دسته‌بندی، یک برگ ممکن است نمایانگر دسته‌ای مانند “بله” یا “خیر” باشد.

فرایند یادگیری در درخت تصمیم شامل انتخاب بهترین ویژگی برای تقسیم داده‌ها است. این انتخاب معمولاً بر اساس معیارهایی مانند:

آنتروپی (Entropy): معیاری برای اندازه‌گیری میزان بی‌نظمی یا عدم قطعیت داده‌ها است.
شاخص جینی (Gini Index): برای اندازه‌گیری خلوص گره استفاده می‌شود. هرچه گره خالص‌تر باشد، شاخص جینی کمتری دارد.

الگوریتم درخت تصمیم مزایا و معایب خاص خود را دارد. از مزایای این الگوریتم می‌توان به موارد زیر اشاره کرد:

سادگی و قابلیت تفسیر آسان حتی برای افرادی که تخصص فنی ندارند.
توانایی مدیریت داده‌های غیرخطی و پیچیده.
عدم نیاز به نرمال‌سازی یا استانداردسازی داده‌ها.

معایب درخت تصمیم عبارت‌اند از:

حساسیت به داده‌های نویزی و مقادیر پرت (Outliers).
احتمال بیش‌برازش (Overfitting) در صورت عدم کنترل مناسب عمق درخت.
عملکرد ضعیف در مسائل با داده‌های بیش از حد پیچیده.

با توجه به مزایا و ویژگی‌های درخت تصمیم می‌توان گفت که این الگوریتم در زمینه‌های مختلفی کاربرد دارد که مهم‌ترین آن‌ها عبارت‌اند از:

توانایی تشخیص بیماری‌ها در علوم پزشکی.
امکان پیش‌بینی رفتار مشتری در بازاریابی.
توانایی طبقه‌بندی متون و ایمیل‌ها.

درخت تصمیم نه‌تنها ابزاری قدرتمند و منعطف است، بلکه پایه و اساس بسیاری از الگوریتم‌های پیشرفته‌تر مانند جنگل تصادفی (Random Forest) و گرادیان تقویتی (Gradient Boosting) نیز محسوب می‌شود. با توجه اهمیت زیاد این الگوریتم در دوره آموزش machine learning به صورت کامل به آن پرداخته شده تا دانشجویان علاوه‌بر دانش تئوری بتوانند به صورت عملی نیز با کاربرد آن آشنا شوند.

معرفی رویکرد KMeans و نحوه عملکرد آن

KMeans یک الگوریتم یادگیری بدون نظارت (Unsupervised Learning) است که برای مسائل خوشه‌بندی به کار می‌رود. این الگوریتم با تعیین تعداد خوشه‌ها شروع می‌شود و در ادامه داده‌ها را بر اساس فاصله آن‌ها به مراکز خوشه گروه‌بندی می‌کند. برای مثال فرض کنید می‌خواهید مشتریان یک فروشگاه را بر اساس رفتار خرید آن‌ها دسته‌بندی کنید. KMeans می‌تواند مشتریانی با رفتار مشابه را در یک گروه قرار دهد. گفتنی است که الگوریتم KMeans در زمان کوتاهی اجرا می‌شود و می‌تواند به راحتی با داده‌های بزرگ کار کند. مراحل اصلی نحوه اجرای KMeans به شرح زیر است:

انتخاب تعداد خوشه‌ها:ابتدا تعداد خوشه‌ها که معمولاً توسط کاربر تعیین می‌شود، مشخص خواهد شد.
انتخاب مراکز اولیه خوشه‌ها:این الگوریتم به صورت تصادفی نقطه K را به عنوان مرکز اولیه خوشه‌ها انتخاب می‌کند.
اختصاص داده‌ها به نزدیک‌ترین خوشه:هر داده به خوشه‌ای اختصاص می‌یابد که فاصله کمتری با مرکز آن خوشه دارد. معمولاً از فاصله اقلیدسی (Euclidean Distance) برای محاسبه این فاصله استفاده می‌شود.
به روزرسانی مراکز خوشه‌ها:مرکز هر خوشه با میانگین داده‌های موجود در آن خوشه به روزرسانی می‌شود.
تکرار مراحل:مراحل اختصاص داده‌ها و به روزرسانی مراکز خوشه‌ها تا زمانی که مراکز خوشه‌ها دیگر تغییر نکنند یا تغییرات بسیار کم باشد، تکرار می‌شوند.

KMeans به دلیل کارایی زیاد و سهولت پیاده‌سازی، یکی از ابزارهای اساسی در تحلیل داده‌ها و خوشه‌بندی است. با این حال، استفاده از آن نیازمند درک صحیحی از محدودیت‌ها و پارامترهای الگوریتم است. شاید به نظر شما این الگوریتم کمی دشوار به نظر برسد، اما در دوره یادگیری ماشین مثال‌های زیادی برای توضیح این بخش وجود دارد تا دانشجو بتواند به صورت این مبحث را یاد بگیرد.

معرفی KERAS در یادگیری ماشین

Keras یک کتابخانه open-source است که به طور خاص برای ساخت و توسعه مدل‌های یادگیری عمیق طراحی شده است. این کتابخانه به دلیل سادگی در استفاده و مستندات غنی انتخابی محبوب برای محققان، توسعه‌دهندگان و علاقه‌مندان به یادگیری ماشین به حساب می‌آید. Keras به کاربران این امکان را می‌دهد که مدل‌های یادگیری عمیق پیچیده را بدون اینکه نیاز به پیاده‌سازی دستی الگوریتم‌های پیچیده داشته باشند، به راحتی بسازند، آموزش دهند و ارزیابی کنند. از ویژگی‌های برجسته این کتابخانه می‌توان به موارد زیر اشاره کرد:

سادگی و کاربرپسندی: یکی از ویژگی‌های بارز Keras، سادگی و طراحی کاربرپسند آن است. این کتابخانه به گونه‌ای طراحی شده که حتی افرادی که تجربه زیادی در زمینه یادگیری ماشین ندارند، بتوانند مدل‌های پایه را به راحتی پیاده‌سازی کنند. به عنوان مثال، با استفاده از چند خط کد، می‌توان یک شبکه عصبی ساده یا پیچیده را ساخت و آموزش داد.
انعطاف‌پذیری: اگرچه Keras یک کتابخانه سطح بالا است، اما هنوز هم انعطاف‌پذیری لازم را برای تنظیمات پیچیده و سفارشی‌سازی‌های مختلف در اختیار کاربران قرار می‌دهد. این امر باعث می‌شود تا Keras برای پروژه‌های مختلف با نیازهای متفاوت، مناسب باشد.
پشتیبانی از چندین فریم‌ورک: Keras به عنوان یک کتابخانه سطح بالا، از چندین فریم‌ورک یادگیری ماشین زیرساختی مانند TensorFlow، Microsoft Cognitive Toolkit (CNTK) و Theano پشتیبانی می‌کند. این بدان معناست که شما می‌توانید به راحتی از Keras برای ساخت مدل‌ها استفاده کرده سپس آن‌ها را روی هر یک از این فریم‌ورک‌ها اجرا کنید.
پشتیبانی از انواع مدل‌ها: Keras از انواع مختلف مدل‌ها پشتیبانی می‌کند. از جمله این مدل‌ها می‌توان به مواردی چون مدل‌های دنباله‌ای (Sequential)، مدل‌های تابعی (Functional) و مدل‌هایی که شامل لایه‌های پیچیده و سفارشی هستند، اشاره کرد. این تنوع به توسعه‌دهندگان اجازه می‌دهد که مدل‌های مختلفی مانند شبکه‌های عصبی پیچیده (CNN)، شبکه‌های عصبی بازگشتی (RNN) و مدل‌های ترکیبی را بسازند.
ابزارهای پیشرفته برای آموزش مدل‌ها: Keras علاوه‌بر سادگی، ابزارهای پیشرفته‌ای مانند پیاده‌سازی‌های از پیش آموزش‌داده‌شده، پایش عملکرد مدل و تکنیک‌های بهینه‌سازی مدل را ارائه می‌دهد که به تسریع روند آموزش مدل‌های پیچیده کمک می‌کنند.

در انتها باید گفت که در دوره آموزش machine learning تمامی این مباحث به صورت کامل و جامع همراه با سرفصل‌های تکمیل کننده دیگر، وجود دارد. به همین علت دانشجویان دوره آموزش ماشین لرنینگ به صورت کاملاً تخصصی با یادگیری ماشین آشنا می‌شوند.

عناوین درس	توضیحات درس
مروری بر آنالیز داده	مروری بر جبر خطی مروری بر آنالیز داده بیان بخش های مختلف هوش مصنوعی و تمرکز بر مواردی که در این دوره بررسی خواهد شد
بررسی روشهای گوناگون آماده سازی مجموعه دادگان	معرفی چالش های موجود در آماده سازی مجموعه دادگان معرفی روش K FOLD به همراه جداسازی بخشهای مختلف مجموعه داده جهت آموزش و ارزیابی مدل هوشمند
بررسی رویکردهای گوناگون دسته بندی داده ها	بررسی رویکردهای مختلف دسته بندی اطلاعات Binary class classification Multi class classification Multi label classification Multi class Multi label classification بررسی روش های گوناگون ارزیابی مدلهای مبتنی بر طبقه بندی
بررسی رویکرد نزدیکترین همسایه	معرفی رویکرد KNNImputer و استفاده از آن برای پیش پردازش داده ها معرفی رویکرد KNN در دسته بندی اطلاعات بیان مزایا و معایب آن
بررسی رویکردهای گوناگون رگرسیون خطی	پیاده سازی رگرسیون خطی به صورت ریاضیاتی و بررسی چالش های آن بیان مفهوم گرادیان و تابع خطا معرفی انواع توابع خطا مرسوم در رگرسیون خطی بیان انواع گرادیان و پیاده سازی دستی آن برای آموزش یک مدل هوشمند بررسی Polynomial Regression بررسی مفهوم underfitting و overfitting بررسی مفهوم Early Stopping و پیاده سازی آن بررسی انواع مختلف Regularization بررسی و پیاده سازی Logistic Regression بیان مفهوم Softmax
بررسی رویکرد Support Vector Machine	معرفی SVM و عملکرد آن در دسته بندی اطلاعات معرفی SVR و عملکرد آن در رگرسیون خطی بیان مزایا و معایب آن
بررسی رویکرد درخت تصمیم	معرفی رویکرد Decision Tree در دسته بندی اطلاعات بیان نحوه ی کارکرد آن و پیمایش درخت تصمیم بیان مفاهیم آنتروپی، cut off point , ضریب جینی معرفی رویکرد Decision Tree در رگرسیون خطی بیان مزایا و معایب این رویکرد
بررسی رویکردهای گوناگون خوشه بندی اطلاعات	معرفی رویکردهای مبتنی بر یادگیری بدون ناظر معرفی رویکرد KMeans نحوه عملکرد آن نحوه ی ارزیابی آن چالش های این رویکرد و نحوه ی حل آنان معرفی نسخه های ارتقا یافته آن معرفی رویکرد DBSCAN نحوه عملکرد آن نحوه ارزیابی آن
بررسی رویکردهای مختلف کاهش بعد	بررسی لزوم کاهش بعد در آموزش یک مدل بررسی کاهش بعد با دیدگاه Projection بررسی رویکرد PCA بررسی کاهش بعد با دیدگاه Manifold بررسی رویکرد LLE
بررسی رویکردهای ترکیبی Ensemble Methods	بررسی رویکرد Random Forest بررسی رویکرد Adaptive Boost بررسی مزایا و معایب آن
بررسی ساختارهای گوناگون شبکه های عصبی – مقدماتی	معرفی Tensorflow بیان نحوه ی کارکرد Tensorflow انواع مختلف متغیر در Tensorflow مفهوم Session و عملکرد آن در Tensorflow مدیریت گراف ها پیاده سازی یک مثال برای دسته بندی اطلاعات پیاده سازی یک مثال برای رگرسیون خطی ذخیره و بازیابی مجدد مدل نمایش گراف و روال آموزش با Tensorboard بررسی کارکرد شبکه های عصبی بیان ساختار نورون و عملکرد آن در مغز بیان انواع توابع آتش در نورون ها و بررسی آن بررسی روال Back Propagation پیاده سازی ساختار های مختلف یک شبکه عصبی جهت دسته بندی اطلاعات توسط numpy پیاده سازی ساختار های مختلف یک شبکه عصبی جهت رگرسیون خطی توسط numpy
بررسی ساختارهای گوناگون شبکه های عصبی – پیشرفته	معرفی KERAS ساخت یک مدل هوشمند مبتنی بر شبکه عصبی برای دسته بندی اطلاعات در KERAS ساخت یک مدل هوشمند مبتنی بر شبکه عصبی برای رگرسیون خطی در KERAS نمایش گرافیکی یک مدل طراحی شده در KERAS ذخیره و بازیابی یک مدل در KERAS نحوه ی ارزیابی عملکرد یک مدل در KERAS

ساعت: 50ساعت

پیش نیاز:داده کاوی

برنامه درسی خالی است

نعیمه رجب پور