لگو وب سایت هوشمندان
جستجو

اطلاعات ویدیوی آموزشی

آموزش های مرتبط

آموزش یادگیری ماشین با استفاده از R و پایتون

آموزش حرفه ای Machine Learning  با استفاده از R و Python

دوره عملی suppervised machine learning به گونه ای طراحی شده است که مهارت های  شما را در جنبه های عملی کد زنی و اجرای پروژه های واقعی در صنایع مختلف بر طرف  می سازد، به دلیل این که تمرکز اصلی این دوره بر روی پروژه های صنعتی و بازار کار است، به مباحث تئوری الگوریتم ها، تا جایی که به ما این امکان را می دهد، نمی پردازیم. اما پس از مشاهده آموزش یادگیری ماشین با استفاده از R و پایتون به راحتی میتوانید از پرکاربردترین مدل ها و الگوریتم های یادگیری ماشین استفاده نمایید.

همان طور که می دانیم هنگامی که در دنیای هوش مصنوعی، از زبان برنامه نویسی صحبت می کنند، به دو زبان برنامه نویسی پایتون (Python) و زبان R ، بیشتر از بقیه ی زبان ها اشاره می کنند . به بیان ساده تر این دو زبان در هوش مصنوعی جایگاه ویژه ای دارد.

شایان ذکر است که هدف ما در این دوره اموزش این دو زبان به صورت پایه ای نیست (اگر چه این آموزش از صفر شروع می شود) اما فقط مباحثی را که در عمل با آن ها رو به رو می شوید، مورد بررسی قرار می دهیم. 

 آموزش یادگیری ماشین با استفاده از R و python قدم به قدم

این دوره را در زبان برنامه نویسی R شروع می کنیم و سپس مباحث مقدماتی آن را مورد بررسی قرار می دهیم و به Data  visualization  با استفاده از بسته ی ggplot2 می پردازیم. این بسته یکی از قدرتمند ترین بسته های مصور سازی دیتا است که به جرات می توان گفت که با چند خط کد ساده می توان به بهترین و زیبا ترین نمودار رسید که  این امر در زبان پایتون با کدهای بسیار زیادی امکان پذیر بود. در انتهای فصل اول یک پروژه در صنعت تاکسیرانی آنلاین را (online taxi demand)مورد بررسی قرار می دهیم.

در ابتدای دوره زبان  R را شروع می کنیم چرا که شرکت های مهمی از جمله google, facebook, uber , Microsoft و حتی دانشگاهانی همچون استنفورد از این زبان استفاده ی زیادی می کنند. البته نا گفته نماند که  اگر شما از قبل پیش زمینه ی خاصی در برنامه نویسی ندارید و یا به اصطلاح مبتدی هستید، بهترین گزینه برای شروع  می باشد. 

در قسمت دوم دوره به آموزش زبان جذاب و شیرین پایتون می پردازیم. البته در ابتدا به مباحث مقدماتی و پایه ای پایتون پرداخته می شود و سپس با کتابخانه هایی همچون numpy, pandas , matplotlib با مثال ها و دیتاست های متنوع آشنا خواهید شد، سپس قسمت جذاب این دوره از جایی شروع می شود که ابتدا شما را با وبسایت kaggle آشنا می کنیم و به شما یاد خواهیم داد که چه طور در آن محیط کد زده و پروژه های خود را با سایر افراد در سراسر دنیا به اشتراک بگذارید و سپس دیتاست boston را انتخاب کرده و مدل های مختلف machine learning را بر روی آن پیاده سازی کرده که به نظر می رسد  این قسمت، بهترین بخش این دوره است به گونه ای که حتی ویژگی متمایز کننده  این دوره با سایر دوره های مرتبط، این قسمت می باشد . حال به الگوریتم زیر می پردازیم

classic Regression

Ridge Regression

decision tree Regression 

bagging 

5 - random.forest

gradient boost 

xgradient boost 

cat boost 

light gbm 

deep learning 

knn regressor 

 

تمام این مدل ها را بر روی دیتاست بوستون اعمال می کنیم  و سپس بهترین مدل را انتخاب می کنیم. 

در قسمت آخر دوره به الگوریتم های classification می پردازیم و سپس به مباحث زیر پرداخته می شود : 

1 - LDA 

2- QDA 

3- logistic regression 

4-naivr bayes

5-decision tree 

6- bagging 

7- random forest 

و ... 

سخن استاد:

تمام این الگوریتم ها را بر روی یک دیتاست در حوزه Churn prediction مورد بررسی قرار می دهیم و حدود هفت پروژه کاربردی در آموزش یادگیری ماشین از صفر تا صد پیاده سازی خواهد شد و سپس دوره را به پایان می رسانیم. 

با به پایان رسیدن دوره آموزشی Machine Learning  با R و python  کار ما با شما تمام نشده است و در پایان دوره از طریق ایمیل پروژه ای را به شما تحویل می دهم و شما باید آن را طبق template که از ابتدای دوره تا انتها آن را فرا گرفته اید حل کنید و سپس پاسخ خود را به من ارسال کنید و من نتیجه این پروژه را برای شما ارسال می کنم. 

امیدوارم که این دوره  پلی برای موفقیت های بیشتر شما در دنیای برنامه نویسی باشد!


جزئيات سرفصل های آموزش یادگیری ماشین با R و Python: 

مقدمه

سرفصل های یادگیری ماشین با استفاده از R

فصل اول : آشنايي با زبان برنامه نويسي R

  1. مديريت فايل ها و مديريت پروژه ها
  2. تعريف كردن متغير ها 
  3. انواع متغير ها
  4. بردار ها و چگونگي انتخاب عناصر آن
  5. ماتريس ها و چگونگي دسترسي به عناصر آن
  6. ديتا فريم ها(کار با ديتا فريم mtcars به عنوان ميني پروژه)
  7. اضافه کردن يک متغير جديد به ديتا فريم
  8. تغيير نام سطر و ستون در ديتا فريم ها
  9. اماره هاي مقدماتي(ميانگين، واريانس، انحراف از معيار و ..)
  10. پيش پردازش داده و آشنايي با فرايند CRISP براي اجراي مسائل data mining
  11. داده هاي گمشده Missing values(اجراي ميني پروژه براي برطرف کردن missing value ها )
  12. مصور سازي داده data visualization  در زبان R و با استفاده ي کتابخانه ي ggplot 2 
  13. نمودار پراکندگی scatter plot
  14. رسم نمودار ها با استفاده از نرم افزار آماري Minitab
  15. نمودار جعبه اي Boxplot
  16. نمودار فراواني Histogram
  17. نمودار ميله اي Barplot 
  18. نمودار پاي Pie chart
  19. معرفي يک کتاب براي نمودار هاي پيشرفته تر
  20. اجراي پروژه ي اول : Online Taxi Demand 
  •  در این پروژه ما از يك ديتاست واقعي که حاوي بيش از 2.5 ميليون رکورد است استفاده می کنیم تا بتوانیم روند تقاضاي ساعتي، روزانه، هفتگي و ماهانه اين شركت تاكسيراني را بدست آوريم. در اين پروژه تمام مباحثی که در فصل اول آموخته ايد را مجددا در عمل استفاده مي کنيد تا به صورت عميق تر در ذهن دانشجويان عزيز جاي بگيرد.

 فصل دوم : الگوریتم Association Rules

  1. مقدمه و پايه ي هاي اساس اين الگوريتم 
  2. آشنايي با الگوريتم Apriori
  3. آشنايي با الگوريتم Eclat
  4. پروژه دوم : اعمال کردن الگوريتم Apriori و Eclat بر روي يك ديتاست خرده فروشي که به فرم استاندارد مي باشد
  5. بررسي قوانين بدست آمده از اين دو الگوريتم 
  6. نمودارهاي پرکاربرد در مبحث Association Rules
  7. پروژه ي سوم: استفاده از يك ديتاست غير استاندارد و تبديل آن به یک دیتاست استاندارد که الگوريتم Association Rules با آن مي تواند کار کند(دليل اينكه از يك ديتاست غير استاندارد استفاده کرده ام اين است که در عمل شما براي اجراي الگوريتم Association Rules در 99% مواقع ديتاست هاي غير استاندارد را در دسترس داريد و در اين قسمت آموزش مي دهيم که چگونه يك ديتاست غير استاندارد را به یک دیتاست استاندارد که قابل شناسايي براي الگوريتم هاي Association Rules است در اوريم).

فصل سوم: رگرسيون خطي Linear Regression

  1. آشنايي با مقدمات و پايه هاي رياضي رگرسيون خطي
  2. مفروضات رگرسيون خطي 
  3. بررسي هم خطي Multicollinearity
  4. آشنايي با One hot cold encoding
  5. اجراي پروژه ي چهارم: در اين پروژه شما با یک دیتاست بزرگ در زمينه ي پيش بيني خودروهاي دست دوم آشنا مي شويد و گام به گام الگوريتم رگرسيون را بر روي اين دیتاست پياده خواهيم کرد و سپس بران ميشويم که چگونه این مدل را بهبود دهيم و در نهايت به بحث Outlier detection  مي پردازيم و داده هاي پرت را حذف میکنیم تا كارايي معدلمان بالا رود   

فصل چهارم: subset selection

  1. آشنايي با روش Best subset 
  2. چرا از اين روش استفاده ميکنيم 
  3. شروع کد و اجراي پروژه ي پنجم: در اين پروژه از یک دیتاست که داري تعداد زيادي متغير است استفاده کرده و با اجراي الگوريتم  subset selection بتوانيم عمل feature selection را بدون استفاده از آزمون t  که در رگرسيون فصل بحث كرديم را انجام دهيم. اين پروژه براي آشنايي شما با مبحث feature selection طراحي شده است. 

سرفصل های یادگیری ماشین با استفاده از Python

فصل پنجم : Introduction to Python

لطفا دقت کنید که در این فصل قرار نيست به تمام قسمت هاي پايتون بپردازيم، ما فقط روي قسمت هايي بحث میکنیم که در علم داده كاربرد بيشتري دارد.

  1. آشنايي با محيط jupyter notebook
  2. عمليات رياضي
  3. تعريف کردن متغيرها
  4. کار با strings
  5. کار با list
  6. کار با dictionary
  7. کار با tuple 
  8. دستورات شرطي if-else
  9. حلقه ي for 
  10. اجراي حلقه ي for  بر روي ديکشنري ها
  11. توابع functions

فصل ششم : Numpy 

  1. تعریف کردن آرایه ها در numpy
  2. تفاوت بين ساختار داده numpy  و python
  3. آشنايي با linspace
  4. آشنايي با zeros
  5. آشنايي با ones
  6. آشنايي با ديگر data type هاي  numpy
  7. آشنايي مقدماتي با مصور سازي داده (در دو فصل بعد کامل بحث ميشود)

فصل هفتم : Pandas

  1. مديريت فايل ها و پروژه ها در زبان پايتون 
  2. يادگيري مباحث و توابع Pandas  در يک ميني پروژه
  3. ميني پروژه ي سوم : در اين ميني پروژه شما اکثر توابع پر کاربرد pandas را در يک پروژه در صنعت بيمه پياده سازي خواهيد کرد تا تمام اين توابع در ذهن شما مستحکم شود
  4. کار با ديتا فريم ها و توابعي كه بر روي ان اعمل ميشود
  5. آشنايي با series ها و بررسي بقيه ي مباحث pandas

فصل هشتم: Matplotlib

  1. نمودار پراکندگی scatter plot
  2. نمودار نمودار فراواني Histogram
  3. نمودار ميله اي Barplot
  4. نمودار Boxplot
  5. نمودار stacked bar plot

تمام اين مباحث بر روي يک ميني پروژه صورت ميگيرد

فصل نهم : Advanced Regression Problem

اين فصل يکي از زيبا ترين فصل هاي اين دوره مي باشد، ابتدا شما در اين فصل با سايت معروف Kaggle آشنا خواهید شد و سپس يک محيطي جديد كه اين وب سايت براي كد نويسي و به اشتراک گذاري کدها به ما ارائه ميدهد را معرفي مي كنيم و سپس در اين محيط يک پروژه ي پيشرفته را با متدهاي پيشرفته حل میکنیم 

پروژه ي اين فصل پيش بيني قيمت خانه هاي شهر بوستون آمريكا مي باشد که بنده با رويکرد هاي زير به حل اين پروژه پرداخته ام : 

 

1- Linear Regression

2- Ridge Regression

3- Decision Tree Regression

4- Bagging Regression

5- Random Forest Regression

6- Gradient Boost Regression

7- XGradient Boost Regression

8- Cat Boost Regression

9- Light GBM Regression

10- Deep learning for Regression

11- KNN Regression

 

دقت كنيد متد هايي مانند catboost , light gbm متد هاي خيلي بروزي هستند که در سال 2017 پا به عرصه ي ديتا ساينس نهادند 

در اين فصل شما با مباحث عملي اين مدل ها و روش ها آشنا خواهيد شد و نحوه ي parameter tuning  را براي انتخاب مقادير صحيح hyper parameter ها فرا خواهید گرفت و در نهايت بعد از اين که تمام مدل ها را براي روي اين ديتاست پياده کرديم، بهترين مدل را از بين مدلهاي پياده شده انتخاب میکنیم.

فصل ده: Classification Problem: 

 

پروژه ي Churn prediction 

 در اين فصل شما با متدهاي پيشرفته ي طبقه بندي اشنا ميشود 

پروژه اي که براي اين فصل در نظر گرفته شده است يك پروژه براي تشخيص اينکه مشتريان يک خرده فروشي  churn مي كند يا خير مي باشد. اين پروژه را نيز با رويکرد هاي مختلفي بررسي و حل میکنیم و در نهايت با ارائه يک سريع معيار هاي انتخاب مدل، بهترين مدل را از بين مدل هاي ساخته شده انتخاب میکنیم. در اين فصل به متد هاي زير پرداخته ميشود:

1-  Linear Discriminant Analysis (LDA)

2- Quadratic Discriminant Analysis(QDA)

3- Naive Bayes

4- Logistic Regression

5- KNN 

6- Decision Tree

7- Bagging 

8- Random Forest

9- Gradient Boost

10- XGradient Boost