بررسی ارتباط داده کاوی با هوش مصنوعی

فرشاد مراحم

1399/10/25
2813
هوش مصنوعی

علم داده کاوی و استفاده از هوش مصنوعی برای بهبود راندمان آن

امروزه ما با جهانی پر از فناوری های جدید و حجم زیادی از داده ها و اطلاعات روبرو هستیم و رشد سریع اینترنت و بوجود آمدن شبکه های اجتماعی مختلف و دسترسی آسان تمامی اقشار جامعه به این تکنولوژی ها موجب شده تا به انفجار داده برسیم و مدیریت این حجم عظیمی از داده ها متخصصین امر را وادار به مقابله با چالش های جدیدی کرده است.

در این شرایط حساس و مهم نیاز به یک علم جهت مدیریت داده ها در وسعت بزرگ بیشتر از همیشه احساس میشود. یک فناوری جدید و هوشمند که قابلیت استخراج اطلاعات را در هر زمان داشته باشد و در دست یافتن به اطلاعات گرانبها و با ارزش عملکرد مناسبی از خود نشان دهد.

منظور از داده کاوی چیست ؟

یک فناوری بسیار پرکاربرد برای کاوش و استخراج اطلاعات در حجم وسیعی از داده ها یا همان Big Data که به مدیران کسب و کارها در خصوص تصمیم گیری درست و سودآور کمک کرده و موجب بهبود دید و بینش آنها در نحوه مدیریت و ارتباط با کارکنان خود می شود.

یکی دیگر از کاربردهای داده کاوی در CRM یا همان مدیریت ارتباط با مشتری می باشد. شرکت‌ها از طریق ارائه خدمات و ارتباط مستمر با مشتری، اطلاعات زیادی به دست می‌آورند که اگر راه استفاده از این داده‌ها را بدانند، سود بسیاری خواهند برد. داده کاوی (Data Mining) به زبان ساده یک روش حل مسئله است که با تحلیل حجم زیادی از داده ها، الگوهای تکرارشونده ای را از آن‌ها استخراج می‌کند. سپس با پیداکردن ارتباطات بین اتفاقات مختلف و این الگوها، راه حل هایی برای چالش‌ها ارائه می‌دهد. در واقع دیتا ماینینگ از اطلاعاتی که ممکن است کاربردی نداشته باشند، نتایج ارزشمندی کشف کرده و آن‌ها را قابل استفاده می‌کند.

حال اگر این فناوری را با هوش مصنوعی ترکیب کنیم و از ابزارها و الگوریتم های این علم در جست و جو و پردازش اطلاعات استفاده کنیم میتوانیم به یک تکنولوژی عجیب و بسیار کاربردی دست پیدا کنیم که در کوتاه ترین زمان ممکن کاوش های مختلف را انجام داده و بهترین نتایج را برای ما نمایش بدهد.

هوش مصنوعی و انواع مختلف آن

در حالت کلی هوش مصنوعی یا AI به چگونگی و نحوه تولید یک عامل هوشمند مانند انسان مربوط می شود. یک عامل که توانایی درک اصول و قواعد را داشته باشد و با تحلیل مشکلات راه حل مناسبی برای آن ارائه دهد یک عامل یا ماشین Smart می باشد و الگوریتم های AI درون آن پیاده سازی شده است.

دسته بندی سیستم‌های هوش مصنوعی بر اساس کاربرد و الگوریتم های آن انجام میشود و چند نمونه از آنها را بیان میکنیم:

1) هوش مصنوعی ضعیف (Weak AI) : مرحله ای از هوش مصنوعی است که تمرکزش تنها بر انجام وظیفه و کاربرد خاصی است. از کاربردهای هوش مصنوعی ضعیف می توان به سیستم های پیشنهاد موسیقی ، دستیارهای شخصی مانند سیری و الکسا و سیستم های فیلترینگ هوشمند ایمیل اشاره کرد.

2) هوش مصنوعی عمومی (General AI) : هوش مصنوعی عمومی یا هوش مصنوعی قوی (Strong AI) ، مرحله ای از هوش مصنوعی که می تواند رفتارهای انسان را شبیه سازی کند و کاملا مانند یک انسان فکر کند، بفهمد و رفتار کند.

3) هوش مصنوعی بسیار هوشمند (Super intelligent AI) : یک مرحله تخیلی و هیجان انگیز که اکثرا در فیلم ها این مرحله را مشاهده کرده ایم. ربات هایی با توانایی های خاص و فوق العاده که از همه لحاظ نسبت به انسان ها برتری دارند. که قدرت تفکر بالاتر، توانایی حل مسائل پیچیده ، سرعت بیشتر و هوشمندی خارق العاده از ویژگی ها این مرحله از هوش مصنوعی می باشد.

ارتباط هوش مصنوعی با دیتا ماینینگ و استفاده از الگوریتم های آن در این فناوری

همانطور که گفته شد استفاده از الگوریتم های هوش مصنوعی در علم داده کاوی میتواند بسیار موثر واقع شده و در تسریع عملیات مربوط به استخراج داده ها کمک بسیار زیادی کند.

داده کاوی به زبان ساده فیلتر کردن مقادیر زیادی از داده های خام برای بدست آوردن اطلاعات مفیدی است و رایج ترین ابزاری که به هنگام کاوش از آن استفاده می شود هوش مصنوعی می باشد.

داده کاوی شامل الگوریتم های متعددی است اما بصورت کلی این الگوریتم ها در 5 دسته زیر قرار میگیرند :

1) الگوریتم‌های وابستگی(Association algorithms) : یک متد مناسب برای یافتن روابط جذاب بین متغیرهای موجود در پایگاه داده‌های بزرگ است.کشف روابط و وابستگی میان ویژگی های مختلف متغییرها بر عهده این الگوریتم ها است. این الگوریتم ها به دنبال این هستند که دریابند کدام متغییر ها و ویژگی ها به هم وابسته هستند و وابستگی آنها به چه شکل است.

2) الگوریتم‌های دسته‌بندی(Segmentation algorithms) : همانطور که از نام این این الگوریتم ها مشخص است ، وظیفه دسته بندی را بر عهده دارند. این الگوریتم ها داده ها را به گروه و دسته هایی تقسیم می کنند که هر دسته دارای ویژگی های مشابهی هستند.

3) الگوریتم‌های طبقه‌بندی(Classification algorithms) : طبقه بندی (Classification) یکی از زیرشاخه های اصلی داده کاوی و یادگیری ماشین است. با استفاده از طبقه بندی میتوان به صورت هوشمند، اشیا مختلف را در یک تصویر شناسایی کرد، مشتریان ناراضی را قبل از خروج از یک شرکت شناسایی و ترمیم کرد، پلاک اتومبیل ها را با دقت بالا خواند، ماشین های خودران (بدون راننده) ساخت و هزار کار دیگر که در حوزه یادگیری ماشین انجام می شود.

4) الگوریتم‌های رگرسیون(Regression algorithms) : الگوریتم (Regression) از جمله روش‌های آماری برای تعیین روابط میان داده‌ها است که با استفاده از داده‌های پیشین، مدل‌های ریاضیاتی را استخراج کرده و برای پیش بینی ارزش داده هایی که در آینده تولید می‌شوند، به کار می‌برد. این دسته از الگوریتم‌ها انواع مختلفی مانند خطی، چندگانه و غیره دارند و با تکیه بر منطق ریاضیاتی، در بررسی و مدل سازی متغیرهایی برای تحلیل داده‌ها بسیار کاربردی هستند. این دسته از الگوریتم‌ها برای کلاس بندی داده‌ها به کار می‌روند.

5) الگوریتم‌های تحلیل زنجیره‌ای(Sequence analysis algorithms) : از توالی یا اتفاقات مکرر در بین عناصر data set، یک خلاصه ایجاد می‌کند. مثل کلیک های صورت گرفته در یک وب سایت.

برترین الگوریتم های هوش مصنوعی که در داده کاوی مورد استفاده قرار میگیرند عبارت اند از:

1) الگوریتم K_means : الگوریتم K-Means یکی از الگوریتم‌های مورد استفاده در داده کاوی و یادگیری ماشین هست که برای خوشه‌بندی (Clustering) یا دسته‌بندی بدون نظارت از آن استفاده میشود.

2) الگوریتم نایو بیز (Naive Bayes) : الگوریتم نیو بیز، از جمله الگوریتم‌های کلاس بندی است که بر مبنای تکنیک‌های دسته بندی احتمالی است. این الگوریتم آماری از قاعده بیز در ریاضیات استفاده کرده و با تعیین متغیرهای مستقلی اقدام به مشخص کردن احتمال وقوع و دسته بندی داده‌ها می‌کند.

3) الگوریتم Support vector machines : اين روش از جمله روش‌های نسبتاً جديدي است که در سال‌های اخير کارايی خوبی نسبت به روش‌های قديمی‌تر برای طبقه‌بندی از جمله شبکه‌های عصبی پرسپترون نشان داده است. مبنای کاری دسته‌بندی کننده SVM دسته‌بندی خطی داده‌ها است و در تقسيم خطی داده‌ها سعی می‌کنيم خطی را انتخاب کنيم که حاشيه اطمينان بيشتری داشته باشد.

4) الگوریتم Apriori : الگوریتم Apriori یکی از روش ‌های پر کاربرد برای کاوش مجموعه اقلام تکرار شده و قواعد وابستگی association rule mining در بحث داده کاوی و یادگیری ماشین است این الگوریتم برای داده کاوی مکرر و یادگیری قانون وابستگی بر روی بانک‌های اطلاعاتی کلی، مورد استفاده قرار می‌گیرد.

5) الگوریتم Page rank : الگوریتم page rank توسط لری پیج و سرگی برین (دو تن از بنیان گذاران گوگل ) توسعه پیدا کرده است. بر اساس این الگوریتم یک سری ویژگی ها و لینک های ورودی به یک سایت، امتیاز دهی می شود و سایت ها بر اساس آنها رتبه بندی می شوند. در این صورت کاربر هنگام جست و جو کلمه مورد نظر ، به سایتی بر میخورد که در زمینه جست و جود شده بیشترین امتیاز را دارد و کاربر به هدف نزدیک تر می شود.

6) الگوریتم AdaBoost :یک روش یادگیری جمعی است و معروف‌ترین الگوریتم از خانواده الگوریتمهای Boosting است. در الگوریتم های یادگیری جمعی، یک نمونه توسط چندین کلاسه بند مختلف کلاسه بندی می شود و نتایج کلاسه بندی ها به شکل هوشمندانه ای با یکدیگر ترکیب شده و نتیجه نهایی برای آن نمونه خاص تعیین می گردد.

7) الگوریتم CART : یکی از محبوب‌ترین و در عین حال ساده‌ترین الگوریتم‌های درخت‌های تصمیم، درخت تصمیمِ CART است که کاربردهای زیادی در طبقه بندی و رگرسیون دارد. CART که خود مخفف Classification and Regression Tree است بر اساس درخت های دودویی (باینری) بنا نهاده شده است.