بررسی اهداف و مزایای وب کاوی یا web mining
- 1399/10/3
- 1999
- برنامه نویسی
بررسی اهداف و مزایای وب کاوی یا web mining
هدف از نوشتن این مقاله بدست آوردن درک عمیقی از مفهوم web mining یا همان وب کاوی می باشد که با بررسی اهداف این روش به شناخت کاملی از الگوها و الگوریتم های موجود در وب رسیده و سپس توانایی استخراج داده های مورد نظر را از وب پیدا می کنیم
در مرحله اول به تعریف چندین واژه میپردازیم :
مهم ترین مسئله در تعریف وب کاوی کلمه ی وب می باشد باید معنی درست و جامعی از وب داشته باشیم :
وب (WEB) یک سیستم مبتنی بر سرویس دهنده/ سرویسگیر(Client/Server) بر روی اینترنت است که با استفاده از ابزار فرامتن (HyperText) و پیوند(Link) دادن اجزای اطلاعات به یکدیگر دسترسی به منابع اطلاعاتی را تسهیل می کند. وب از ابزار فوق رسانه ای (HyperMedia) که شامل فوق متن و چند رسانه ای (MultiMedia) است بهره می گیرد. از طریق وب می توان اطلاعات را ارسال و یا دریافت نمود و متفاوت بودن سیستمهای سخت افزاری و نرم افزاری (سیستم عامل) مانع ایجاد ارتباط نمی گردد.
به زبان ساده تر یک سامانه اطلاعاتی از پروندههای ابرمتنی متصل به هم است که از طریق شبکه جهانی اینترنت قابل دسترسی هستند. به کمک یک مرورگر وب میتوان صفحات وب (که شامل متن، تصویر، ویدئو و سایر محتویات چندرسانهای هستند) را مشاهده کرده و به کمک ابرپیوندها در میان آنها حرکت کرد. به طور کلی به فضای آنلاین متشکل از میلیون ها، بلکه میلیاردها وب سایت اینترنتی "وب" گفته می شود.
مفهوم وب کاوی یا web mining چیست ؟
از آنجایی که حجم اطلاعات الکترونیکی و آنلاین در وب سایت ها روز به روز بیشتر می شود دسترسی سریع و صحیح به منابع مهم و مورد علاقه، یكی از دغدغه های استفاده از این منبع اطلاعاتی بسیار بزرگ است. ارایه ابزاهایی كه با بررسی متون بتواند تحلیلی روی آنها انجام دهند منجر به شكل گیری این زمینه در هوش مصنوعی شده كه به متن کاوی معروف است.
وب کاوی یک تکنینک کاویدن داده می باشد که به دستیابی الگوهای اطلاعاتی از داده های موجود در وب کمک می کند. وب کاوی کمک میکند تا قدرت موتور های جستجوی وب بهتر شود. این کار از طریق شناساندن صفحات وب و طبقه بندی مستندات آنها قابل انجام است. وب کاوی برای فهمیدن رفتار مشتری، ارزیابی اثربخشی یک وبسایت خاص مفید است و کمک می کند تا میزان موفقیت یک کمپین بازاریابی بیشتر شود.
مراحل وب کاوی در چهار بخش انجام میگیرد :
1) پيدا کردن منبع: اين مرحله شامل بازيابي اسناد وب مورد نظر مي باشد و داده ها از منابع موجود در وب مانند خبرنامه های الکترونيکی، گروه های خبری، اسناد HTML، پايگاه داده های متنی و ... بازيابی می شوند.
2) انتخاب اطلاعات و پيش پردازش: در اين مرحله به صورت خودکار اطلاعات خاصی از اسناد بازيابی شده، انتخاب و پيش پردازش می شوند . شامل هر گونه فرآيند تبديل داده هاي بازيابي شده در مرحله قبل مي باشد. اين پيش پردازش مي تواند کاهش کلمات به ريشه آنها، حذف کلمات زائد، پيدا کردن عبارات موجود در متن و تبديل بازنمايي داده ها به قالب رابطه اي يا منطق مرتبه اول باشد.
3) تعميم : در اين مرحله به صورت خودکار الگوهای عام در يک يا چندين سايت وب کشف می شود. در مرحله سوم از تکنيک های داده کاوی و يادگيری ماشين برای تعميم استفاده می شود. همچنين بايد توجه داشت که کاربران نقش مهمی در فرآيند استخراج اطلاعات و دانش از وب ايفا می کنند.
4) تحليل: در اين مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی و تفسير می شوند و از نتایج به دست آمده میتوانیم داده های مورد نظر خود را استخراج کنیم
وب کاوی به سه دسته تقسیم می شود:
کاوش محتوای وب یا (Web Content Mining)
وب کاوی محتوا تمامی صفحات را اسکن می کند و با کاویدن متن، عکس و حتی گروهی از صفحات وب بر اساس ورودی دریافت شده، به موتور جتسجو کمک می کند تا لیستی از نتایج مرتبط را بازگرداند.به عنوان مثال، اگر کاربر یک کتاب خاص را جستجو نماید، موتور جستجو لیست توصیه های مرتبط اعم از عکس، فیلم و صفحات وب را نشان می دهد.
کاوش کاربرد وب یا (Web Usage Mining)
برای کاویدن ریکورد های log یک وب سایت استفاده می شود.(دسترسی به اطلاعات صفحات وب) و کمک می کند تا الگوهای دسترسی به صفحات وب مشخص شود.هر وب سرور یک web log entry به ازای هر صفحه وب رجیستر می کند.تحلیل شباهت ریکورد های log یک وب سایت می تواند برای مشخص کردن پتانسیل مشتری ها برای سایت هایی که دارای e-commerce می باشند، مفید باشد.
کاوش ساختار وب یا (Web Structure Mining)
کمک می کند تا اطلاعات مفید و یا الگو اطلاعات را از ساختار هایپر لینک ها به دست آوریم. همچنین می تواند برای تشخیص ساختار لینک در هایپرلینک ها استفاده شود.می تواند برای مشخص شدن اینکه صفحات وب به وسیله اطلاعات به یکدیگر لینک شده اند یا توسط لینک مستقیم به ما کمک کند.هدف از این نوع کاویدن، تولید یک خلاصه ساختار یافته از وبسایت و صفحات مشابه آن است. به طور مثال می تواند برای تمییز قرار دادن و همین طور تشخیص ارتباط دو وبسایت تجاری مورد استفاده قرار گیرد.
کاربردهای وب کاوی در زمینه های مختلف :
1) آموزش الکترونیکی و مجازی :
بررسی رفتار فراگیران موضوع مهمی در هر سیستم اموزشی است تا بتوان براساس آن تصمیم گیری نمود این رفتار در قالب الگوهای بالقوه موجود و البته پنهان در لوای داده های حجیمی است که در سیستم مدیریت اموزشی ثبت شده اند و استخراج الگوها نیز با اعمال تکنیکهای داده کاوی براینگونه رویدادها صورت می گیرد با بررسی خصوصیات رفتاری فراگیران، از قبیل ساعات و ایام بیشترین مراجعات به سایت و دسته بندی مراجعات برحسب صفحات حاوی بیشترین توقف و موقعیت جغرافیایی فراگیران ، ارتباط بین نتایج دانشجویان و خصوصیات رفتاری آنها اطلاعات مهمی به دست می آید و دانش حاصل شده از طریق وب کاوی به استادان در زمینه انتخاب محتوای درسی موثر تر و نیز ضوابط اموزشی دانشجویان یاری می کن.
1) موتورهای جستجو:
شرکت گوگل اولین موتور جست و جویی بوده که از روش کاوش در ساختار وب برای بازیابی و رتبه بندی صفحات استفاده کرده است. برای اینکار از الگوریتم Page Rank برای رتبه دهی به سایت ها استفاده میکند.همچنین Google دارای این قابلیت است که اطلاعات مربوط به جریان کلیک های کاربر را نگهداری کند. این اطلاعات استفاده از وب، برای بهبود نتایج بازیابی شده و سفارشی سازی آن ها به کار می رود. از دیگر سرویس های Google که در آن از تکنیک های وب کاوی استفاده می شود، می توان به Google News اشاره کرد. این سرویس اخبار موجود در روزنامه های مختلف وب را جمع آوری کرده و سپس با استفاده از روش های طبقه بندی و خوشه بندی آن ها را در گروه ها و دسته های مختلف سازماندهی می کند.
2) تجارت الکترونیکی:
داده کاوی در وب فرآیند استخراج اطلاعات مفید تاریخچه پایگاه داده کاربران در یک وبسایت تجارت الکترونیک است. این استخراج معمولاً بوسیله تکنیک های استخراج داده ها انجام می شود. مراحلی همچون جمع آوری داده ها، پیش پردازش داده ها، استخراج و تحلیل دانش در وب کاوی تجارت الکترونیک صورت میگیرد. این دانش با استفاده از الگوریتم های استخراج تحت نظارت و بدون نظارت از طریق کارهای توصیفی مانند دسته سازی، اجتماع و کشف زیر گروه ها، استخراج می گردد؛ اعمال راهکارهای جدید و سنتی. نتایج بدست آمده خصوصاً برای منافع تیم طراحی وبسایت مورد بحث قرار می گیرد و رهنمودهایی را برای بهبود قابلیت استفاده آن و رضایت کاربران فراهم می سازد.
در حالت کلی میتوان گفت فرایند وبکاوی کاربرد به دنبال این موضوع است که کاربر چه چیزی را در اینترنت جستجو میکند. برخی از کاربران تنها به دنبال دادههای متنی هستند؛ در صورتیکه برخی دیگر به دادههای چندرسانهای علاقهمند هستند. همچنین وبکاوی کاربردی کمک میکند تا الگوهایی برای گروه خاصی از مردم یا کاربران اینترنت در حوزهای خاص شناسایی شود.