داده کاوی بزرگ مقرون به صرفه در زمینه ابر: یک مطالعه موردی با K-means Cost-effective Big Data Mining in the Cloud: A Case Study with K-means
- نوع فایل : کتاب
- زبان : فارسی
- ناشر : OUW
- چاپ و سال / کشور: 2017
توضیحات
رشته های مرتبط: مهندسی کامپیوتر، رایانش ابری، داده کاوی و مهندسی الگوریتم ها و محاسبات
I . مقدمه دوران داده های بزرگ آغاز شده است. امروزه , نود درصد از داده ها در طی دو سال اخیر تولید شده و ۲٫۵ کوانتیلین از داده های جدید هر روزه تولید می شوند. برای مثال , هر ماهه در حدود ۶ میلیارد عکس جدید به وسیله ی فیسبوک گزارش شده و در هر دقیقه ۷۲ ساعت ویدئو به یوتیوب آپلود می شود. این رشد انفجاری داده , داده کاوی بزرگ را در رنج وسیعی از زمینه ها همانند تجارت , حکومت , مراقبت های بهداشتی و غیره فعال ساخته است. بسیاری از الگوریتم های داده کاوی در پیچیدگی محاسباتی , نمایان هستند. در سناریو های داده ای بزرگ , به طول انجامیدن فرایند داده کاوی برای ساعت ها و یا حتی روز ها به منظور تکمیل , پدیده ی نادری نیست. از این رو , داده کاوی بزرگ اغلب نیازمند منابع محاسباتی عظیم است. بسیاری از کسب و کار ها و سازمان ها از عهده ی هزینه های زیر ساختی داخلی برای داده کاوی بزرگ , بخصوص کسب کار های با اندازه ی کوچک و متوسط , بر نمی آیند. محاسبات ابری راه حلی کاملی برای این سازمان ها و کسب و کار ها به حساب می آید. مدل ” pay-as-you-go ” که به و سیله ی محاسبات ابری رواج یافته است , دسترسی منعطف و مورد تقاضا برای منابع محاسباتی غیر محدود مجازی را فراهم می کند. این امر اجازه ی اجرای داده کاوی بزرگ را تنها با استفاده از منابع محاسباتی ضروری برای مدت زمان لازم می دهد. در حقیقت , بسیاری از کسب و کار ها و سازمان ها در حال حاضر , دارای داده های ذخیره شده در ابر هستند. برای چنین کسب و کار ها و سازمان هایی , انجام داده کاوی در ابر , یک انتخاب طبیعی است. هر چند , هزینه ی پولی استفاده از منابع منابع محاسباتی در ابر ( با عنوان هزینه ی محاسبات به آن اشاره شده است) در صورتی که به صورت مناسبی مدیریت نشوند , برای داده کاوی بزرگ , به صورت غیر منتظره ای بالا خواهد بود. برای مثال , اجرای ماشین مجازی ( VM) 100 m4-xlarge Amazon EC2 , هر روزه هزینه ای در حدود $۵۸۳,۰۰ را در پی دارد. بنابراین , هزینه ی بهره وری ( هزینه ی مقرون به صرفه ) در ابر , تبدیل به مانعی عمده برای کاربرد های وسیع داده کاوی بزرگ شده است. در این زمینه , مسئله ی حیاتی به منظور تجزیه و تحلیل هزینه ی بهره وری داده کاوی بزرگ در ابر , چگونگی دستیابی به یک نتیجه ی رضایت بخش کافی در حداقل هزینه ی محاسباتی ممکن است. در بسیاری از سناریو های داده کاوی , دستیابی به نتیجه ی مطلوب , همانند دقت ۱۰۰% ضروری نیست. برای مثال , در رابطه با بازاریابی می توان گفت که داده کاوی معمولا بر روی تعداد زیادی از مشتریان اجرا می شود. حاشیه ی معقولی از بی دقتی قابل قبول است. برای مثال , بازاریابان نیاز ندارند تا مشتریانشان در دسته بندی دقت ۱۰۰% قرار گیرند. تا زمانی که آنان بتوانند تصویری عمومی را بدست آورند , قادر به تصمیم گیری خواهند بود. در حقیقت , در برخی از سناریو های داده کاوی , آنان دارای دقت ۱۰۰% نخواهند بود. برای مثال , در پیش بینی آ ب و هوا و پیش بینی ترافیک , این قضیه صادق است. دست یابی به هزینه ی بهره وری با استفاده از متوقف ساختن فرایند داده کاوی امکان پذیر است, چرا که اغلب دست یابی به یک دقت کافی همانند ۹۹% یا ۹۹٫۹% , در هزینه های پایین همانند ۱۰% یا ۲۰% نسبت به هزینه ی دستیابی به دقت , ۱۰۰% از ارجحیت بالاتری برخوردار است. هزینه ی بهره وری داده کاوی , به تحلیل داده های بزرگ اجازه کمک کرده و اجازه می دهد تا رنجی وسیعی از زمینه ها , به وسیله ی کسب و کار ها و سازمان ها, به ویژه سازمان هایی با اندازه ی کوچک و متوسط تحت پوشش این امر قرار گیرند. هر چند که این مورد به خوبی توسط جامعه ی پژوهشی کشف نشده است. در این مقاله , ما به مطالعه ی k-means , یکی از ۱۰ الگوریتم داده کاوی برتر , به کشف و نمایش هزینه ی بهره وری داده کاوی در ابر می پردازیم. بخش های باقی مانده ی مقاله به شکل زیر سازماندهی شده اند. بخش II به توضیح آثار مربوطه می پردازد , بخش III به معرفی روش شناسی اتخاذ شده در این مطالعه می پردازد. بخش IV به ارائه و تحلیل نتایج تجربی, بخش V بیشتر به توضیح یافته های این مطالعه , بخش VI به تحلیل و بررسی تهدید های اعتبار آزمایشات ما و بالاخره, بخش VII به نتیجه گیری این مقاله و به توضیح کار های آینده می پردازد.
I . مقدمه دوران داده های بزرگ آغاز شده است. امروزه , نود درصد از داده ها در طی دو سال اخیر تولید شده و ۲٫۵ کوانتیلین از داده های جدید هر روزه تولید می شوند. برای مثال , هر ماهه در حدود ۶ میلیارد عکس جدید به وسیله ی فیسبوک گزارش شده و در هر دقیقه ۷۲ ساعت ویدئو به یوتیوب آپلود می شود. این رشد انفجاری داده , داده کاوی بزرگ را در رنج وسیعی از زمینه ها همانند تجارت , حکومت , مراقبت های بهداشتی و غیره فعال ساخته است. بسیاری از الگوریتم های داده کاوی در پیچیدگی محاسباتی , نمایان هستند. در سناریو های داده ای بزرگ , به طول انجامیدن فرایند داده کاوی برای ساعت ها و یا حتی روز ها به منظور تکمیل , پدیده ی نادری نیست. از این رو , داده کاوی بزرگ اغلب نیازمند منابع محاسباتی عظیم است. بسیاری از کسب و کار ها و سازمان ها از عهده ی هزینه های زیر ساختی داخلی برای داده کاوی بزرگ , بخصوص کسب کار های با اندازه ی کوچک و متوسط , بر نمی آیند. محاسبات ابری راه حلی کاملی برای این سازمان ها و کسب و کار ها به حساب می آید. مدل ” pay-as-you-go ” که به و سیله ی محاسبات ابری رواج یافته است , دسترسی منعطف و مورد تقاضا برای منابع محاسباتی غیر محدود مجازی را فراهم می کند. این امر اجازه ی اجرای داده کاوی بزرگ را تنها با استفاده از منابع محاسباتی ضروری برای مدت زمان لازم می دهد. در حقیقت , بسیاری از کسب و کار ها و سازمان ها در حال حاضر , دارای داده های ذخیره شده در ابر هستند. برای چنین کسب و کار ها و سازمان هایی , انجام داده کاوی در ابر , یک انتخاب طبیعی است. هر چند , هزینه ی پولی استفاده از منابع منابع محاسباتی در ابر ( با عنوان هزینه ی محاسبات به آن اشاره شده است) در صورتی که به صورت مناسبی مدیریت نشوند , برای داده کاوی بزرگ , به صورت غیر منتظره ای بالا خواهد بود. برای مثال , اجرای ماشین مجازی ( VM) 100 m4-xlarge Amazon EC2 , هر روزه هزینه ای در حدود $۵۸۳,۰۰ را در پی دارد. بنابراین , هزینه ی بهره وری ( هزینه ی مقرون به صرفه ) در ابر , تبدیل به مانعی عمده برای کاربرد های وسیع داده کاوی بزرگ شده است. در این زمینه , مسئله ی حیاتی به منظور تجزیه و تحلیل هزینه ی بهره وری داده کاوی بزرگ در ابر , چگونگی دستیابی به یک نتیجه ی رضایت بخش کافی در حداقل هزینه ی محاسباتی ممکن است. در بسیاری از سناریو های داده کاوی , دستیابی به نتیجه ی مطلوب , همانند دقت ۱۰۰% ضروری نیست. برای مثال , در رابطه با بازاریابی می توان گفت که داده کاوی معمولا بر روی تعداد زیادی از مشتریان اجرا می شود. حاشیه ی معقولی از بی دقتی قابل قبول است. برای مثال , بازاریابان نیاز ندارند تا مشتریانشان در دسته بندی دقت ۱۰۰% قرار گیرند. تا زمانی که آنان بتوانند تصویری عمومی را بدست آورند , قادر به تصمیم گیری خواهند بود. در حقیقت , در برخی از سناریو های داده کاوی , آنان دارای دقت ۱۰۰% نخواهند بود. برای مثال , در پیش بینی آ ب و هوا و پیش بینی ترافیک , این قضیه صادق است. دست یابی به هزینه ی بهره وری با استفاده از متوقف ساختن فرایند داده کاوی امکان پذیر است, چرا که اغلب دست یابی به یک دقت کافی همانند ۹۹% یا ۹۹٫۹% , در هزینه های پایین همانند ۱۰% یا ۲۰% نسبت به هزینه ی دستیابی به دقت , ۱۰۰% از ارجحیت بالاتری برخوردار است. هزینه ی بهره وری داده کاوی , به تحلیل داده های بزرگ اجازه کمک کرده و اجازه می دهد تا رنجی وسیعی از زمینه ها , به وسیله ی کسب و کار ها و سازمان ها, به ویژه سازمان هایی با اندازه ی کوچک و متوسط تحت پوشش این امر قرار گیرند. هر چند که این مورد به خوبی توسط جامعه ی پژوهشی کشف نشده است. در این مقاله , ما به مطالعه ی k-means , یکی از ۱۰ الگوریتم داده کاوی برتر , به کشف و نمایش هزینه ی بهره وری داده کاوی در ابر می پردازیم. بخش های باقی مانده ی مقاله به شکل زیر سازماندهی شده اند. بخش II به توضیح آثار مربوطه می پردازد , بخش III به معرفی روش شناسی اتخاذ شده در این مطالعه می پردازد. بخش IV به ارائه و تحلیل نتایج تجربی, بخش V بیشتر به توضیح یافته های این مطالعه , بخش VI به تحلیل و بررسی تهدید های اعتبار آزمایشات ما و بالاخره, بخش VII به نتیجه گیری این مقاله و به توضیح کار های آینده می پردازد.
Description
The era of big data has arrived [1]. Ninety percent of the data in the world today were produced within the past two years and 2.5 quintillion bytes of new data are created every day [2]. For instance, about 6 billion new photos are reported every month by Facebook and 72 hours of video are uploaded to YouTube every minute [2]. This explosive growth of data has fueled big data mining in a wide range of sections, e.g., business [3], government [4], healthcare [5], etc. Most data mining algorithms are exponential in computational complexity. In big data scenarios, it is not rare for the data mining process to take hours, even days, to complete. Thus, big data mining often requires tremendous computational resources. Many businesses and organizations cannot afford the costs of in-house IT infrastructure for big data mining, especially, small and medium sized businesses. Cloud computing is the perfect solution for them [6]. The “pay-as-you-go” model promoted by cloud computing enables flexible and on-demand access to virtually unlimited computational resources. This allows big data mining to be performed using only the computational resources necessary for the needed period of time. In fact, many businesses and organizations have already had their data saved in the cloud. For such businesses and organizations, it is a natural choice to perform data mining in the cloud [6, 7]. However, the monetary cost of utilizing the computational resources in the cloud (referred to as computation cost) for big data mining can be unexpectedly high if they are not managed properly. For example, running 100 m4-xlarge Amazon EC2 virtual machine (VM) instances costs $583.00 per day. Thus, the cost effectiveness in the cloud has become a major obstacle for broad applications of big data mining. On this ground, it is a critical issue to analyze the cost effectiveness of big data mining in the cloud, i.e., how to achieve a sufficiently satisfactory result at the lowest possible computation cost. In many data mining scenarios, achieving the optimal result, e.g., 100% accuracy, is not necessary. Take marketing for example, where data mining is usually performed on a large number of consumers. A reasonable margin of inaccuracy is acceptable. For example, marketers do not need their consumers to be classified with a 100% accuracy. As long as they can obtain a general picture, they are able to make a decision. In fact, in some data mining scenarios, there will never be a 100% accuracy, e.g., weather forecasting and traffic jam prediction. It is possible to achieve high cost effectiveness by stopping the data mining process at a reasonable point in such scenarios because it is often more preferable to achieve a sufficient accuracy, e.g., 99% or 99.9%, at much lower costs, e.g., 10% or 20%, than the cost of achieving a 100% accuracy. Cost-effective data mining allows big data analytics to be applied in a broader range of fields by more businesses and organizations, especially small and medium sized ones. However, it has not been well investigated by the research community. In this paper, we study k-means, one of the top 10 data mining algorithms [8], to explore and demonstrate the cost effectiveness of big data mining in the cloud. The remainder of this paper is organized as follows. Section II discusses the related work. Section III introduces the methodology adopted in this study. Section IV presents and analyzes the experimental results. Section V furtherdiscusses the findings of this study. Section VI analyzes the threats to the validity of our experiments. Finally, Section VII concludes this paper and discusses the future work.