رویکرد نمونه هدایت شده برای تغییرات آرام در پایگاه ساختار بندی افزایش اطلاعات وب / A Sample-Guided Approach to Incremental Structured Web Database Crawling

رویکرد نمونه هدایت شده برای تغییرات آرام در پایگاه ساختار بندی افزایش اطلاعات وب A Sample-Guided Approach to Incremental Structured Web Database Crawling

  • نوع فایل : کتاب
  • زبان : فارسی
  • ناشر : آی تریپل ای IEEE
  • چاپ و سال / کشور: 2010

توضیحات

رشته های مرتبط: مهندسی کامپیوتر و فناوری اطلاعات، اینترنت و شبکه های گسترده و مهندسی نرم افزار
۱- مقدمه وب عمیق اشاره به دادهای در پایگاه اطلاعاتی وب دارد که محتوای بسیاری از آنها در مورد گزارشات اطلاعات ساختار بندی شده است . اعتقاد براین است که این مورد بزرگترین منبع وجود اطلاعات وب است و از اینراه حل جمع آوری گزارشات ساختاربندی شده از پایگاه اطلاعات وب برای انجام تحقیق و پردازش اطلاعات به صورت مرکزی وب عمیق است . توسعه سریع سخت افزار کامپیوتری و اینترنت باعث شده است تا این جواب کاربردی تر از قبل شود . تلاشهای قبلی انجام شده فقط تاکید بر تغییرات آرام در پایگاه اطلاعاتی داشته اند و هدف به حداکثر رساندن پوشش اطلاعات پایگاه های وب است . ما این روش را تغییرات گسترده نامیده ایم . همان طور که مشخص است ، بسیاری از پایگاه های اطلاعاتی بسیار پویا هستند . برای مثال گزارشات جدیدبه صورت پیوسته وارد می شوند . برای اطمینان از ثبات اطلاعات ترکیبی وب ، استفاده از روش تغییرات آرام برای برداشت حجم کم گزارشات جدید همیشه کاربردی نیست و منجر می شود تا حجم زیادی اطلاعات غیر لازم در وب و شبکه ایجاد شود . در این تحقیق ، یک مسئله مهم وحل نشده را برای رسیدن به جواب همراه با تغییر مورد بررسی قرار می دهیم ، چگونه می توان به گزارشات جدید بدون ایجاد تغییر در کل پایگاه اطلاعاتی دست یافت ؟ برای این منظور یک روش افزایش تغییر همراه با نمونه های هدایت شده ارائه کرده ایم . ایده کلی این روش به صورت زیر توصیف شده است : اول اینکه تعداد کمی از نمونه های تصادفی از پایگاه اطلاعاتی وب گرفته شدهاند . سپس با آنالیز انحراف بین نمونه ها و ویرایش تاریخی ، یک گزارزش درست برای ایجاد جستجو های مناسب برای گزارشات جدید ارائه شده است . در این روش ، یک مدل نموداری جستجو محور ارائه کردیم و بنابراین اطلاعات داده شده می تواند به صورت یک نمودار بدون جهت بر پایه مدل نمایش داده شوند . وظیفه ایجاد تغییر فراینده تبدیل به یک فرآیند نموداری می شود که در آن تغییر از نمودار نمونه ها در پایگاه اطلاعات وب شروع می شود و در هر مرحله V انتخاب می شود و جستجوی مناسب با استفاده از بردار انتخاب شده برای تغییر انجام می شود . چون فقط یک روش جستجو برای ارزیابی پایگاه داده های وب وجود دارد ،ایجاد جستجوی اتوماتیک یکی از روشهای کلیدی است . هدف ما به حداکثر رساندن پوشش گزارشات جدید و به حداقل رساندن پوشش اطلاعات قدیمی به صورت همزمان است . همانند تحقیق اول برای بیان مسئله تغییرات آرام در پایگاه اطلاعاتی وب ، تاکید این تحقیق هم به صورت زیر خلاصه شده است . ابتداد مسئله جدید تغییرات آرام در پایگاه اطلاعاتی وب را شناسایی کردیم . برخلاف تحقیقات گسترده انجام شده در مورد تغییرات وب ، بیان کردیم که مسئله اصلی پایگاه های موثر در ثبات بین پایگاه اطلاعاتی بومی و پایگاه های مرکب وب است . ثانیا ، یک چهار چوب تئوری ارائه کردیم که تغییرات پایگاه اطلاعات را به صورت یک نمودار مدلسازی کرده ایم . در تفاوت مدل های نموداری مطرح شده توسط تحقیقات قبلی ، مدل نموداری ما در سطح گزارشات است که می تواند توصیف کن که آیا هیچ دو گزارش جستجو با هم مرتبط هستند . سوم اینکه ، بر اساس مدل نموداری ، روشهای ساده و هوشمندی را مطرح کردیم که برای مسائل کلیدی در روش تغییرات فراینده به کارگرفته می شوند و هدف آنها ایجاد جستجوهای مهم برای برداشت گزارشات جدید است ادامه این تحقیق به صورت زیر مرتب شده است : بخش ۲ موارد اولیه را بیان کرده است . بخش ۳ یک مدل نموداری جستجو محور را نشان می دهد . روش انتخاب جستجو بر پایه مدل نموداری در بخش ۴ داده شده است . یافته های تجربی در بخش ۵ مورد بحث قرار گرفته است . بخش ۶ بعضی از تحقیقات مربوط را موروی می کند و بخش ۷ هم نتیجه گیری تحقیق است .

Description

The Deep Web refers to the data residing in web databases, and most of its content is in form of structured data records[1]. The Deep Web is believed to be the largest source of structured data on the Web and hence Deep Web data integration has been a long standing challenge in the field of Web data management. A promising solution for Deep Web data integration is web database crawling[2]. Crawling-based solution targets at gathering structured records from web databases to make users search and mine the Deep Web in a centralized manner. The rapid development of computer hardware and Internet makes this solution more practical than before. To the best of our knowledge, previous efforts[3][4][5][6] only focus on crawling the whole web database with the goal of maximizing the coverage of the web database. We call this approach “exhaustive crawling”. As it is widely known, most web databases are highly dynamic, e.g. new records are always being inserted constantly. To assure the local database is consistent to the integrated web databases, the maintenance operation has to be performed. However, it is not affordable to always apply the exhaustive-crawling approach to harvest a small quantity of new records(compared to the whole web database), which can result in the heavy burdens for both web databases and the network. In this paper, we study a crucial but largely unresolved problem in the crawling-based solution: how to obtain the new records without crawling the whole web database? To this end, we propose a sample-guided incrementalcrawling approach. The basic idea of this approach is described as follows. First, a small number of random samples are harvested from the web database. Then, by analyzing the deviation between the samples and the history version of the web database, an appropriate record is selected to generate the promising query for crawling new records. In this approach, we propose query-related graph model, and hence, any given web database can be represented as an undirected graph based on the model. The incremental crawling task is thus transformed into a graph traversal process in which the crawler starts with the graph of the samples of the web database and at each step a vertex v is selected and an appropriate query is generated using the selected vertex for crawling. Since the only general way of accessing a web database is through its query interface, automatic query generation is the key of our approach. Our goal is to maximize the coverage of the new records and minimize the coverage of the old ones of at the same time. As the initial effort to address the incremental web database crawling problem, the contribution of the paper is summarized as follows. First, we identify this novel problem of incremental web database crawling. Contrary to the previous exhaustivecrawling works, we demonstrate that a central issue of efficient web database crawling lies in the consistency between the local database and the integrated web databases. Second, we provide a theoretical framework that formally models query-based web database crawling as graph traversal. Different to the attributelevel graph models proposed by previous works(e.g. [3]), our graph model is on record level, which can characterize whether any two records are query related in a straightforward way. Third, based on the graph model, we propose simple and smart methods for the key problems in the incremental-crawling approach, which aims at generating promising queries to harvest the new records as many as possible. The rest of this paper is organized as follows: Section 2 presents the preliminaries. Section 3 introduces the queryrelated graph model. The query selection method based on the query-related graph model is proposed in Section 4. We discuss our experimental findings in Section 5. Section 6 reviews some related work. Section 7 concludes this paper. 
اگر شما نسبت به این اثر یا عنوان محق هستید، لطفا از طریق "بخش تماس با ما" با ما تماس بگیرید و برای اطلاعات بیشتر، صفحه قوانین و مقررات را مطالعه نمایید.

دیدگاه کاربران


لطفا در این قسمت فقط نظر شخصی در مورد این عنوان را وارد نمایید و در صورتیکه مشکلی با دانلود یا استفاده از این فایل دارید در صفحه کاربری تیکت ثبت کنید.

بارگزاری