لینک دریافت فایل خرید پایین توضیحات
فرمت فایل word قابل ویرایش پرینت
تعداد صفحات: 43
«اناتومی یک موتور جستجو وب فوق متنی مقیاس وسیع»
خلاصه:
در بخش، گوگل خواهم پرداخت، یک نمونه اصلی یک موتور جستجوی مقیاس وسیع که استفاده وسیعی ساختار اراده شده فوق متنی کند. گوگل جستجو یافتن (Crawl) شاخص بندی وب طور موثر تولید نتایج هرچه رضایت بخش تر نسبت سیستم موجود طراحی شده است. نمونه اصلی پایگاه داده متشکل متن فوق پیوند کامل 24 میلیون http://google.standard.edi/ موجود باشد. مهندسی یک موتور جستجو یک وظیفه چالش اور است. موتورهای جستجو دهها صدها میلیون وب متشکل تعداد قابل ملاحظه موضوعهای متفاوت شاخص بندی کنند پاسخ گوی دهها میلیون پرس جو صورت روزانه هستند. خلاف اهمیت بالای موتورهای جستجوی وب تحقیقات اکادمیک بسیار اندکی انها صورت گرفته (در کشور عزیز ما دقیقا هیچ مطالعه تحقیقی صورت نگرفته است). علاوه دلیل سرعت پیشرفت تکنولوژی وب، امروزه ساخت یک موتور جستجو مسبت سه سال پیش بسیار متفاوت است. بخش بررسی توصیف عمقی موتور جستجوی وب مقیاس وسیع پردازد. جدای مشکلات تغییر مقیاس تکنیکهای جستجوی قدیمی داده وسعت، چالشهای تکنیکی جدیدی زمینه استفاده اطلاعات اضافی ارائه شده فوق متن تولید نتایج جستجوی بوجود امده است. بخش که چگونه توان یک سیستم مقیاس وسیع عملی که بتواند اطلاعات اضافی ارائه شده فقو متن استخراج کند تولید کرد، پاسخ خواهد گفت. همچنین ما مشکل که چگونه توان مجموعه فوق متن کنترل نشده (هر کسی تواند هر چه خواست بنیسد) کنار امد، دقت خواهیم کرد.
1. معرفی
وب چالشهای جدیدی بازیابی اطلاعات ایجاد کند. حجم اطلاعات موجود وب سرعت حال افزایش همان نسبت تعداد کاربران جدید که جستجوی وب تجربه هستند افزایش یابد. مردمی که احتمالا وب طریق گراف پیوند مرور کنند، اغلب کار خود شاخصهای ذخیره شده کیفیت بالای انسانی مانند یاهو! موتورهای جستجو شروع کنند. لیتهاس ذخیره نگهداری شده توسط انسانی موضوعهای معروف طور موثری پوشش دهند اما شخصی بودن، گران پرهزینه بودن ساخت نگهداری، کندی پیشرفت ناتوانی پوشش موضوعهای مبهم پیچیده عیبتهای عمده انها محسوب شود. موتورهای جستجو پایه خوانی کلمات کلیدی معمولا نتیج کیفیت بسیار پایین برمی گرداند. بهتر شدن شرایط، بعضی شرکتهای تبلیغاتای تلاش وسیعی بدست اوردن نظر مردم طریق گمراه کردن موتورهای جستجوی اتوماتیک کنند. اقایان سرگی برین لاورنس پیج موتور جستجوی مقیاس وسیعی ساخته اند که تعداد زیادی مشکلات سیستم موجود پرداخته است. استفاده وسیعی ساختمام ارائه شده فوق متن کند منظور فراهم کردن نتایج جستجوی کیفیت بالاتر، اسیم سیستم، گوگل، انتخاب شده است. زیرا گوگل تلفظ معمول googol 10100 بسیار مناسب هدف ما ساختن یک موتور جستجوی بسیار مقیاس وسیع است.
موتورهای جستجوی وب – گسترش یافتن: 1994-2001
تکنولوژی موتورهای جستجو باید میزان زیادی تغییر پیدا کرد بتواند هماهنگی خود گسترش وب حفظ کند. 1994، یکی اولین موتورهای جستجوی وب یعمی کرم وب گستره جهانی (WWWW) شاخصی از000/110 وب اسناد دسترس وب داشت. نوامبر 1998 موتورهای جستجوی برتر ادعای شاخص بندی 2 میلیون (WebCrawler) 100 میلیون (از (Search Engine Watch وب سند داشتند. قابل پیش بینی که سال 2001 یک شاخص جامع وب شامل بیش دو میلیارد سند باشد. همان زمان تعداد پرس جوهایی که موتورهای جستجو اداره کنند طور شگفت اوری افزایش یابد. ماه مارس اوریل 1994، کرم وب گستره جهانی (wwww) طور روزانه حدودا 1500 پرس جو دریافت کرد. ماه نوامبر 1998، التاویستا (Altavista) اظهار داشت که روزانه حدود 20 میلیون پرس جو اداره کند. افزایش تعداد کاربران وب سیستمهای اتوماتیک که موتورهای جستجو پرس جو کنند نظر رسد که سال 2001 موتورهای جستجو صدها میلیون پرس جو اداره خواهند کرد. هدف سیستم گوگل توجه بسیاری مشکلات کیفیتی مقیاس پذیری که عرضه تکنولوژی موتورهای جستجوی اینترنتی میزان زیادی گسترش یافته اند.
1.2.1 گوگل: تغییر دادن وب
این موتور جستجوایی که سطح وب امروز باشد چالشهای بسیاری پدید اورد. تکنولوژی جستجو یافتن سریع جمع اوری روز رسانی سندهای وب لازمی باشد. فضای ذخیره سازی بهید طور کارامدی ذخیره شاخصها طور اختیاری خود سندها بکار گرفته شود. سیستم شاخص بندی باید صدها گیگا بایت داده طور کارامد پردازش کند. پرس