لینک دریافت فایل خرید پایین توضیحات
فرمت فایل word قابل ویرایش پرینت
تعداد صفحات: 31
«اناتومی یک موتور جستجو وب فوق متنی مقیاس وسیع»
خلاصه:
در بخش، گوگل خواهم پرداخت، یک نمونه اصلی یک موتور جستجوی مقیاس وسیع که استفاده وسیعی ساختار اراده شده فوق متنی کند. گوگل جستجو یافتن (Crawl) شاخص بندی وب طور موثر تولید نتایج هرچه رضایت بخش تر نسبت سیستم موجود طراحی شده است. نمونه اصلی پایگاه داده متشکل متن فوق پیوند کامل 24 میلیون http://google.standard.edi/ موجود باشد. مهندسی یک موتور جستجو یک وظیفه چالش اور است. موتورهای جستجو دهها صدها میلیون وب متشکل تعداد قابل ملاحظه موضوعهای متفاوت شاخص بندی کنند پاسخ گوی دهها میلیون پرس جو صورت روزانه هستند. خلاف اهمیت بالای موتورهای جستجوی وب تحقیقات اکادمیک بسیار اندکی انها صورت گرفته (در کشور عزیز ما دقیقا هیچ مطالعه تحقیقی صورت نگرفته است). علاوه دلیل سرعت پیشرفت تکنولوژی وب، امروزه ساخت یک موتور جستجو مسبت سه سال پیش بسیار متفاوت است. بخش بررسی توصیف عمقی موتور جستجوی وب مقیاس وسیع پردازد. جدای مشکلات تغییر مقیاس تکنیکهای جستجوی قدیمی داده وسعت، چالشهای تکنیکی جدیدی زمینه استفاده اطلاعات اضافی ارائه شده فوق متن تولید نتایج جستجوی بوجود امده است. بخش که چگونه توان یک سیستم مقیاس وسیع عملی که بتواند اطلاعات اضافی ارائه شده فقو متن استخراج کند تولید کرد، پاسخ خواهد گفت. همچنین ما مشکل که چگونه توان مجموعه فوق متن کنترل نشده (هر کسی تواند هر چه خواست بنیسد) کنار امد، دقت خواهیم کرد.
1. معرفی
وب چالشهای جدیدی بازیابی اطلاعات ایجاد کند. حجم اطلاعات موجود وب سرعت حال افزایش همان نسبت تعداد کاربران جدید که جستجوی وب تجربه هستند افزایش یابد. مردمی که احتمالا وب طریق گراف پیوند مرور کنند، اغلب کار خود شاخصهای ذخیره شده کیفیت بالای انسانی مانند یاهو! موتورهای جستجو شروع کنند. لیتهاس ذخیره نگهداری شده توسط انسانی موضوعهای معروف طور موثری پوشش دهند اما شخصی بودن، گران پرهزینه بودن ساخت نگهداری، کندی پیشرفت ناتوانی پوشش موضوعهای مبهم پیچیده عیبتهای عمده انها محسوب شود. موتورهای جستجو پایه خوانی کلمات کلیدی معمولا نتیج کیفیت بسیار پایین برمی گرداند. بهتر شدن شرایط، بعضی شرکتهای تبلیغاتای تلاش وسیعی بدست اوردن نظر مردم طریق گمراه کردن موتورهای جستجوی اتوماتیک کنند. اقایان سرگی برین لاورنس پیج موتور جستجوی مقیاس وسیعی ساخته اند که تعداد زیادی مشکلات سیستم موجود پرداخته است. استفاده وسیعی ساختمام ارائه شده فوق متن کند منظور فراهم کردن نتایج جستجوی کیفیت بالاتر، اسیم سیستم، گوگل، انتخاب شده است. زیرا گوگل تلفظ معمول googol 10100 بسیار مناسب هدف ما ساختن یک موتور جستجوی بسیار مقیاس وسیع است.
موتورهای جستجوی وب – گسترش یافتن: 1994-2001
تکنولوژی موتورهای جستجو باید میزان زیادی تغییر پیدا کرد بتواند هماهنگی خود گسترش وب حفظ کند. 1994، یکی اولین موتورهای جستجوی وب یعمی کرم وب گستره جهانی (WWWW) شاخصی از000/110 وب اسناد دسترس وب داشت. نوامبر 1998 موتورهای جستجوی برتر ادعای شاخص بندی 2 میلیون (WebCrawler) 100 میلیون (از (Search Engine Watch وب سند داشتند. قابل پیش بینی که سال 2001 یک شاخص جامع وب شامل بیش دو میلیارد سند باشد. همان زمان تعداد پرس جوهایی که موتورهای جستجو اداره کنند طور شگفت اوری افزایش یابد. ماه مارس اوریل 1994، کرم وب گستره جهانی (wwww) طور روزانه حدودا 1500 پرس جو دریافت کرد. ماه نوامبر 1998، التاویستا (Altavista) اظهار داشت که روزانه حدود 20 میلیون پرس جو اداره کند. افزایش تعداد کاربران وب سیستمهای اتوماتیک که موتورهای جستجو پرس جو کنند نظر رسد که سال 2001 موتورهای جستجو صدها میلیون پرس جو اداره خواهند کرد. هدف سیستم گوگل توجه بسیاری مشکلات کیفیتی مقیاس پذیری که عرضه تکنولوژی موتورهای جستجوی اینترنتی میزان زیادی گسترش یافته اند.
1.2.1 گوگل: تغییر دادن وب
این موتور جستجوایی که سطح وب امروز باشد چالشهای بسیاری پدید اورد. تکنولوژی جستجو یافتن سریع جمع اوری روز رسانی سندهای وب لازمی باشد. فضای ذخیره سازی بهید طور کارامدی ذخیره شاخصها طور اختیاری خود سندها بکار گرفته شود. سیستم شاخص بندی باید صدها گیگا بایت داده طور کارامد پردازش کند. پرس جحوها باید سرعت اداره شوند (با نرح صدها هزاران پرس جو ثانیه).
همان گونه که وب گسترش یابد وظایف طور صعودی مشکل شوند. اگرچه عملکرد سخت افزار هزینه طور چشمگیری بهبود یافته اند حدی سختی تعدیل کرده اند. وجود تعدادی استثنای قابل اشاره مانند زمان استوانه یابی دیسک قابلیت ادامه کار شرایط غیرمنتظره سیستم عامل وجود دارند. طراحی گوگل هر دو مسئلهع گسترش وب تغییرات تکنولوژیک نظر گرفته شده اند. گ.گل تغییر مقیاس دادن مجموعه داده خوبی طراحی شده فضای ذخیره سازی طور موثری استفاده کند. ساختمان داده دسترسی سریع بهینه سازی شده اند (به بخش 4.2 نگاه کنید). علاوه این، هزینه شاخص بندی ذخیره متن HTML نهایتا بستگی نمسبی میزان دسترسی انها دارد تغییر مقیاس منتاسب سیستم متمرکز شده مانند گوگل تاثیرگذار است.
.3.1 اهداف طراحی
.1.3.1 کیفیت جستجوی بهینه شده
هدف اصلی طراحی گوگل بهینه کردنم موتورهای جستجوی وب است. سال 1994، بعضی مردم تصور کردند یک شاخص جستجوی کامل امکان یافتن هر چیزی میسر سازد. طبق مقاله بهترینهای وب 1994 – پیمایشگرها «بهترین سرویس پیمایشی باید امکان یافتن تقریبا هر چیزی اسانی فراهم کند (هنگامی که تمام داده وارد شدند)». اگرچه وب 1999 کاملا متفاوت است. هر کسی که اخیرا یک موتور جستجو استفاده کرده باشد سادگی یابد که کامل بودن شاخص تنها عامل موثر کیفیت نتایج جستجو نمی باشد. «نتایج اشغال» اغلب تمام نتایج علاقه کاربر خراب کنند. حقیقت نوامبر 1999، تنها یکی چهار مکوتور تجاری برتر نتایج خودش یابد (در پاسخ ده نتیجه برتر، جستجو شده خودش برمی رگداند). یکی دلایل اصلی مشکل که تعداد سندهای موجود شاخصها دلایل روشنی افزایش پیدا کرده اند اما توانایی