Googlebot چیست؟

Googlebot ربات خزنده گوگل است که گاهی اوقات نیز “عنکبوت” نامیده می شود. خزیدن فرآیندی است که توسط گوگل بات، صفحات جدید و به روز شده را به فهرست گوگل اضافه می کند.

گوگل از مجموعه ای عظیم از رایانه ها برای جمع آوری میلیون ها صفحه در وب استفاده می کند (یا “خزنده”). Googlebot از یک فرایند الگوریتمی استفاده می کند که برنامه های کامپیوتری تعیین می کند که ربات های گوگل کدام سایت ها ، چه میزان و چه تعداد صفحاتی را از هر سایت برای خزیدن انتخاب کنند.

چگونه Googlebot به سایت شما دسترسی پیدا می کند

برای اکثر سایتها، Googlebot نباید بیش از یک بار در هر ثانیه، به سایت شما دسترسی پیدا کند. با این حال، با توجه به تاخیرهای شبکه، ممکن است این نرخ در طول دوره کوتاه کمی بالاتر باشد.

Googlebot طوری طراحی شده است که در چندین ماشین توزیع شود، تا بدین ترتیب عملکرد خود را بهبود بخشد. از سوی دیگر گوگل، برای کاهش استفاده از پهنای باند، خزنده های زیادی را بر روی ماشین های واقع در نزدیکی سایت هایی که در شبکه بارگذاری می شوند، اجرا می کند. بنابراین، صفحات مربوط به سایت شما ممکن است، از چند دستگاه در google.com، بازدیدکننده داشته باشد، که همه آنها از طریق ربات گوگل بوت باشد. بدین ترتیب، هدف گوگل این است که بدون مصرف زیاد پهنای باند سرور شما، صفحات ایجاد شده توسط شما را index کند. درخواست تغییر در میزان خزیدن.

مسدود کردن Googlebot در هنگام دسترسی به محتوای سایت شما

تقریبا غیرممکن است که وب سرور را با استفاده از پیوندهایی به آن، مخفی نگه دارید. به محض اینکه کسی پیوندی از سرور “مخفی” خود را به یک وب سرور دیگر پیوند دهد، URL “مخفی” شما در برچسب رفرنس ظاهر خواهد شد و توسط سرور دیگر در رجیستر خود ذخیره و منتشر می شود. به طور مشابه، وب دارای بسیاری از لینک های قدیمی و خراب است. هر زمان که یک لینک پیوند نادرست به سایت شما ارسال شود یا نتواند لینک ها را بهروزرسانی کند تا تغییرات در سرور شما را نشان دهد، Googlebot سعی خواهد کرد یک لینک نادرست را از سایت خود دانلود کند.

اگر میخواهید از خزیدن Googlebot در محتوای سایت خود جلوگیری کنید، گزینه های متعددی وجود دارد . البته تفاوت هایی بین جلوگیری از خزیدن Googlebot در صفحه، جلوگیری از Googlebot برای ایندکس کردن صفحه و جلوگیری از دسترسی هر صفحه توسط خزنده و یا کاربران وجود دارد.

مشکلات اسپم ها و سایر عوامل کاربر

آدرس های IP که توسط Googlebot استفاده می شوند، در هر لحظه تغییر می کنند. Googlebot خود را با یک رشته عامل کاربر مشخص می کند، اما این میتواند جعلی باشد؛ بهترین روش شناسایی دسترسی توسط Googlebot، استفاده از جستجوی DNS معکوس است .

Googlebot و تمام ربات های موتور جستجوگر، دستورالعمل های robots.txt را احراز و رعایت می کنند، اما برخی از اسپم ها این کار را انجام نمی دهند. گزارش هرزنامه به گوگل.

گوگل چندین عامل کاربر دیگر دارد، که یکی از آنها به نام Feedfetcher می باشد. از آنجا که درخواست های Feedfetcher از اقدامات صریح توسط کاربران انسانی که خوردها را به صفحه اصلی گوگل خود اضافه کرده اند و نه از خزنده های خودکار، Feedfetcher از دستورالعمل های robots.txt پیروی نمی کند. شما می توانید Feedfetcher را از اخلال کردن سایت خود با پیکربندی سرور خود برای خدمت پیام ۴۰۴، ۴۱۰ یا دیگر پیام خطای خطا به Feedfetche جلوگیری کنید. اطلاعات بیشتر در مورد Feedfetcher.

 

منبع : https://support.google.com/webmasters/answer/182072?hl=en

مطالب مرتبط

دیدگاهی بنویسید.

بهتر است دیدگاه شما در ارتباط با همین مطلب باشد.