تفاوت Disallow و allow در robots.txt

فایل robots.txt در ریشه قرار دارد و هدف آن جلوگیری از ورود خزنده های موتورهای جستجو به صفحات خاص است . اما در دستورات این فایل امکان مسدود سازی کل Url  ها یا تعداد خاصی از Url قابل تعریف است . 

ساختار کلی دستورات به شکل زیر است 

User-agent: [user-agent name]Disallow: [URL string not to be crawled]

یک نمونه فایل robots.txt 

www.example.com/robots.txt

مسدود سازی ورود خزنده ها به همه محتوای سایت حتی صفح اصلی

User-agent: * Disallow: /

دستور زیر اجازه وارد شدن به همه آدرس ها را میدهد حتی صفحه اول . تفاوت این با دستور فوق حذف شدن / از انتهاب Disallow است

User-agent: * Disallow: 

برای مسدود سازی یک مسیر خاص یا دایرکتوری دستور زیر استفاده میشود : این دستور فقط به Googlebot این را دستور میدهد که اجازه ورود به این مسیر را نمیدهد

User-agent: Googlebot Disallow: /example-subfolder/

مسدود سازی یک صفحه در bing : دستور زیر به خزنده bing اجازه دسترسی به صفحه زیر را نمیدهد

User-agent: BingbotDisallow: /example-subfolder/blocked-page.html

برخی نکات دیگر در مورد robots.txt

  • نام فایل از نظر موتورهای جستجو به حروف کوچک و بزرگ حساس است و باید فقط با حروف کوچک نوشته شود مانند robots.txt
  • فایل robots.txt باید در ریشه یا همان مسیر public در هاست قرار داشته باشد
  • دستورات تعریف شده در فایل robots.txt برای برخی از خزنده ها در نظر گرفته نمیشود مانند malware ها به منظور یافتن آدرس های ایمیل در صفحات وب سایت
  • دسترسی از طریق url باید برای این فایل باز باشد و با زدن آدرس آن در مرورگر محتویات آن دیده شود www.example.com/robots.txt
  • هر ساب دامنه باید فایل robots.txt خود را داشته باشد و ساب دامنه ها از یکدیگر مجزا هستند.
  • در تعریف استاندارد sitemap ها می توان آنها را در فایل robots.txt اضافه کرد.

robots

 

دستورات موجود در این فایل بر اساس زبان استاندارد robots.txt تعریف میشود . به طور کلی 5 دستور برای استفاده درنظر گرفته شده است

  1. User-agent : این دستور بیانگر نام موتور جستجو خاص است مانند google یا bing درمشاهده لیست کامل
  2. Disallow : این دستور به تنهایی اجازه ورود به همه صفحات را میدهد اما اگر در ادامه آن آدرس یا علامت / قرار بگیرد از ورود به کلیه صفحات خوداری میکند
  3. Allow : این دستور تنها برای Googlebot شناسایی میشود و این اجازه به طور کامل برای ایندکس کردن کلیه صفحات و یا دایرکتوری ها را به خزنده میدهد
  4. Crawl-delay : این دستور برای گوگل قابل شناسایی نیست اما میگوید که خزنده چند ثانیه میتواند قبل از بارگذاری محتوا در وب سایت باقی بماند . اما با تعریف مقادیر crawel rate در وب مستر تولز گوگل میتوان این موضوع را پیگیری کرد
  5. Sitemap : اجازه تعریف آدرس های sitemap.xml را میدهد تا موتورهای جستجو بتوانند همه آدرس های sitemap یا نقشه سایت را شناسایی کنند.



    مطالبی که به شما پیشنهاد میشود
    عضویت در خبرنامه
    صرفا جهت اطلاع رسانی و مقالات جدید