اهمیت و تفاوت Disallow و allow در فایل robots.txt و تاثیر آن در SEO سایت

فایل robots.txt در ریشه قرار دارد و هدف آن جلوگیری از ورود خزنده های موتورهای جستجو به صفحات خاص است . اما در دستورات این فایل امکان مسدود سازی کل Url ها یا تعداد خاصی از Url قابل تعریف است .

ساختار کلی دستورات به شکل زیر است

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

یک نمونه فایل robots.txt

www.example.com/robots.txt

مسدود سازی ورود خزنده ها به همه محتوای سایت حتی صفح اصلی

User-agent: * 
Disallow: /

دستور زیر اجازه وارد شدن به همه آدرس ها را میدهد حتی صفحه اول . تفاوت این با دستور فوق حذف شدن / از انتهاب Disallow است

User-agent: * 
Disallow:

برای مسدود سازی یک مسیر خاص یا دایرکتوری دستور زیر استفاده میشود : این دستور فقط به Googlebot این را دستور میدهد که اجازه ورود به این مسیر را نمیدهد

User-agent: Googlebot 
Disallow: /example-subfolder/

مسدود سازی یک صفحه در bing : دستور زیر به خزنده bing اجازه دسترسی به صفحه زیر را نمیدهد

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

برخی نکات دیگر در مورد robots.txt

نام فایل از نظر موتورهای جستجو به حروف کوچک و بزرگ حساس است و باید فقط با حروف کوچک نوشته شود مانند robots.txt
فایل robots.txt باید در ریشه یا همان مسیر public در هاست قرار داشته باشد
دستورات تعریف شده در فایل robots.txt برای برخی از خزنده ها در نظر گرفته نمیشود مانند malware ها به منظور یافتن آدرس های ایمیل در صفحات وب سایت
دسترسی از طریق url باید برای این فایل باز باشد و با زدن آدرس آن در مرورگر محتویات آن دیده شود www.example.com/robots.txt
هر ساب دامنه باید فایل robots.txt خود را داشته باشد و ساب دامنه ها از یکدیگر مجزا هستند.
در تعریف استاندارد sitemap ها می توان آنها را در فایل robots.txt اضافه کرد.

robots

دستورات موجود در این فایل بر اساس زبان استاندارد robots.txt تعریف میشود . به طور کلی 5 دستور برای استفاده درنظر گرفته شده است

User-agent : این دستور بیانگر نام موتور جستجو خاص است مانند google یا bing در https://www.robotstxt.org/db.html
Disallow : این دستور به تنهایی اجازه ورود به همه صفحات را میدهد اما اگر در ادامه آن آدرس یا علامت / قرار بگیرد از ورود به کلیه صفحات خوداری میکند
Allow : این دستور تنها برای Googlebot شناسایی میشود و این اجازه به طور کامل برای ایندکس کردن کلیه صفحات و یا دایرکتوری ها را به خزنده میدهد
Crawl-delay : این دستور برای گوگل قابل شناسایی نیست اما میگوید که خزنده چند ثانیه میتواند قبل از بارگذاری محتوا در وب سایت باقی بماند . اما با تعریف مقادیر crawel rate در وب مستر تولز گوگل میتوان این موضوع را پیگیری کرد
Sitemap : اجازه تعریف آدرس های sitemap.xml را میدهد تا موتورهای جستجو بتوانند همه آدرس های sitemap یا نقشه سایت را شناسایی کنند.

تلفن	021-88302905	021-88312591
ایمیل	info@webine.ir
واتس اپ - تلگرام - بله	09307408480

اهمیت و تفاوت Disallow و allow در فایل robots.txt و تاثیر آن در SEO سایت

اولین دیدگاه را شما ثبت کنید