فایل robots.txt چیست؟

زمان مطالعه : 5 دقیقه
فایل robots.txt

فایل robots.txt چیست و چگونه کار می کند؟

یکی از مهمترین فایل های هر وب سایتی فایل robots.txt می باشد که در طراحی سایت این یک مطلب بسیار مهم است.

وب سایت شما با استفاده از این فایل به موتور های جستجو توضیح می دهد و دسترسی های موتور های جستجو را مشخص می کند. تمامی موتور های جستجو از جمله گوگل و بینگ روی این فایل حساس اند و نداشتن این فایل برای هر هاست نقطه ضعف محسوب می شود.

فایل robots.txt درکجا قرار می گیرد؟

این فایل در پوشه Public Html قرار می گیرد. به طوریکه موتور های جستجو فایل شمارا در آدرس زیر پیدا کنند :

yourDomain.com/Robots.txt

این لوکیشن را در دامنه های سایت های مختلف جستجو کنید ، می توانید فایل robots.txt آنهارا بررسی کنید.

مدیریت کراول

همانطور که می دانید موتور های جستجو کراول ( خزنده ) های محدودی دارند که به وسیله آن خزنده ها وب سایت شمارا بررسی می کنند.

هر وب سایت بر اساس بازدید روزانه و ترافیک مصرفی اش ، یک نمره دارد. موتور های جستجو بر اساس این نمره وب سایت هارا درجه بندی می کنند و سایت هایی که ترافیک بالاتری دارند کراول های بیشتری دارند.

اصطلاحا به این درجه بندی Crawl Budget یا بودجه کراول نیز گفته می شود. برای اینکه بودجه کراول شما بیهوده برای صفحاتی که نمی خواهید ایندکس شوند از بین نرود می توانید با استفاده از فایل robots.txt این بودجه را مدیریت کنید و به سرعت ایندکس شدن سایت خود بهبود ببخشید.

بهبود کراول

برای بهبود کراول و صرفه جویی در بودجه کراول بهترین راه این است که از ایندکس شدن پارامتر ها (URL Paratemters) جلوگیری کنیم.

پارامتر ها صفحات مورد اهمیت ما نیستند و ایندکس شدن آنها می تواند موجب شکست وب سایت شود.

یکی از پارامتر ها برای وب سایت های فروشگاهی ، مقایسه محصولات است. مقایسه محصولات در وب سایت های فروشگاهی عمدتا با آدرس زیر شکل می گیرد :

https://www.YourDomain.com/product/?compare[A2291][0]=19813&attribute[A2291][1]=19817&pageno=1&last_filter=2291&last_value=19817&sortby=4

این مثال برای درک بهتر پارامتر ها بود. پارامتر های هایی مانند این می توانند بسیار زیاد باشند و مدت ها بودجه کراول مارا بیهوده اشغال کنند. شما با حذف این پارامتر ها می توانید در بودجه کراول سایت خود صرفه جویی کنید.

دستور ها

کار با فایل robots.txt بسیار ساده است و نیاز به آموزش خاصی ندارد. اگر در فایل های وب سایت های معتبر مشاهده کنید متوجه این موضوع می شوید.

User-agent: * 
Disallow: /

کد های بالا نمونه یک فایل robots.txt می باشد. با استفاده از دستور user-agent نام موتور های جستجو را فراخانی می کنیم. درصورتی که این گذینه را ستاره قرار دهید به این معناست که شما دستور بعدی را مخصوص تمامی موتور های جستجو نوشته اید. برای فراخانی موتور های جستجو گوگل می توان از دستور زیر استفاده کرد:

User-agent: Googlebot 
Disallow: /

در خطوط بعد از دستور user-agent از می توانید دستورات مورد نظر را اعلام کنید. و برای تغییر user-agent باید یک خط جا بی اندازید :

User-agent: Googlebot 
Disallow: 

User-agent: bingbot 
Disallow: /not-for-bing/

به همین راحتی می توان یک فایل robots.txt ایده عال ساخت و به کراول وب سایت کمک کرد.

دستور allow

با استفاده از دستور allow شما برای موتور های جستجو صفحاتی را مشخص می کنید که قرار است آنهارا منتشر کنند و درواقع شما به موتور های جستجو با استفاده از این دستور اجازه گشتن صفحه مورد نظر را می دهید.

برای آشنایی بهتر با دستور allow به مثال زیر توجه کنید:

User-agent: Googlebot 
Allow: /blog/

در دستور بالا من به موتور جستجو گوگل اجازه بررسی پوشه blog را دادم و حالا تمامی فایل های پوشه blog مورد بررسی کراول گوگل قرار می گیرد.

دستور Disallow

این دستور دقیقا مخالف دستور Allow عمل می کند. شما با استفاده از این دستور به موتور های جستجو فایل هایی که ایندکس شدن آنها مورد نیاز نیست را مشخص می کنید.

شما با استفاده از این دستور مشخص می کنید چه صفحاتی را موتور های جستجو نباید بررسی کنند. یکی از این صفحات می توانند صفحات مقایسه محصولات و یا پنل مدیریت وب سایت شما باشد.

Disallow: /wp-admin/

نکته: گاهی وقت ها ممکن است موتور های جستجو به دستور disallow اهمیت ندهند ؛ برای محکم کاری در صفحه مورد نظر از تگ noindex استفاده کنید!

همینطور شما می توانید از این دو دستور ( Allow و Disallow ) با هم بر روی یک پوشه استفاده کنید. به این صورت که شما دسترسی را از پوشه wp-admin مسدود کنید ؛ اما به صورت استثنا یک فایل را دسترسی بدهید برای مثال:

Disallow: /wp-admin/ 
Allow: /wp-admin/admin-ajax.php

دستور sitemap

با استفاده از این دستور شما موقعیت نقشه سایت خودرا به کراول معرفی می کنید. نقشه های سایت شما می تواند در هر پوشه ای قرار بگیرد. شما در این فایل موقعیت آنهارا به گوگل می گویید.

Sitemap: https://YourDomain.com/sitemap.xml

استفاده از این دستور بسیار کاربردی است و می تواند سرعت ایندکس شدن صفحات شمارا بیشتر کند. همینطور با ثبت نام و معرفی نقشه سایت در گوگل کنسول نیز می توانید به ایندکس شدن صفحات خود سرعت ببخشید.

نمونه فایل robots.txt ایده عال

اگر از وردپرس استفاده می کنید ، در پوشه public html به صورت خودکار فایل robots.txt موجود است. این فایل را ویرایش کنید و کد های زیر را بنویسید:

User-agent: *

Disallow: /static/plugins
Disallow: /static/cache
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

sitemap: YourDomain.com/sitemap.xml

اعتبار سنجی فایل robots.txt

برای سنجش اعتبار فایل robots.txt می توانید از سرویس گوگل استفاده کنید تا متوجه شوید آیا فایل شما ایده عال و بدون مشکل است یا نه. همینطور با این اعتبار سنجی می توانید خطا هارا نیز پیدا کنید.

جمع بندی:

ایم فایل بسیار فایل مهمی است و شما نمی توانید یک وب سایت حرفه ای پیدا کنید که از این فایل پشتیبانی نکند. در عین حال بسیار ساده است و شما می توانید بدون هیچ پیش زمینه ای این فایل را بسازید.

اگر هنوز وب سایت خودرا طراحی نکرده اید و می توانید فقط با 1.900 یک وب سایت ایده عال سفارش دهید! برای دریافت مشاوره رایگان و مشاهده پلن ها روی لینک زیر کلیک کنید:

چطور بود؟

به این پست امتیاز بده!

میانگین امتیاز 5 / 5. تعداد امتیاز : 3

اولین نفری باش که به این پست امتیاز می ده!

دوره طراحی سایت رایگان

مطالب وبلاگ :

بعدی
css چیست و چه کاربردی دارد؟
قبلی
طراحی سایت چیست؟
css چیست و چه کاربردی دارد؟
طراحی سایت چیست؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.
برای ادامه، شما باید با قوانین موافقت کنید

فهرست