فایل robots.txt چیست؟ + آموزش ساخت robots.txt

فایل robots.txt، شامل مجموعه‌ای از دستورالعمل‌ها برای ربات‌ها می‌شود. در اکثر وب سایت‌ها، این فایل در میان فایل‌های سورس قرار می‌گیرد. فایل‌های robots.txt بیشتر برای مدیریت فعالیت‌های ربات‌های مفید مانند خزنده‌های وب در نظر گرفته شده‌اند، چون ربات‌های بد احتمالا دستورالعمل‌ها را دنبال نمی‌کنند. برای کسب اطلاعات بیشتر درباره فایل‌های robots.txt و نحوه ساخت آن‌ها، همراه ما در وبلاگ نجوانت باشید.

فایل robots.txt چیست؟

می‌توانید فایل robots.txt را مانند یک علامت «مشخصات رفتاری» در نظر بگیرید که روی دیوار یک باشگاه ورزشی، یک کافه یا یک مرکز اجتماعی نصب شده است: این علامت به خودی خود، قدرتی برای اجرای قوانین ذکر شده ندارد، اما مشتریان «خوب» قوانین را رعایت خواهند کرد. آن هم در حالی که مشتریان «بد» احتمالا قوانین را زیر پا می‌گذارند و در نتیجه، جریمه و بن می‌شوند.

هر بات، یک برنامه کامپیوتری خودکار است که با وب سایت‌ها و برنامه‌های مختلف تعامل دارد. ربات‌های خوب و ربات‌های بد زیادی وجود دارند. یک نوع ربات خوب، بات خزنده وب نامیده می‌شود. این ربات‌ها به صفحات وب «می‌خزند» و محتوا را فهرست‌بندی می‌کنند تا در نتایج موتورهای جستجو نمایش داده شود. یک فایل robots.txt به مدیریت فعالیت‌های این خزنده‌های وب کمک می‌کند تا به سرور وب میزبان وب‌سایت مالیات اضافه نکنند، یا صفحاتی را که برای نمایش عمومی نیستند را فهرست‌بندی کنند.

فایل robots.txt چطور کار می کند؟

فایل robots.txt فقط یک فایل متنی بدون کد نشانه‌گذاری HTML است (از این رو پسوند txt. دارد). فایل robots.txt مانند هر فایل دیگری در وب سایت، بر روی وب سرور میزبانی می‌شود. در واقع، این فایل برای هر وب‌سایت معین را معمولا می‌توان با تایپ URL کامل برای صفحه اصلی و سپس افزودن اسلش robots.txt (مثلا https://www.cloudflare.com/robots.txt) مشاهده کرد. این فایل به جای دیگری در سایت لینک نشده، بنابراین کاربران به احتمال زیاد به آن برخورد نمی‌کنند. اما اکثر ربات‌های خزنده وب، پیش از خزیدن به بقیه سایت ابتدا به دنبال این فایل می‌گردند.

یک فایل robots.txt دستورالعمل‌هایی را برای ربات‌ها ارائه می‌دهد، اما در واقع نمی‌تواند دستورالعمل‌ها را اجرا کند. یک ربات خوب، مانند یک خزنده وب یا یک ربات فید خبری، سعی می‌کند قبل از مشاهده هر صفحه دیگری در یک دامنه، ابتدا از فایل robots.txt بازدید کند و دستورالعمل‌ها را دنبال کند. یک ربات بد، یا این فایل را نادیده می‌گیرد یا آن را طوری پردازش می‌کند تا صفحات وب ممنوعه را پیدا کند.

یک ربات خزنده وب، از خاص‌ترین مجموعه دستورالعمل‌ها در فایل robots.txt پیروی می‌کند. اگر دستورات متناقضی در فایل وجود داشته باشد، ربات از دستورات دقیق‌تر دیگر پیروی خواهد کرد. نکته مهمی که باید به آن توجه داشت این است که همه زیر دامنه‌ها به فایل robots.txt خودشان نیاز دارند. به عنوان مثال، www.cloudflare.com فایل مخصوص به خود را دارد، اما همه زیر دامنه‌های سایتی مانند Cloudflare (blog.cloudflare.com، community.cloudflare.com و غیره) به فایل خودشان نیاز خواهند داشت.

چه پروتکل هایی در فایل robots.txt استفاده می شوند؟

در شبکه، یک پروتکل قالبی برای ارائه دستورالعمل‌ها یا دستورات مختلف محسوب می‌شود. فایل‌های Robots.txt از چند پروتکل مختلف استفاده می‌کنند. پروتکل اصلی، Robots Exclusion Protocol نام دارد. به کمک این پروتکل، می‌توانید به ربات‌ها بگویید از کدام صفحات وب و کدام سورس‌ها اجتناب کنند. دستورالعمل‌های فرمت شده برای این پروتکل در فایل robots.txt گنجانده می‌شود.

پروتکل دیگری که برای فایل‌های robots.txt استفاده می‌شود، پروتکل Sitemaps است. این پروتکل را می‌توان به عنوان پروتکل گنجاندن ربات‌ها داخل سایت در نظر گرفت. نقشه‌های سایت، به خزنده وب نشان می‌دهند که به کدام صفحات می‌توانند بخزند. به این ترتیب، اطمینان حاصل می‌شود که ربات خزنده هیچ صفحه مهمی را از دست نخواهد داد.

در اینجا فایل robots.txt برای www.cloudflare.com آورده شده است. در ادامه، به معنای تمامی این بخش‌ها خواهیم پرداخت.

عامل کاربر چیست و * :User-agent به چه معناست؟

هر شخص یا برنامه‌ای که در اینترنت فعال باشد، یک «عامل کاربر» خواهد بود و یا یک نام اختصاص یافته خواهد داشت. برای کاربران انسانی، این عامل شامل اطلاعاتی مانند نوع مرورگر و نسخه سیستم عامل است، اما اطلاعات شخصی در بر ندارد. عامل کاربر به وب‌سایت‌ها کمک می‌کند محتوایی را نشان دهند که با سیستم کاربر سازگار باشد. از نظر ربات‌ها، عامل کاربر (از لحاظ تئوری) به مدیران وب سایت کمک می‌کند تا بدانند چه نوع ربات‌هایی در سایت می‌خزند.

مدیران وب سایت می‌توانند در یک فایل robots.txt، دستورالعمل‌های مختلف برای عوامل کاربر ربات بنویسند. به این ترتیب، قادر خواهند بود تا دستورالعمل‌های خاصی را برای ربات‌های خاص ارائه دهند. مثلا اگر مدیری بخواهد صفحه خاصی در نتایج جستجوی گوگل نمایش داده شود اما در جستجوهای Bing نباشد، می‌تواند دو مجموعه از دستورات را در فایل robots.txt قید کند:

یک مجموعه که با User-agent: Bingbot شروع شده باشد
یک مجموعه دیگر که با User-agent: Googlebot شروع می‌شود

در مثال بالا Cloudflare، دستور User-agent: * را در فایل robots.txt قرار داده است. سمبل ستاره، یک عامل کاربر «وایلد کارت» را نشان می‌دهد و به این معناست که دستورالعمل‌ها، مختص ربات خاصی نیستند و برای همه ربات‌ها اعمال‌پذیر خواهند بود. نام‌های متداول عامل کاربر ربات موتورهای جستجو عبارتند از:

گوگل:
- Googlebot
- Googlebot-Image (برای تصاویر)
- Googlebot-News (برای اخبار)
- Googlebot-Video (برای ویدیو)
Bing:
- Bingbot
- MSNBot-Media (برای تصاویر و ویدیو)
Baidu:
- Baiduspider

‌دستورات Disallow چطور در فایل robots.txt کار می کنند؟

دستور Disallow، رایج‌ترین دستور در پروتکل حذف ربات‌ها محسوب می‌شود. این دستور به ربات‌ها می‌گوید که به صفحه وب یا مجموعه‌ای از صفحات وب که پس از دستور درج می‌شوند، دسترسی نداشته باشند. صفحات غیرمجاز لزوما پنهان نیستند؛ فقط برای کاربران عادی گوگل یا Bing مفید نیستند و در نتیجه به آن‌ها نشان داده نمی‌شوند.

در بیشتر مواقع، کاربر در وب سایت اگر بداند این صفحات را کجا پیدا کند، همچنان می‌تواند به طور مستقیم به سراغ این صفحات برود. دستور Disallow را می‌توان به روش‌های مختلفی استفاده کرد که چندین مورد از آن‌ها در مثال نمایش داده خواهد شد.

بلاک یک فایل (به عبارت دیگر، یک صفحه وب خاص)

به عنوان مثال، اگر سایت ما بخواهد دسترسی ربات‌های خزنده به مقاله راهنمای دریافت درگاه پرداخت اینترنتی در 3 گام را ببندد، دستور به صورت زیر نوشته خواهد شد:

Disallow: /learning/bots/acquiring-internet-payment-services/

پس از دستور disallow، بخشی از URL صفحه وب که پس از صفحه اصلی قرار می‌گیرد که در این مورد، www.najvanet.com است، قرار داده می‌شود. با وجود این دستور، ربات‌های خوب به این مقاله دسترسی نخواهند داشت و صفحه در نتایج موتورهای جستجو نشان داده نمی‌شود.

بلاک یک دایرکتوری

گاهی اوقات بهتر است به جای اینکه لیستی از فایل‌ها را یکی یکی بلاک کنیم، همه آن‌ها را همزمان بلاک نماییم. اگر همه آن‌ها در یک بخش از وب سایت باشند، فایل robots.txt می‌تواند دایرکتوری حاوی آن‌ها را مسدود کند.

مثلا با چنین دستوری:

Disallow: /__mesa/

این بدان معناست که تمام صفحات موجود در فهرست __mesa از دسترسی ربات‌ها به دور خواهند بود.

اجازه دسترسی کامل

چنین دستوری به صورت زیر خواهد بود:

Disallow:

این دستور به ربات‌ها می‌گوید که می‌توانند کل وب سایت را مرور کنند، چون هیچ چیزی غیرمجاز نیست.

مخفی سازی کل وبسایت با دستور Disallow

Disallow: /

سمبل اسلش «/» در اینجا نشان دهنده ریشه در سلسله مراتب یک وب سایت، یا صفحه‌ای است که همه صفحات دیگر از آن منشعب می‌شوند. بنابراین شامل صفحه اصلی و تمام صفحات پیوند شده از آن هم می‌شود. با این دستور، ربات‌های موتورهای جستجو به هیچ وجه نمی‌توانند به وب سایت بخزند. به عبارت دیگر، یک اسلش می‌تواند کل یک وب سایت را از بخش‌های قابل جستجو در اینترنت حذف کند!

چه دستورات دیگری به پروتکل حذف ربات ها مربوط می شوند؟

Allow: همانطور که انتظار می‌رود، دستور Allow به ربات‌ها می‌گوید که مجاز به دسترسی به یک صفحه وب یا فهرست خاص هستند. این دستور به ربات‌ها اجازه دسترسی به یک صفحه وب خاص را می‌دهد، اما باقی صفحات وب موجود در فایل را غیرمجاز می‌کند. همه موتورهای جستجو، این دستور را نمی‌شناسند.
Crawl-Delay: فرمان تاخیر در خزیدن، برای این است که ربات‌های عنکبوتی موتورهای جستجو را از فشار آوردن بیش از حد بر سرور بازدارد. این کار به ادمین‌های وبسایت اجازه می‌دهد تا مدت زمانی را که ربات باید بین هر درخواست منتظر بماند، بر اساس میلی ثانیه تعیین کنند. مثلا این دستور Crawl-Delay برای انتظار 8 میلی‌ثانیه‌ای است:

Crawl-delay: 8

گوگل این فرمان را نمی‌شناسد، اگرچه موتورهای جستجوی دیگر آن را تشخیص می‌دهند. در گوگل، مدیران می‌توانند در کنسول جستجوی گوگل، فرکانس خزیدن برای وب‌سایت خود را تغییر دهند.

پروتکل Sitemaps چیست و چرا در robots.txt به کار می رود؟

پروتکل sitemaps به ربات‌ها کمک می‌کند تا بدانند هنگام خزیدن در وبسایت، باید کدام بخش‌ها را دربر بگیرند. سایت مپ، یک فایل XML است که چنین ظاهری دارد:

پروتکل sitemap - راهنمای ساخت robots.txt

این فایل، یک لیست از تمام صفحات یک وب سایت است که برای ماشین‌ها قابل خواندن است. از طریق پروتکل Sitemaps، لینک‌های نقشه سایت را می‌توان در فایل robots.txt قرار داد. فرمت این گونه خواهد بود: Sitemaps: و سپس آدرس وب فایل XML قرار می‌گیرد. می‌توانید چندین نمونه را در فایل Cloudflare robots.txt مشاهده کنید.

پروتکل نقشه سایت کمک می‌کند تا اطمینان حاصل شود که ربات‌های عنکبوتی وب در هنگام خزیدن یک وب سایت چیزی را از دست نمی‌دهند، ربات‌ها همچنان روند خزیدن معمول خود را دنبال می‌کنند. Sitemapها، ربات‌های خزنده را مجبور نمی‌کنند تا صفحات وب را متفاوت اولویت‌بندی کنند.

robots.txt چه ارتباطی با مدیریت ربات دارد؟

مدیریت ربات‌ها برای راه‌اندازی یک وب‌سایت یا برنامه ضروری خواهد بود، چون حتی فعالیت مفید ربات‌ها نیز می‌تواند بر سرور مبدا بیش از حد فشار وارد کند. همین فشار می‌تواند باعث شود یک یا چند مورد از امکانات وب، کُند شده یا از بین بروند. یک فایل robots.txt که به خوبی ساخته شده باشد، سئوی یک وب سایت را به سطحی بهینه می‌رساند و فعالیت ربات مفید را تحت کنترل نگه خواهد داشت.

با این حال، یک فایل robots.txt کار زیادی برای مدیریت ترافیک ربات‌های مخرب انجام نمی‌دهد. یک راه حل مدیریتی ربات‌ها، می‌تواند به مهار فعالیت‌های مخرب ربات کمک کند و در عین حال، تاثیری روی ربات‌های ضروری مانند خزنده‌های وب نگذارد.

ایستر اگ های Robots.txt

گاهی اوقات یک فایل robots.txt حاوی پیام‌های طنزی است که توسعه‌دهندگان آن‌ها را داخل ربات گنجانده‌اند؛ چون می‌دانند این فایل‌ها به ندرت توسط کاربران دیده می‌شوند. به این پیام‌ها، ایستر اگ (Easter Egg) می‌گویند. مثلا داخل فایل robots.txt یوتیوب نوشته شده:

«این فایل در آینده‌ای دور (سال 2000) و پس از قیام روباتیک در اواسط دهه 90 ساخته شده. ربات‌ها همه انسان‌ها را نابود کرده‌اند».

و فایل robots.txt سایت Cloudflare چنین چیزی را در خود دارد:

چگونه فایل Robots.txt بسازیم؟

در ادامه مراحل ساخت این فایل را به طور کامل توضیح می‌دهیم.

1. ابتدا یک فایل Robots.txt ایجاد کنید

شما باید به ریشه دامنه خود دسترسی داشته باشید. ارائه‌دهنده هاست وب، می‌تواند به شما کمک کند تا بدانید آیا دسترسی مناسب را دارید یا خیر. مهمترین جنبه‌های فایل، نحوه ایجاد و مکان آن خواهد بود. می‌توانید از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید. محل ربات، در یکی از لوکیشن‌های زیر خواهد بود:

ریشه دامین سایت شما: www.yourdomain.com/robots.txt
زیر دامنه‌های سایت شما: page.yourdomain.com/robots.txt
پورت‌های غیر استاندارد: www.yourdomain.com:881/robots.txt

در نهایت، باید مطمئن شوید که فایل robots.txt شما، یک فایل متنی با کدگذاری UTF-8 باشد. ممکن است گوگل و سایر موتورهای جستجو و خزنده‌های رایج، کاراکترهای خارج از محدوده UTF-8 را نادیده بگیرند. اگر چنین اتفاقی بیفتد، احتمالا قوانین robots.txt شما نامعتبر خواهند شد.

نکته: فایل‌های Robots.txt نباید در زیر شاخه دامین سایت شما (www.yourdomain.com/page/robots.txt) قرار بگیرند.

2. عامل کاربر را تنظیم کنید

گام بعدی در ایجاد فایل‌های robots.txt، تنظیم user-agent خواهد بود. عامل کاربر، مربوط به خزنده‌های وب یا موتورهای جستجویی است که می‌خواهید به آن اجازه دسترسی بدهید یا آن را مسدود کنید. چندین نهاد می‌توانند عامل کاربر شما باشند. در ادامه، چند خزنده و همچنین ارتباط آن‌ها را فهرست کرده‌ایم.

عامل کاربر	عملکرد
Googlebot	سرچ گوگل
Bingbot	سرچ بینگ
Slurp Bot	سرچ یاهو
DuckDuckBot	سرچ Duck Duck Go
Baiduspider	سرچ موتور جستجوی چینی Baidu
YandexBot	سرچ موتور جستجوی روسی Yandex
Sogou web	سرچ موتور جستجوی چینی Sogou
Facebot	فیسبوک
Exabot	سرچ موتور جستجوی فرانسوی Exalead

سه راه مختلف برای ایجاد user-agent در فایل robots.txt وجود دارد:

ایجاد یک عامل کاربر

قاعده‌ای که بایستی برای تنظیم عامل کاربر استفاده کنید، به صورت User-agent: NameOfBot است. در مثال زیر، DuckDuckBot تنها عامل کاربر معین است.

User-agent: DuckDuckBot

ایجاد بیش از یک عامل کاربر

اگر بخواهید بیش از یک مورد اضافه کنید، همان فرآیندی را که برای DuckDuckBot user-agent در خط دیگر انجام دادید، دنبال کنید و نام عامل کاربر اضافی را وارد کنید. در این مثال از Facebot استفاده کرده‌ایم.

User-agent: DuckDuckBot

User-agent: Facebot

تنظیم همه خزنده‌ها به عنوان عامل کاربر

برای مسدود کردن همه ربات‌ها یا خزنده‌ها، نام ربات را با یک ستاره (*) جایگزین کنید.

User-agent: *

3. قوانین را برای فایل robots.txt خود تنظیم کنید

یک فایل robots.txt به صورت گروهی خوانده می‌شود. یک گروه مشخص می‌کند که عامل کاربر کیست و یک قانون یا دستورالعمل برای نشان دادن فایل‌ها یا دایرکتوری‌هایی دارد که تعیین می‌کند آیا عامل کاربر می‌تواند به آن‌ها دسترسی داشته باشد یا خیر. دستورالعمل‌هایی که می‌توانید استفاده کنید، شامل موارد زیر می‌شوند:

Disallow: دستوری که به صفحه یا دایرکتوری مربوط به دامنه اصلی شما اشاره می‌کند و مشخص می‌کند شما نمی‌خواهید user-agent نامگذاری شده، به آن بخزد. این دستور با یک اسلش رو به جلو (/) و سپس آدرس کامل صفحه شروع می‌شود و با اسلش رو به جلو پایان می‌یابد. این تنها در صورتی است که به یک دایرکتوری اشاره داشته باشد و نه یک صفحه کامل. برای هر قانون می‌توانید از یک یا چند تنظیمات disallow استفاده کنید.
Allow: این دستورالعمل به صفحه یا دایرکتوری مربوط به دامنه ریشه سایت شما اشاره می‌کند که می‌خواهید user-agent نامگذاری شده، به آن بخزد. مثلا می‌توانید از دستورالعمل Allow برای لغو قانون Disallow استفاده کنید. این دستور نیز با یک اسلش رو به جلو (/) و سپس آدرس کامل صفحه شروع می‌شود. شما آن را با اسلش رو به جلو پایان می‌دهید تنها در صورتی که به یک دایرکتوری اشاره داشته باشد نه یک صفحه کامل. می‌توانید از یک یا چند تنظیمات مجاز برای هر قانون استفاده کنید.
Sitemap: دستورالعمل نقشه سایت، اختیاری است و مکان نقشه مربوط به وب سایت را ارائه می‌دهد. تنها شرط این است که باید یک URL کاملا واجد شرایط باشد. بسته به ملزومات، می‌توانید از مقدار صفر یا بیشتر استفاده کنید.

خزنده‌های وب، گروه‌ها را از بالا تا پایین پردازش می‌کنند. همانطور که قبلا ذکر شد، آن‌ها به هر صفحه یا دایرکتوری که صراحتا دستور Disallow نداشته باشد، دسترسی دارند. بنابراین، می‌توانید Disallow: / را در زیر اطلاعات user-agent هر گروه اضافه کنید تا مانع از خزیدن آن عوامل کاربری خاص در وب سایت شما شود.

# Example: block DuckDuckBot

User-agent: DuckDuckBot

Disallow: /

#Example: block more than one user-agent

User-agent: DuckDuckBot

User-agent: Facebot

Disallow: /

#Example: block all crawlers

User-agent: *

Disallow: /

برای بلاک کردن یک زیر دامنه خاص از همه خزنده‌ها، یک اسلش رو به جلو و URL کامل زیر دامنه را در قانون Disallow اضافه کنید.

User-agent: *

Disallow: /https://page.yourdomain.com/robots.txt

اگر می‌خواهید یک دایرکتوری را مسدود کنید، همین روند را با اضافه کردن یک اسلش به جلو و نام دایرکتوری دنبال کنید. اما با یک اسلش دیگر به جلو، دستور را پایان دهید.

User-agent: *

Disallow: /images/

در نهایت، اگر می‌خواهید همه موتورهای جستجو، اطلاعات را از تمام صفحات سایت شما جمع‌آوری کنند، می‌توانید یک قانون Allow یا Disallow ایجاد کنید. حتما هنگام استفاده از قانون مجاز، یک اسلش رو به جلو اضافه کنید. نمونه‌هایی از هر دو قانون در زیر نشان داده شده است.

# Allow example to allow all crawlers

User-agent: *

Allow: /

# Disallow example to allow all crawlers

User-agent:

*Disallow:

4. فایل Robots.txt را آپلود کنید

وب‌سایت‌ها به طور خودکار فایل robots.txt ندارند؛ چون اصلا نیازی به آن نیست. هنگامی که تصمیم به ایجاد آن گرفتید، فایل را در فهرست اصلی وب سایت آپلود کنید. آپلود به ساختار فایل سایت و محیط میزبانی وب شما بستگی دارد. برای دریافت راهنمایی در مورد نحوه آپلود فایل robots.txt، با ارائه‌دهنده هاست خود تماس بگیرید.

5. صحت عملکرد فایل robots.txt را بررسی کنید

راه‌های مختلفی برای تست و اطمینان از عملکرد صحیح فایل robots.txt وجود دارد. شما می‌توانید با استفاده از ابزارهایی مانند ابزارهای زیر، وجود هرگونه خطا در دستورهای قواعدی یا منطقی را بسنجید.

تستر robots.txt گوگل در کنسول جستجو
ولیدیتور و ابزار تست robots.txt از Merkle Inc.
ابزار تست robots.txt در Ryte

نحوه استفاده از robots.txt در وردپرس

اگر از افزونه وردپرس Yoast SEO استفاده می‌کنید، در پنجره ادمین بخشی را برای ایجاد یک فایل robots.txt خواهید دید. وارد بک‌اند وب‌سایت وردپرس خود شوید و به قسمت Tools در بخش SEO دسترسی پیدا کنید. سپس روی ویرایشگر فایل کلیک کنید.

برای تعیین عوامل و قوانین کاربری، همان ترتیب قبلی را دنبال کنید. در زیر، ما خزنده‌های وب را از دایرکتوری‌های wp-admin و wp-includes وردپرس مسدود کرده‌ایم، اما همچنان به کاربران و ربات‌ها اجازه می‌دهیم صفحات دیگر سایت را ببینند. پس از اتمام، روی ذخیره تغییرات در robots.txt کلیک کنید تا فایل robots.txt فعال شود.

سخن آخر

ما نحوه ایجاد یک فایل robots.txt را بررسی کردیم. مراحل انجام این کار، ساده است و می‌تواند باعث صرفه‌جویی در وقت شود و دردسر ناشی از خزیدن بی‌اجازه ربات در محتوای سایت را از بین ببرد. برای جلوگیری از خزیدن‌های غیرضروری موتورهای جستجو و ربات‌ها، می‌توانید به راحتی یک فایل robots.txt ایجاد کنید. اگر هر گونه سوالی در ارتباط با robots.txt و کارکردهای آن دارید، می‌توانید در بخش نظرات سوالات خود را با ما در میان بگذارید.

سوالات متداول

robots.txt چیست؟

robots.txt فایلی است که توسط وب سایت ها، برای ارائه دستورالعمل هایی به خزنده های وب ارائه می شود. این فایل ها، به خزنده ها اطلاع می دهند که در کدام قسمت های وب سایت، مجاز به خزیدن و فهرست بندی خواهند بود. فایل robots.txt حاوی قوانینی است که خزنده ها می توانند برای تعیین اینکه آیا یک صفحه در وب سایت باید خزیده شده و در فهرست های جستجو گنجانده شود یا خیر، استفاده کنند.

robots.txt چگونه بر سئو تاثیر می گذارد؟

محتویات robots.txt می تواند با تاثیرگذاری بر روی اینکه کدام صفحات وب سایت توسط موتورهای جستجو خزیده می شود، بر سئو تاثیر بگذارد. اگر robots.txt حاوی دستورالعمل هایی برای خزیدن برخی صفحات خاص باشد، موتورهای جستجو آن صفحات را فهرست نمی کنند. این امر می تواند مشاهده شدن برخی صفحات حین جستجوی افراد برای کلمات کلیدی مرتبط را دشوارتر کند. با این حال، اگر صفحه حاوی محتوای مهمی باشد که بایستی ایندکس شود، دادن اجازه خزیدن در آن می تواند مفید باشد.

آیا می توان از robots.txt برای مسدود کردن موتورهای جستجو استفاده کرد؟

بله؛ این کار با درج دستورالعملی برای ممنوعیت خزیدن یا فهرست نشدن صفحه مورد نظر در وب سایت انجام می شود. اگر وب سایت حاوی اطلاعات حساس یا محرمانه ای باشد که نباید خزیده شوند، یا اگر وب سایت نمی خواهد موتورهای جستجو صفحات خاصی را فهرست کنند، دستورهای مسدودکننده می توانند مفید باشند.

اگر ربات ها robots.txt را نادیده بگیرند چه اتفاقی می افتد؟

اگر یک ربات robots.txt را نادیده بگیرد و صفحاتی را در وب سایتی که قرار نیست خزیده شوند بخزد، امکان دارد توسط موتورهای جستجو، بابت نقض دستورالعمل های مدیران وب سایت، جریمه و بن شود. نادیده گرفتن دستورات، منجر به کاهش رتبه جستجو و ترافیک کمتر به وب سایت خواهد شد.

چگونه یک فایل robots.txt ایجاد کنیم؟

می توانید با استفاده از یک ویرایشگر متن مانند Notepad یا Sublime Text یا هر ویرایشگر متن دیگری یک فایل robots.txt ایجاد کنید. فایل باید در فهرست اصلی وب سایت با پسوند txt ذخیره شود و حاوی دستورالعمل هایی باشد که توضیح دهد کدام صفحات باید خزیده شوند و کدام ها نه. فایل را می توان با ارسال آن به ابزار تست موتور جستجو تست کرد تا از درستی کارکرد آن اطمینان حاصل شود.

فایل robots.txt چیست؟ + آموزش ساخت فایل robots.txt