فایل robots.txt چیست؟ کاربرد آن در سئو


همان طور که از نام فایل robots.txt برمی‌آید، این فایل برای ربات‌ها ساخته می‌شود و سطح دسترسی ربات‌ها به فایل‌های موجود در هاست را محدود می‌کند. این کار برای جلوگیری از صدمه به سایت، افشا شدن فایل‌های محرمانه و هم‌چنین بهبود رتبه سایت در صفحات جستجو ضروری است. اهمیت ساخت فایل robots.txt به‌قدری است که باید برای جلوگیری از دسترسی ربات‌های مخرب به اطلاعات محرمانه سایت، بلافاصله بعد از معرفی سایت به موتورهای جستجو، اقدام به ساخت آن نمایید.

درواقع ربات‌ها چند نوع‌اند:

  • انواعی از آن برای موتورهای جستجو کار می‌کنند. کار این ربات‌ها (که به آن‌ها خزنده یا اسپایدر هم می‌گویند) این است که صفحات سایت را بررسی کنند و تغییرات آن را به اطلاع موتورهای جستجو برسانند. صفحاتی که توسط ربات‌ها بررسی می‌شوند در موتورهای جستجو به نمایش درخواهند آمد.
  • انواع دیگری ربات نیز در فضای وب وجود دارند که با قصد خراب‌کاری در سایت‌های دیگر به وجود آمده‌اند. این ربات‌ها نباید به فایل‌های محرمانه شما دسترسی پیدا کنند. در غیر این صورت می‌توانند به سایتتان صدمات جدی وارد نمایند.

کاربرد فایل robots.txt در سئو

همان طور که گفته شد، ربات‌های موتورهای جستجو به‌طور پیش‌فرض تمام صفحات و فایل‌های وب‌سایت شما را می‌خزند و اطلاعات آن را در اختیار موتورهای جستجو قرار می‌دهند. موتورهای جستجو نیز اطلاعات به‌دست‌آمده را در صفحات نتایج سرچ (SERP) نمایش می‌دهند.

خب این چیز خوبی است؛ پس چرا باید برخی فایل‌ها و صفحات سایتمان را از دید ربات‌های گوگل و سایر موتورهای جستجو مخفی نگه‌داریم؟

حفظ امنیت سایت

مهم‌ترین دلیل ساخت فایل robots.txt حفظ امنیت سایت است. فرض کنید موتورهای جستجو به فایل‌های محرمانه دسترسی داشته باشند و آن‌ها را روی صفحات SERP نمایش دهند. به‌این‌ترتیب این اطلاعات برای همه کاربران اینترنت قابل‌دسترسی خواهد بود. همچنین سارقین و هکرهای اطلاعات عموما با ساخت برنامه‌ها و روبات‌های مخرب اقدام به نفوذ در سایت‌های اینترنتی می‌کنند. این فایل با مسدود کردن دسترسی روبات‌های اینترنتی به منابع و سورس‌های مهم وب‌سایت،‌ باعث ارتقا امنیت وب‌سایت می‌شود. البته دقت کنید که بیان کردیم: "ارتقا امنیت"، نه ایجاد امنیت کامل!

بهبود رتبه سایت

همان طور که می‌دانید، رتبه سایت حاصل جمع رتبه تک‌تک صفحات سایت است. اما برخی از صفحات مانند صفحه ورود به سایت فقط مخصوص شماست و یا نیازی نیست که بازدید بالایی داشته باشند. از آنجا که بازدید این صفحه پایین است، می‌تواند روی رتبه کل سایت شما اثر بگذارد.

بستن دسترسی عموم به صفحات خاص

ممکن است صفحاتی را روی سایت خود ایجاد کرده باشید که فقط برای افراد خاصی کاربرد داشته باشد؛ مثلاً فرض کنید یک صفحه مخصوص عقد قرارداد با کسانی که قصد همکاری با شما را دارند ایجاد کرده‌اید و نمی‌خواهید این صفحه در نتایج جستجوی گوگل نمایش داده شود.

در این صورت می‌توانید، آدرس این صفحه را در فایل robots.txt قرار دهید و به این ترتیب به موتورهای جستجو بفهمانید که این صفحات را بررسی نکرده و در فهرست SERP قرار ندهند.

مثال دیگر، صفحاتی است که حاوی محتوای تحت قانون کپی‌رایت هستند و انتشار آن‌ها طبق قانون موتورهای جستجو ممنوع است. اگر ربات‌های موتورهای جستجو این صفحات را بررسی کنند، ممکن است نتیجه آن برای سایتتان خوشایند نباشد.

افزایش سرعت سایت

البته این مسئله فقط برای وب‌سایت‌هایی که روزانه کاربرهای خیلی زیادی دارند صادق است. فرض کنید وب‌سایت شما در روز هزاران بازدید داشته باشد. در کنار آن، هزاران ربات نیز هر روز سایت را می‌خزند و بررسی می‌کنند که این، خود باعث افت سرعت سایت خواهد شد.

بنابراین مدیر سایت‌هایی که بازدید روزانه آن‌ها خیلی زیاد است، برای افزایش سرعت سایتشان، دسترسی ربات‌ها را به صفحاتی که برای سئو و رتبه سایت اهمیت زیادی ندارند محدود می‌کنند تا به این ترتیب فقط صفحات مهمشان توسط ربات‌ها بررسی‌شده و دچار افت سرعت نشوند.

توجه داشته باشید که خزیدن ربات‌ها در سایت‌هایی که بازدید روزانه زیادی ندارند، تأثیر چندانی بر روی سرعت سایت ندارد. لذا این سایت‌ها نباید اقدام به محدود کردن دسترسی با هدف افزایش سرعت سایتشان نمایند.

دستورات فایل robots.txt و کاربرد آن‌ها

بعد از اینکه فایل robots.txt را ساختیم (نحوه ساخت این فایل در ادامه آموزش داده شده است) باید دستورات لازم را در آن وارد کنیم. به عبارت دیگر باید مشخص کنیم که کدام ربات‌ها به چه فایل‌هایی اجازه دسترسی ندارند.

دستور user-agent

باید در اولین خطی که در فایل robots.txt می‌نویسیم مشخص کنیم که این دستور برای کدام ربات‌هاست.

در مقابل دستور user-agent: نام ربات نوشته می‌شود. مثلاً اگر شما قصد دارید دستور را برای ربات گوگل صادر کنید باید در فایل robots.txt دستور زیر را بنویسید:

User-agent: Googlebot

هم‌چنین تعیین دستوری برای ربات‌هایی که تصاویر را برای گوگل رصد می‌کنند به صورت زیر است:

User-agent: Googlebot-image

چنانچه بخواهید دستوری برای کلیه ربات‌ها صادر کنید، باید در مقابل عبارت user-agent: علامت ستاره بگذارید. مانند زیر:

User-agent: *

دستور disallow

عبارت disallow به معنی اجازه ندادن است. بنابراین شما هر چیزی که در مقابل این دستور بنویسید، یعنی ربات‌ها اجازه دسترسی به آن را ندارند. بنابراین شما می‌توانید در مقابل این دستور نام فایل‌هایی را که قصد دارید برای ربات‌ها ببندید بنویسید.

مسدود کردن دسترسی ربات‌ها به یک پوشه یا فایل خاص

توجه داشته باشید که در هر دستور فقط نام یک فایل نوشته شود. به مثال زیر نگاه کنید:

User-agent: *

Disallow: /admin/

Disallow: /files/tutorial.mp4

در دستورات بالا، اجازه دسترسی به پوشه admin و فایل tutorial برای کلیه ربات‌ها مسدود شده است.

همان طور که مشاهده می‌کنید، در دستور خط سوم، مسیر دسترسی به فایل tutorial داده شده است. بنابراین چنانچه بخواهید اجازه دسترسی به فایل خاصی را مسدود کنید باید مسیر دسترسی به آن را در مقابل دستور disallow بنویسید. در انتهای مسیر نیز نام خود فایل به همراه فرمت آن نوشته می‌شود.

اما در خط دوم دسترسی به پوشه admin به همراه کلیه محتویات داخل پوشه مسدود شده است. هنگام محدود کردن دسترسی به محتویات یک پوشه، حتماً باید در انتهای نام پوشه یک اسلش دیگر بگذارید.

مسدود کردن دسترسی ربات ها به یک فرمت خاص

چنانچه بخواهید به ربات‌ها دستور بدهید که به یک فرمت مشخص از فایل‌ها دسترسی پیدا نکنند، باید دستور زیر را وارد کنید:

Disallow: /*.pdf$

Disallow: /*.gif$

در دو دستور بالا، دسترسی ربات‌ها به همه فایل‌هایی که با فرمت‌های gif و PDF نوشته‌شده‌اند، محدود شده است.

فرض کنید شما در سایت خود تعداد زیادی فایل pdf دارید؛ اما قصد ندارید دسترسی آن برای عموم آزاد باشد. بنابراین، این فایل‌ها نباید در نتایج سرچ گوگل نمایش داده شوند. در این حالت دستوری برای ربات‌های گوگل (یا همه ربات‌ها) می‌نویسید و به آن‌ها می‌گویید که به فایل‌های pdf شما کاری نداشته باشند.

مسدود کردن دسترسی ربات‌ها به یک صفحه خاص

برای اینکه دسترسی ربات‌ها به یک صفحه خاص را محدود کنید، آدرس آن صفحه را از آدرس دامنه اصلی به بعد در مقابل دستور disallow بنویسید.

برای مثال برای مسدود کردن دسترسی ربات‌ها به صفحه https://example.ir/blog/page1 به صورت زیر عمل نمایید:

Disallow: /blog/page1/

دستور disallow: /

وقتی یک اسلش خالی در مقابل دستور disallow: بگذارید دسترسی به کل سایت را برای ربات‌ها غیرمجاز کرده‌اید.

این دستور برای زمان‌هایی که قصد ایجاد تغییرات اساسی در سایتتان دارید یا زمان‌هایی که سایتتان دچار مشکل شده و از دسترس خارج شده است می‌تواند مناسب باشد.

به این ترتیب گوگل و موتورهای جستجوگر در زمان‌هایی که سایت آماده استفاده نیست، آن را نمی‌خزند (crawl نمی‌کنند) و در دسترس کاربران قرار نمی‌دهند. به‌علاوه افت رتبه نیز پیدا نخواهید کرد.

البته بهتر است در کنار disallow کردن کل سایت، صفحات آن را noindex نیز بکنید؛ چراکه گاهی با وجود دستور disallow، برخی صفحات هم چنان در موتورهای جستجو ایندکس می‌شوند. اما با noindex کردن آن‌ها دیگر خیالتان راحت خواهد بود.

دستور allow

این دستور مشخص می‌کند که ربات مذکور، اجازه دسترسی به فایل مشخص‌شده را دارد.

البته همان طور که گفته شد، به صورت پیش‌فرض، خزنده‌ها و ربات‌ها تمام فایل‌ها و صفحات سایت را بررسی می‌کنند، اما عده‌ای معتقدند برای تأکید بیشتر بر روی برخی صفحات یا فایل‌های خاص باید از دستور allow استفاده کرد.

دستور allow نیز مانند دستور disallow به کار می‌رود:

User-agent: googlebot

Allow: /files/project.docs

دستور sitemap

در فایل robots.txt می‌توانید نقشه سایت را برای ربات‌ها تعریف کنید تا به نقشه کل سایت دسترسی داشته باشند.

برای این منظور، دستور زیر را در فایل robots.txt وارد نمایید:

Sitemap: https://www.example.ir/sitemap_index.xml

بهتر است قبل و بعد از دستور sitemap یک خط خالی بگذارید تا از بروز خطا جلوگیری شود. در ضمن این دستور نیازی به user-agent ندارد.

دستور crawl-delay

با این کد دستوری به خزنده‌ها می‌گویید که بین بررسی هر صفحه از سایت شما، برای مدت‌زمان مشخصی صبر کنند. برای مثال به دستور زیر توجه کنید:

Crawl-delay: 10

شما با این دستور به تمام ربات‌های خزنده (به جز ربات‌های گوگل – این دستور بر روی ربات‌های گوگل اثر ندارد) اعلام می‌کنید که بعد از بررسی و ایندکس کردن یک صفحه از سایتتان، 10 ثانیه صبر کنند و بعد از آن به بررسی صفحه بعدی بپردازند. دوباره 10 ثانیه تأمل و سپس صفحه بعدی.

این کد برای کم شدن ترافیک سایتتان مناسب است و سرعت رفت‌وآمد ربات‌ها به سایتتان را کاهش می‌دهد و در نتیجه سرعت سایتتان بهتر خواهد شد.

البته به این نکته هم توجه داشته باشید که با این کار، سرعت ایندکس شدن صفحات سایتتان پایین می‌آید. بنابراین چنانچه سایت خیلی بزرگی با تعداد زیادی صفحه دارید، تعداد صفحاتی که در روز ایندکس می‌شوند را نیز در نظر بگیرید تا بعداً دچار پشیمانی نشوید.

چه صفحاتی را از دید خزنده‌های گوگل مخفی کنیم؟

از آنجا که ما نمی‌خواهیم برخی فایل‌ها مانند فایل افزونه‌ها یا برخی صفحات مثل صفحه ورود به سایت در موتورهای جستجو به نمایش دربیاید باید با ساخت فایل robots.txt به موتورهای جستجو بگوییم که ربات‌های شما اجازه دسترسی به این صفحات یا فایل‌ها را ندارند.

اما دقیقاً چه صفحاتی را باید از دید خزنده‌های گوگل مخفی کنیم؟ صفحاتی که نباید در نتایج جستجو به نمایش دربیایند. مثل:

فایل readme

فایل readme.html حاوی اطلاعات وردپرس شماست. اگر کسی به این اطلاعات دسترسی پیدا کند می‌تواند متوجه آپدیت نبودن نسخه وردپرس شما شده و با توجه به باگ‌هایی که برای آن شناسایی شده است به سایت شما حمله کند. بنابراین حتماً برای حفظ امنیت سایت خود، دسترسی به فایل readme.html را برای ربات‌ها محدود کنید:

User-agent: *

Disallow: /readme.html

فایل افزونه‌ها

فایل افزونه‌ها اطلاعات افزونه‌ها را در بردارد. بنابراین، این فایل نیز مانند فایل readme.html نقطه‌ای برای نفوذ و تخریب سایتتان محسوب می‌شود.

وقتی باگ‌های افزونه‌ها پیدا می‌شود، عده‌ای برنامه‌نویس اقدام به رفع باگ کرده و نسخه جدیدی از آن را منتشر می‌کنند. در مقابل عده دیگری سایت‌هایی که هنوز افزونه خود را به‌روزرسانی نکرده‌اند جستجو و به آن‌ها حمله می‌کنند.

با بستن دسترسی ربات‌ها به فایل افزونه‌ها، جلوی ورود هکرها به سایت خود را بگیرید:

Disallow: /wp-content/plugins/

صفحه ورود به وردپرس

باید دسترسی به صفحه ورود به وردپرس نیز در فایل robots.txt محدود شود. برای disallow کردن صفحات wp-login.php و wp-admin به صورت زیر عمل کنید:

Disallow: /wp-login.php

نمونه فایل robots.txt

برای نوشتن دستورات allow و disallow لازم نیست هر بار یک user-agent تعریف کنیم. یک بار user-agent را تعریف کنید و در سطرهای بعدی دستورهای disallow (یا allow) را بنویسید.

چنانچه قصد دارید بعضی دستورات را برای ربات‌های خاصی بنویسید، می‌توانید دوباره یک user-agent دیگر نوشته و در سطرهای بعدی دستورات مخصوص به آن ربات را تعریف کنید.

در تصویر زیر می‌توانید یک نمونه فایل robots.txt را مشاهده کنید:

User-agent: *

Disallow: /readme.html

Disallow: /wp-content/plugins/

Sitemap: https://example.com/sitemap_index.xml

User-agent: googlebot-image

Disallow: /files/project.png

در دو سطر آخر مشاهده می‌کنید که دسترسی ربات جستجوگر تصاویر گوگل به تصویری با اسم project مسدود شده است. بنابراین تصویر مذکور در جستجوی تصاویر گوگل نمایش داده نمی‌شود.

مشاهده فایل robots.txt سایر سایت‌ها

شما هم‌چنین می‌توانید با اضافه کردن /robots.txt به انتهای آدرس هر سایتی، فایل رباتس آن سایت را مشاهده نمایید.

آموزش ساخت و تنظیم فایل robots.txt

فایل robots.txt در روت اصلی‌هاست قرار می‌گیرد. قبل از اینکه اقدام به ساخت فایل robots.txt کنید، به انتهای آدرس سایتتان عبارت /robots.txt را اضافه کنید. چنانچه محتویات صحیحی مشاهده کردید یعنی این فایل قبلاً ساخته شده و شما فقط باید اطلاعات آن را طبق دلخواه خود تنظیم کنید. اما چنانچه با خطای 404 مواجه شدید یعنی این فایل ساخته نشده و باید آن را بسازید.

برای ساخت این فایل به کنترل پنل هاست خود بروید و طبق مراحل زیر عمل نمایید:

  1.  file manager یا مدیریت فایل را باز کنید.

  1. سپس روی مسیر public_html کلیک نمایید.
  2. از بالای صفحه، گزینه +File یا new file را کلیک کنید و فایل robots.txt را در مسیر public_html بسازید.

توجه داشته باشید که در ساخت این فایل، کوچکی و بزرگی حروف اهمیت دارند. بنابراین نام فایل را با حروف کوچک تایپ کنید. هم‌چنین در درج دستورات نیز، هنگام تایپ کردن نام فایل‌ها و پوشه‌ها، به کوچکی و بزرگی حروف نام آن‌ها توجه داشته باشید.

  1. فایل ایجادشده را بر روی کامپیوتر خود ذخیره کنید.

  1. سپس آن را با برنامه notepad باز کرده و تغییرات لازم را بر روی آن ایجاد کنید.
  2. فایل مذکور را دوباره بر روی‌هاست خود آپلود و جایگزین فایل قبلی نمایید.

آموزش ساخت robots.txt در وردپرس

هم‌چنین در پیشخوان وردپرس، از طریق افزونه یائوست نیز می‌توانید این فایل را ایجاد کنید.

به این منظور، بعد از نصب افزونه یائوست، در پیشخوان وردپرس، مراحل زیر را دنبال کنید:

  1. وارد قسمت سئو بشوید و روی گزینه ابزارها کلیک کنید. در صفحه‌ای که باز می‌شود بر روی دومین لینک با نام «ویرایشگر فایل» کلیک کنید.

فایل robots.txt در وردپرس-1

  1. در صفحه جدیدی که باز می‌شود، روی ایجاد پرونده robots.txt کلیک کنید.
  2. تغییرات لازم را اعمال کرده و سپس بر روی ذخیره کلیک کنید.

فایل robots.txt در وردپرس-2

تست فایل robots.txt در وبمستر

بعد از اینکه فایل robots.txt را ساختید، باید آن را تست کرده و در صورت بدون اشکال بودن به گوگل معرفی کنید. برای این منظور از وبمستر استفاده می‌کنیم.

  1. بر روی این لینک کلیک کنید تا ابزار وبمستر برای شما باز شود. سپس سایت خود را انتخاب نمایید. البته اگر قبلاً اکانت وبمستر ایجاد نکرده باشید، می‌توانید از همین صفحه آن را بسازید و سپس مراحل را ادامه دهید.

  1. در پایین صفحه‌ای که باز می‌شود یک نوار می‌بینید که در مقابل آن یک دکمه قرمز رنگ با نوشته test وجود دارد. در این نوار بنویسید robots.txt و سپس بر روی دکمه تست کلیک کنید.
  2. اگر فایل robots.txt که ساخته‌اید مشکلی نداشته باشد، دکمه تست به رنگ سبز تغییر می‌کند. اکنون می‌توانید آن را به گوگل معرفی کنید.
  3. بر روی دکمه submit کلیک کنید.
  4. پنجره کوچکی باز می‌شود که سه گزینه دارد. دو گزینه بالایی برای چک کردن دوباره فایل و گزینه پایینی برای تأیید submit است. بر روی گزینه پایینی کلیک کنید.

در این مطلب فایل robots.txt شما ساخته و تنظیم شد، سپس درستی فرایند را بررسی و در انتها نیز آن را برای گوگل تعریف کردیم.

اکنون ربات‌ها ابتدا فایل robots.txt شما را می‌خوانند و سپس طبق آن عمل می‌کنند. البته توجه داشته باشید که برخی ربات‌ها اهمیتی به این فایل نمی‌دهند و حتی صفحاتی که شما دسترسی به آن را مسدود اعلام کرده‌اید را بررسی می‌کنند.

عضویت رایگان در جت سئو

با عضویت در جت سئو گزارش رایگان سایت خود را ببینید

بیشتر بخوانید

دیدگاه خود را با ما در میان بگذارید
امتیاز: