تولید محتوا با هوش مصنوعی

فایل robots.txt چیست؟ کاربرد آن در سئو

 آخرین به‌روزرسانی: 21 آبان 1403

به عنوان یک سئوکار قطعا تا کنون نام فایل robots.txt را شنیده اید و با آن کار کرده اید. اما اگر هنوز به صورت دقیق و علمی نمی دانید robots.txt چیست؟ و نحوه ی ساخت آن در سایت های وردپرسی و غیر وردپرسی چگونه است با جت سئو همراه شوید. در این مقاله قصد داریم به کاربرد فایل robots.txt و نحوه ساخت آن و همچنین دستورات مهم و کاربردی موجود در این سایت بپردازیم.

همان طور که از نام robots.txt برمی‌آید، این فایل برای ربات‌ها ساخته می‌شود و سطح دسترسی ربات‌ها به فایل‌های موجود در هاست را تعیین و محدود می‌کند. این کار برای جلوگیری از صدمه به سایت، افشا شدن فایل‌های محرمانه و همچنین بهبود رتبه سایت در صفحات جستجو ضروری است. اهمیت ساخت فایل robots.txt به‌ قدری است که باید برای جلوگیری از دسترسی ربات‌های مخرب به اطلاعات محرمانه سایت، بلافاصله بعد از معرفی سایت به موتورهای جستجو، اقدام به ساخت آن نمایید.

در واقع ربات‌ها چند نوع‌اند:

  • انواعی از آن برای موتورهای جستجو کار می‌کنند. کار این ربات‌ها (که به آن‌ها خزنده یا اسپایدر هم می‌گویند) این است که صفحات سایت را بررسی کنند و تغییرات آن را به اطلاع موتورهای جستجو برسانند. صفحاتی که توسط ربات‌ها بررسی می‌شوند در موتورهای جستجو به نمایش درخواهند آمد.
  • انواع دیگری ربات نیز در فضای وب وجود دارند که با قصد خراب‌کاری در سایت‌های دیگر به وجود آمده‌اند. این ربات‌ها نباید به فایل‌های محرمانه شما دسترسی پیدا کنند. در غیر این صورت می‌توانند به سایتتان صدمات جدی وارد نمایند.

کاربرد فایل robots.txt در سئو

همان‌طور که گفته شد، ربات‌های موتورهای جستجو به‌ طور پیش‌ فرض تمام صفحات و فایل‌های وبسایت شما را می‌خزند و اطلاعات آن را در اختیار موتورهای جستجو قرار می‌دهند. موتورهای جستجو نیز اطلاعات به‌ دست‌ آمده را در صفحات نتایج سرچ (SERP) نمایش می‌دهند. خب این چیز خوبی است؛ پس چرا باید برخی فایل‌ها و صفحات سایتمان را از دید ربات‌های گوگل و سایر موتورهای جستجو مخفی نگه‌داریم؟

حفظ امنیت سایت

مهم‌ترین دلیل ساخت فایل robots.txt حفظ امنیت سایت است. فرض کنید موتورهای جستجو به فایل‌های محرمانه دسترسی داشته باشند و آن‌ها را روی صفحات SERP نمایش دهند. به‌ این‌ ترتیب این اطلاعات برای همه کاربران اینترنت قابل‌ دسترسی خواهد بود. همچنین سارقین و هکرهای اطلاعات عموما با ساخت برنامه‌ها و روبات‌های مخرب اقدام به نفوذ در سایت‌های اینترنتی می‌کنند. این فایل با مسدود کردن دسترسی روبات‌های اینترنتی به منابع و سورس‌های مهم وبسایت،‌ باعث ارتقا امنیت وبسایت می‌شود. البته دقت کنید که بیان کردیم: "ارتقا امنیت"، نه ایجاد امنیت کامل!

بهبود رتبه سایت

همان‌طور که می‌دانید، رتبه سایت حاصل جمع رتبه تک‌ تک صفحات سایت است. اما برخی از صفحات مانند صفحه ورود به سایت فقط مخصوص شماست و یا نیازی نیست که بازدید بالایی داشته باشند. از آنجا که بازدید این صفحه پایین است، می‌تواند روی رتبه کل سایت شما اثر بگذارد.

بستن دسترسی عموم به صفحات خاص

ممکن است صفحاتی را روی سایت خود ایجاد کرده باشید که فقط برای افراد خاصی کاربرد داشته باشد؛ مثلاً فرض کنید یک صفحه مخصوص عقد قرارداد با کسانی که قصد همکاری با شما را دارند ایجاد کرده‌اید و نمی‌خواهید این صفحه در نتایج جستجوی گوگل نمایش داده شود.

در این صورت می‌توانید، آدرس این صفحه را در فایل robots.txt قرار دهید و به این ترتیب به موتورهای جستجو بفهمانید که این صفحات را بررسی نکرده و در فهرست SERP قرار ندهند.

مثال دیگر، صفحاتی است که حاوی محتوای تحت قانون کپی‌رایت هستند و انتشار آن‌ها طبق قانون موتورهای جستجو ممنوع است. اگر ربات‌های موتورهای جستجو این صفحات را بررسی کنند، ممکن است نتیجه آن برای سایتتان خوشایند نباشد.

افزایش سرعت سایت

البته این مسئله فقط برای وبسایت‌هایی که روزانه کاربرهای خیلی زیادی دارند صادق است. فرض کنید وبسایت شما در روز هزاران بازدید داشته باشد. در کنار آن، هزاران ربات نیز هر روز سایت را می‌خزند و بررسی می‌کنند که این، خود باعث افت سرعت سایت خواهد شد. بنابراین مدیر سایت‌هایی که بازدید روزانه آن‌ها خیلی زیاد است، برای افزایش سرعت سایتشان، دسترسی ربات‌ها را به صفحاتی که برای سئو و رتبه سایت اهمیت زیادی ندارند محدود می‌کنند تا به این ترتیب فقط صفحات مهمشان توسط ربات‌ها بررسی‌شده و دچار افت سرعت نشوند. توجه داشته باشید که خزیدن ربات‌ها در سایت‌هایی که بازدید روزانه زیادی ندارند، تأثیر چندانی بر روی سرعت سایت ندارد. لذا این سایت‌ها نباید اقدام به محدود کردن دسترسی ربات گوگل با هدف افزایش سرعت سایتشان نمایند.

دستورات فایل robots.txt و کاربرد آن‌ها

بعد از اینکه فایل robots.txt را ساختیم (نحوه ساخت فایل robots.txt در ادامه آموزش داده شده است) باید دستورات لازم را در آن وارد کنیم. به عبارت دیگر باید مشخص کنیم که کدام ربات‌ها به چه فایل‌هایی اجازه دسترسی ندارند.

دستور user-agent

باید در اولین خطی که در فایل robots.txt می‌نویسیم مشخص کنیم که این دستور برای کدام ربات‌هاست.

در مقابل دستور user-agent: نام ربات نوشته می‌شود. مثلاً اگر شما قصد دارید دستور را برای ربات گوگل صادر کنید باید در فایل robots.txt دستور زیر را بنویسید:

User-agent: Googlebot

همچنین تعیین دستوری برای ربات‌هایی که تصاویر را برای گوگل رصد می‌کنند به صورت زیر است:

User-agent: Googlebot-image

چنانچه بخواهید دستوری برای کلیه ربات‌ها صادر کنید، باید در مقابل عبارت user-agent: علامت ستاره بگذارید. مانند زیر:

User-agent: *

دستور disallow

عبارت disallow به معنی اجازه ندادن است. بنابراین شما هر چیزی که در مقابل این دستور بنویسید، یعنی ربات‌ها اجازه دسترسی به آن را ندارند. بنابراین شما می‌توانید در مقابل این دستور نام فایل‌هایی را که قصد دارید برای ربات‌ها ببندید بنویسید.

مسدود کردن دسترسی ربات‌ها به یک پوشه یا فایل خاص

توجه داشته باشید که در هر دستور فقط نام یک فایل نوشته شود. به مثال زیر نگاه کنید:

User-agent: *

Disallow: /admin/

Disallow: /files/tutorial.mp4

در دستورات بالا، اجازه دسترسی به پوشه admin و فایل tutorial برای کلیه ربات‌ها مسدود شده است.

همان‌طور که مشاهده می‌کنید، در دستور خط سوم، مسیر دسترسی به فایل tutorial داده شده است. بنابراین چنانچه بخواهید اجازه دسترسی به فایل خاصی را مسدود کنید باید مسیر دسترسی به آن را در مقابل دستور disallow بنویسید. در انتهای مسیر نیز نام خود فایل به همراه فرمت آن نوشته می‌شود.

اما در خط دوم دسترسی به پوشه admin به همراه کلیه محتویات داخل پوشه مسدود شده است. هنگام محدود کردن دسترسی به محتویات یک پوشه، حتماً باید در انتهای نام پوشه یک اسلش دیگر بگذارید.

مسدود کردن دسترسی ربات ها به یک فرمت خاص

چنانچه بخواهید به ربات‌ها دستور بدهید که به یک فرمت مشخص از فایل‌ها دسترسی پیدا نکنند، باید دستور زیر را وارد کنید:

Disallow: /*.pdf$

Disallow: /*.gif$

در دو دستور بالا، دسترسی ربات‌ها به همه فایل‌هایی که با فرمت‌های gif و PDF نوشته‌شده‌اند، محدود شده است.

فرض کنید شما در سایت خود تعداد زیادی فایل pdf دارید؛ اما قصد ندارید دسترسی آن برای عموم آزاد باشد. بنابراین، این فایل‌ها نباید در نتایج سرچ گوگل نمایش داده شوند. در این حالت دستوری برای ربات‌های گوگل (یا همه ربات‌ها) می‌نویسید و به آن‌ها می‌گویید که به فایل‌های pdf شما کاری نداشته باشند.

مسدود کردن دسترسی ربات‌ها به یک صفحه خاص

برای اینکه دسترسی ربات‌ها به یک صفحه خاص را محدود کنید، آدرس آن صفحه را از آدرس دامنه اصلی به بعد در مقابل دستور disallow بنویسید.

برای مثال برای مسدود کردن دسترسی ربات‌ها به صفحه https://example.ir/blog/page1 به صورت زیر عمل نمایید:

Disallow: /blog/page1/

دستور  /:disallow

وقتی یک اسلش خالی در مقابل دستور :disallow بگذارید دسترسی به کل سایت را برای ربات‌ها غیر مجاز کرده‌اید. این دستور برای زمان‌هایی که قصد ایجاد تغییرات اساسی در سایتتان دارید یا زمان‌هایی که سایتتان دچار مشکل شده و از دسترس خارج شده است می‌تواند مناسب باشد. به این ترتیب گوگل و موتورهای جستجوگر در زمان‌هایی که سایت آماده استفاده نیست، آن را نمی‌خزند (crawl نمی‌کنند) و در دسترس کاربران قرار نمی‌دهند. به‌علاوه افت رتبه نیز پیدا نخواهید کرد.

البته بهتر است در کنار disallow کردن کل سایت، صفحات آن را noindex نیز بکنید؛ چراکه گاهی با وجود دستور disallow، برخی صفحات هم‌چنان در موتورهای جستجو ایندکس می‌شوند. اما با noindex کردن آن‌ها دیگر خیالتان راحت خواهد بود.


بیشتر بخوانید : noindex چیست؟


دستور allow

این دستور مشخص می‌کند که ربات مذکور، اجازه دسترسی به فایل مشخص‌شده را دارد. البته همان طور که گفته شد، به صورت پیش‌فرض، خزنده‌ها و ربات‌ها تمام فایل‌ها و صفحات سایت را بررسی می‌کنند، اما عده‌ای معتقدند برای تأکید بیشتر بر روی برخی صفحات یا فایل‌های خاص باید از دستور allow استفاده کرد.

دستور allow نیز مانند دستور disallow به کار می‌رود:

User-agent: googlebot

Allow: /files/project.docs

دستور sitemap

در فایل robots.txt می‌توانید نقشه سایت را برای ربات‌ها تعریف کنید تا به نقشه کل سایت دسترسی داشته باشند.

برای این منظور، دستور زیر را در فایل robots.txt وارد نمایید:

Sitemap: https://www.example.ir/sitemap_index.xml

بهتر است قبل و بعد از دستور sitemap یک خط خالی بگذارید تا از بروز خطا جلوگیری شود. در ضمن این دستور نیازی به user-agent ندارد.

دستور crawl-delay

با این کد دستوری به خزنده‌ها می‌گویید که بین بررسی هر صفحه از سایت شما، برای مدت‌ زمان مشخصی صبر کنند. برای مثال به دستور زیر توجه کنید:

Crawl-delay: 10

شما با این دستور به تمام ربات‌های خزنده (به جز ربات‌های گوگل – این دستور بر روی ربات‌های گوگل اثر ندارد) اعلام می‌کنید که بعد از بررسی و ایندکس کردن یک صفحه از سایتتان، 10 ثانیه صبر کنند و بعد از آن به بررسی صفحه بعدی بپردازند. دوباره 10 ثانیه تأمل و سپس صفحه بعدی. این کد برای کم شدن ترافیک سایتتان مناسب است و سرعت رفت‌ و آمد ربات‌ها به سایتتان را کاهش می‌دهد و در نتیجه سرعت سایتتان بهتر خواهد شد.

البته به این نکته هم توجه داشته باشید که با این کار، سرعت ایندکس شدن صفحات سایتتان پایین می‌آید. بنابراین چنانچه سایت خیلی بزرگی با تعداد زیادی صفحه دارید، تعداد صفحاتی که در روز ایندکس می‌شوند را نیز در نظر بگیرید تا بعداً دچار پشیمانی نشوید.

چه صفحاتی را از دید خزنده‌های گوگل مخفی کنیم؟

از آنجا که ما نمی‌خواهیم برخی فایل‌ها مانند فایل افزونه‌ها یا برخی صفحات مثل صفحه ورود به سایت در موتورهای جستجو به نمایش دربیاید باید با ساخت فایل robots.txt به موتورهای جستجو بگوییم که ربات‌های شما اجازه دسترسی به این صفحات یا فایل‌ها را ندارند. اما دقیقاً چه صفحاتی را باید از دید خزنده‌های گوگل مخفی کنیم؟ صفحاتی که نباید در نتایج جستجو به نمایش دربیایند. مثل:

فایل readme

فایل readme.html حاوی اطلاعات وردپرس شماست. اگر کسی به این اطلاعات دسترسی پیدا کند می‌تواند متوجه آپدیت نبودن نسخه وردپرس شما شده و با توجه به باگ‌هایی که برای آن شناسایی شده است به سایت شما حمله کند. بنابراین حتماً برای حفظ امنیت سایت خود، دسترسی به فایل readme.html را برای ربات‌ها محدود کنید:

User-agent: *

Disallow: /readme.html

فایل افزونه‌ها

فایل افزونه‌ها اطلاعات افزونه‌ها را در بردارد. بنابراین، این فایل نیز مانند فایل readme.html نقطه‌ای برای نفوذ و تخریب سایتتان محسوب می‌شود. وقتی باگ‌های افزونه‌ها پیدا می‌شود، عده‌ای برنامه‌نویس اقدام به رفع باگ کرده و نسخه جدیدی از آن را منتشر می‌کنند. در مقابل عده دیگری سایت‌هایی که هنوز افزونه خود را به‌ روزرسانی نکرده‌اند جستجو و به آن‌ها حمله می‌کنند.

با بستن دسترسی ربات‌ها به فایل افزونه‌ها، جلوی ورود هکرها به سایت خود را بگیرید:

Disallow: /wp-content/plugins/

صفحه ورود به وردپرس

باید دسترسی به صفحه ورود به وردپرس نیز در فایل robots.txt محدود شود. برای disallow کردن صفحات wp-login.php و wp-admin به صورت زیر عمل کنید:

Disallow: /wp-login.php

نمونه فایل robots.txt

برای نوشتن دستورات allow و disallow لازم نیست هر بار یک user-agent تعریف کنیم. یک بار user-agent را تعریف کنید و در سطرهای بعدی دستورهای disallow (یا allow) را بنویسید.

چنانچه قصد دارید بعضی دستورات را برای ربات‌های خاصی بنویسید، می‌توانید دوباره یک user-agent دیگر نوشته و در سطرهای بعدی دستورات مخصوص به آن ربات را تعریف کنید.

در تصویر زیر می‌توانید یک نمونه فایل robots.txt را مشاهده کنید:

User-agent: *

Disallow: /readme.html

Disallow: /wp-content/plugins/

Sitemap: https://example.com/sitemap_index.xml

User-agent: googlebot-image

Disallow: /files/project.png

در دو سطر آخر مشاهده می‌کنید که دسترسی ربات جستجوگر تصاویر گوگل به تصویری با اسم project مسدود شده است. بنابراین تصویر مذکور در جستجوی تصاویر گوگل نمایش داده نمی‌شود.

مشاهده فایل robots.txt سایر سایت‌ها

شما هم‌چنین می‌توانید با اضافه کردن /robots.txt به انتهای آدرس هر سایتی، فایل رباتس آن سایت را مشاهده نمایید.

آموزش ساخت و تنظیم فایل robots.txt

فایل robots.txt در روت اصلی‌ هاست قرار می‌گیرد. قبل از اینکه اقدام به ساخت فایل robots.txt کنید، به انتهای آدرس سایتتان عبارت /robots.txt را اضافه کنید. چنانچه محتویات صحیحی مشاهده کردید یعنی این فایل قبلاً ساخته شده و شما فقط باید اطلاعات آن را طبق دلخواه خود تنظیم کنید. اما چنانچه با خطای 404 مواجه شدید یعنی این فایل ساخته نشده و باید آن را بسازید.

برای ساخت این فایل به کنترل پنل هاست خود بروید و طبق مراحل زیر عمل نمایید:

  1.  file manager یا مدیریت فایل را باز کنید.

آموزش ساخت و تنظیم فایل robots.txt

  1. سپس روی مسیر public_html کلیک نمایید.
  2. از بالای صفحه، گزینه +File یا new file را کلیک کنید و فایل robots.txt را در مسیر public_html بسازید.

آموزش ساخت فایل robots.txt

توجه داشته باشید که در ساخت این فایل، کوچکی و بزرگی حروف اهمیت دارند. بنابراین نام فایل را با حروف کوچک تایپ کنید. هم‌چنین در درج دستورات نیز، هنگام تایپ کردن نام فایل‌ها و پوشه‌ها، به کوچکی و بزرگی حروف نام آن‌ها توجه داشته باشید.

  1. فایل ایجادشده را بر روی کامپیوتر خود ذخیره کنید.

آموزش تنظیم فایل robots.txt

  1. سپس آن را با برنامه notepad باز کرده و تغییرات لازم را بر روی آن ایجاد کنید.
  2. فایل مذکور را دوباره بر روی‌هاست خود آپلود و جایگزین فایل قبلی نمایید.

آموزش ساخت robots.txt در وردپرس

همچنین در پیشخوان وردپرس، از طریق افزونه یائوست نیز می‌توانید این فایل را ایجاد کنید.

به این منظور، بعد از نصب افزونه یائوست، در پیشخوان وردپرس، مراحل زیر را دنبال کنید:

  1. وارد قسمت سئو بشوید و روی گزینه ابزارها کلیک کنید. در صفحه‌ای که باز می‌شود بر روی دومین لینک با نام «ویرایشگر فایل» کلیک کنید.

آموزش ساخت robots.txt در وردپرس

  1. در صفحه جدیدی که باز می‌شود، روی ایجاد پرونده robots.txt کلیک کنید.
  2. تغییرات لازم را اعمال کرده و سپس بر روی ذخیره کلیک کنید.

آموزش robots.txt در وردپرس

تست فایل robots.txt در وب‌مستر

بعد از اینکه فایل robots.txt را ساختید، باید آن را تست کرده و در صورت بدون اشکال بودن به گوگل معرفی کنید. برای این منظور از وب‌مستر استفاده می‌کنیم.

  1. بر روی این لینک کلیک کنید تا ابزار وب‌مستر برای شما باز شود. سپس سایت خود را انتخاب نمایید. البته اگر قبلاً اکانت وب‌مستر ایجاد نکرده باشید، می‌توانید از همین صفحه آن را بسازید و سپس مراحل را ادامه دهید.

تست فایل robots.txt در وبمستر

  1. در پایین صفحه‌ای که باز می‌شود یک نوار می‌بینید که در مقابل آن یک دکمه قرمز رنگ با نوشته test وجود دارد. در این نوار بنویسید robots.txt و سپس بر روی دکمه تست کلیک کنید.
  2. اگر فایل robots.txt که ساخته‌اید مشکلی نداشته باشد، دکمه تست به رنگ سبز تغییر می‌کند. اکنون می‌توانید آن را به گوگل معرفی کنید.
  3. بر روی دکمه submit کلیک کنید.
  4. پنجره کوچکی باز می‌شود که سه گزینه دارد. دو گزینه بالایی برای چک کردن دوباره فایل و گزینه پایینی برای تأیید submit است. بر روی گزینه پایینی کلیک کنید.

تست robots.txt در وبمستر

در این مطلب فایل robots.txt شما ساخته و تنظیم شد، سپس درستی فرایند را بررسی و در انتها نیز آن را برای گوگل تعریف کردیم. اکنون ربات‌ها ابتدا فایل robots.txt شما را می‌خوانند و سپس طبق آن عمل می‌کنند. البته توجه داشته باشید که برخی ربات‌ها اهمیتی به این فایل نمی‌دهند و حتی صفحاتی که شما دسترسی به آن را مسدود اعلام کرده‌اید را بررسی می‌کنند.


بیشتر بخوانید : open graph چیست؟


برای آنالیز سایت پیشنهاد میکنیم از جت سئو و  افزونه جت سئو استفاده کنید. به کمک آن می توانید مشکلات فنی هر صفحه از سایت خود یا رقبا را به راحتی بیابید. همچنین برای مشاهده رتبه سایت خود بین رقبا هستید می توانید به صفحه مربوطه مراجعه کنید.

با عضویت در جت سئو گزارش سایت خود را 7 روز رایگان ببینید

این فایل برای ربات‌ها ساخته می‌شود و سطح دسترسی ربات‌ها به فایل‌های موجود در هاست را محدود می‌کند. این کار برای جلوگیری از صدمه به سایت، افشا شدن فایل‌های محرمانه و همچنین بهبود رتبه سایت در صفحات جستجو ضروری است.

  • حفظ امنیت سایت
  • بهبود رتبه سایت
  • بستن دسترسی عموم به صفحات خاص
  • افزایش سرعت سایت

خیر، فایل robots.txt سطح دسترسی خزنده گوگل را مشخص می‌کند و شما از طریق این فایل، دسترسی خزش گوگل را محدود می‌کنید. در حالتی که گوگل صفحات سایت شما را از قبل شناسایی کرده باشد، یا آدرس صفحات در نقشه سایت وجود داشته باشد، صفحات سایت شما همچنان ایندکس باقی خواهند ماند.

برای نوایندکس کردن صفحات باید از متا تگ robots با خصوصیت نوایندکس استفاده کنید.

خیر، انجام دادن این کار باعث خواهد شد که روبات گوگل نتواند صفحات سایت شما را بررسی و رندر کند و باعث افت رتبه شما در نتایج گوگل یا SERP خواهد شد.
 

بیشتر بخوانید

دیدگاه خود را با ما در میان بگذارید
دیدگاه کاربران
مجتبی
 ارسال شده در : پنجشنبه 24 خرداد 1403

تو فایل روبوتس من جلوی :Disallow نوشته شده process/ یعنی چی؟

جت سئو:
 ارسال شده در : شنبه 16 تیر 1403

این موضوع بر اساس سیستم مدیریت محتوای سایت مشخص میشه و این سوال را بهتر است از برنامه نویس سایت خودنون بپرسید. در واقع با این کار جلوی خزش پوشه process گرفته شده