در این مقاله از طراحی سایت پرتال، قصد داریم شما را با ربات های جستجوی گوگل و فایل robot.txt آشنا کنیم. ربات های جستجوی گوگل (که برخی اوقات با نام های عنکبوت یا Crawler شناخته می شوند) برنامه هایی هستند که به صورت خودکار سراسر وب را جستجو می کنند و محتوا و ساختار سایت ها را بررسی می کنند.

موتورهای جستجوی بزرگ مانند گوگل از این ربات ها برای جستجو و ایندکس کردن محتوای درون سایت ها استفاده می کنند و اسپمر ها از این ربات ها برای به دست آوردن ایمیل و اطلاعات کاربران استفاده می کنند.

توضیحات لازم درباره فایل Robots.txt

وبمسترها از robots.txt برای معرفی کردن ساختار سایتشان به ربات های سراسر اینترنت استفاده می کنند. بگذارید در مورد چگونگی کارکرد این قابل یک مثال بزنیم: یک ربات جستجوگر مانند ربات گوگل قصد ورود به سایت شما را دارد تا بتواند مواردی مانند خطاها، صفحات، محتوا، لینک ها، تصاویر و ... را در سرور خود ایندکس کند.

عبارت User-agent به این معنی است که یک سایت و یک دستور برای همه ربات ها یکسان هستند. و قسمت Disallow حاوی این پیام است که هیچ رباتی نباید هیچ قسمتی از این سایت را بررسی و مشاهده کند.

دو نوع نگرش نسبت به استفاده کنندگان از فایل robots.txt وجود دارد:

  • ربات ها می توانندtxt شما را نادیده بگیرند! به خصوص آنکه ربات های مخرب، کارشان اسکن نمودن سراسر وب برای یافتن نقص های امنیتی، ایمیل آدرس ها و غیره است، کوچکترین توجهی به محتویات robots.txt ندارند.
  • فایلtxt یک فایل در دسترس عموم می باشد. هرکسی می تواند ببیند که شما کدام قسمت را تمایل ندارید که ربات های دیگر ببینند.

بنابراین اگر قصد دارید اطلاعاتی را مخفی کنید، فایل robots.txt گزینه خوبی برای شما نخواهد بود.

نحوۀ ساخت یک فایل robots.txt و باید آن را کجا قرار داد؟

پاسخ کوتاه: فایل robots.txt باید در بالاترین سطح دایرکتوری سرور سایت قرار بگیرد.

پاسخ کامل: هنگامی که یک ربات به دنبال فایل robots.txt در یک URL می باشد، به دنبال اولین اسلشی که پس از اکستنشن آدرس سایت شما وجود دارد، می ردو و به صورت اتوماتیک عبارت robots.txt را قرار می دهد.

به همین دلیل شما به عنوان یک صاحب سایت باید این فایل را در مکان صحیح خود قرار دهید تا سایت تان آنگونه که انتظار دارید در نتایج جستجو دیده شود. معمولاً این فایل را در مسیری مشابه همان صفحه اصلی سایت index.html یا همان صفحه به اصطلاح خوشامدگویی قرار می دهند.

به خاطر داشته باشید که تمام حروف این فایل به صورت کوچک تایپ می شوند بنابراین عبارت robots.txt، عبارتی درست است و ROBOTS.TXT غلط می باشد.

در فایل robots.txt باید چه بنویسیم؟

فایل robots.txt یک فایل متنی است که از یک یا تعداد بیشتری از دستورات ساخته شده است. به صورت معمول این دستور شبیه به متن زیر می شود:

 

در مثال بالا شاهد 3 دایرکتوری محروم شده هستید ه با استفاده از 3 دستور فوق، پیامی به ربات های سراسر وب ارسال می کند. این به معنی عدم دسترسی ربات به فایل های مشخص شده است.

توجه داشته باشید که برای محروم نمودن ربات ها به یک URL خاص، باید در هر خط مجزا یک دستور جدید را وارد نمایید. شما نمی توانید دستور Disallow: /cgi-bin/ /tmp/ را در یک خط وارد نمایید. همچنین نباید در مقابل یک دستور، خط را خالی بگذارید چراکه برای ربات این تصور می شود که دستور مورد نظر برای تمام وبسایت شما قابل اجرا است. 

ضمنا شما نمی توانید به صورت منظم و نامنظم دستورات داخل فایل را با یکدیگر ادغام نمایید. برای مثال علامت "*" در فیلد User-agent به معنای آن است که دستورات وارد شده در مقابل این عبارت برای تمامی ربات ها لازم الاجراست. به طور مشخص و عینی شما نمی توانید دستوراتی چون User-agent: *bot*", "Disallow: /tmp/*" or "Disallow: *.gif را در کنار همدیگر وارد نمایید.

بررسی کنید که چه چیزهایی را نمی خواهید ربات ها ببینند. هرچیزی را که نمی خواهید آنها ببینند را به راحتی می توانید از دیدشان مخفی کنید. به مثال های زیر توجه بفرمایید: 

***خط فرمان به تمام ربات ها برای عدم دسترسی به کل سایت شما

***خط فرمان به تمام ربات ها برای دسترسی به کل سایت شما

 

برای اجرای دستور فوق همچنین می توانید یک فایل robots.txt بدون متن بسازید و هیچوقت به سراغش نروید.

***خط فرمان به تمام ربات ها برای عدم دسترسی به بخشی از سایت شما

 

***خط فرمان به یک ربات خاص برای عدم دسترسی اش به کل سایت (برای مثال نام ربات "BadBot" است)

 

***خط فرمان به تنها یک ربات خاص جهت دسترسی به کل سایت شما و عدم دسترسی سایر ربات ها:

 

***خط فرمان به تمام ربات ها برای عدم دسترسی به تمام فایل ها به جز برخی از آنها:

***یا برای مشخص نمودن دقیق یک نشانی و یا فایل می توانید از این دستورات استفاده کنید و نشانی دقیق را در باکس robots.txt وارد نمایید.

***

برای دریافت اطلاعات بیشتر دربارۀ نحوۀ سایت ساز پرتال می توانید با شمارۀ 63404-021 تماس بگیرید.