Robots.txt Önemi
Robots.txt web sistemlerinde ana dizinde barınan bir dosyanın adıdır. Bu dosya farklı arama motorlarının sitenizde erişmesi veya erişmemesi gereken yerleri listeleyen bir dizi kod içerir.
Sistemsel olarak tüm arama motorları sitelere belli botlar ile giriş yaparak sitelerin içeriğini algoritmik bir sistem partnerliğinde kontrolünü yapar ve bu sayede sitenin içeriklerini arama motorları üzerine ekler. Site sahipleri bazı zamanlar sitenin belirli kısımlarına arama motorlarının erişimlerini istemezler bunun içinde robots.txt dosyasını kullanırlar.
Robots.txt Doğru Kullanımı
İçeriklerin arama motorları üzerine eklenmesi önemli olsa da site içerisindeki bazı kısımların bu botlara kapatılması da istenir. Fakat yanlış bir işlem yapılması durumunda siteye daha fazla zarar verilebilir.
Doğru bir robots.txt için atılacak ilk adımlar;
- Dosya kök dizinde olması gerekiyor
- Komut satırları UTF-8 kodlamasına uygun olmalıdır
- URL formatı site ile aynı ayarlanmalıdır
Robots.txt Sözdizimi
Sözdizimi bir robots.txt “dili” olarak tanımlanabilir. Yaygın kullanılan sözdizimleri;
- User-agent: Arama Motorlarına veya botlara talimat verildiği komut.
- Disallow: Taramayı tamamen kapatan komut. Her url satırı için bir adet girilebilir.
- Allow: Sadece Google Botlarına izin veren komut.
- Crawl-delay: Sayfa içeriği yüklenmeden kaç saniye sonra taransın komutu. Google üzerinde bu kod çalışmaz bunun düzenlemek için Google Console ayarlaması yapmanız gerekiyor.
- Sitemap: Sitenin sitemap dosyasının url yolunu belirleyen komut.
Robots.txt Örnekleri
Dosya içerisine ekleyeceğiniz farklı kodlar ile birden fazla botu(örümcek) istediğiniz gibi yönlendirebilirsiniz. Bunlardan bazıları;
Tüm tarayıcılara kendini kapat:
User-agent: *
Disallow: /
Tüm tarayıcılara kendini aç:
User-agent: *
Disallow:
Google botlarına belirli klasörleri kapat:
User-agent: Googlebot
Disallow: /ornek-sayfa/
Google botlarına belirli sayfaları kapat:
User-agent: Googlebot
Disallow: /ornek-sayfa/sayfa.html
Google botları tarama yapmadan önce 120 saniye beklesin:
User-agent: Googlebot
Crawl-delay: 120