Log Analizi Yaparak Googlebot’un Sitemizde Hangi Sayfaları Taramadığını Nasıl Tespit Ederiz?

Log analizi, Google Search Console’un sunduğu verilerin ötesine geçerek, sunucunuza gelen her bir isteğin “parmak izini” incelemektir. Arama motoru botlarının (Googlebot, Bingbot vb.) davranışlarını anlamak, özellikle büyük ölçekli e-ticaret veya içerik sitelerinde Tarama Bütçesi (Crawl Budget) optimizasyonu için hayati önem taşır.

İşte Googlebot’un “hayalet” bıraktığı alanları tespit etmek için Information Density ve Teknik Analiz odaklı yol haritası:


1. Ham Verinin Toplanması: Log Dosyalarına Erişim

Analize başlamadan önce, sunucunuzun (Apache, Nginx veya Litespeed) tuttuğu ham erişim loglarına ihtiyacınız vardır. Bir log satırı genellikle şu kritik verileri içerir:

  • IP Adresi: İsteği yapanın kimliği.
  • User-Agent: Kendini “Googlebot” olarak tanıtan istemci.
  • İstek Yapılan URL: Botun ziyaret ettiği (veya etmediği) sayfa.
  • HTTP Durum Kodu: 200 (Başarılı), 404 (Bulunamadı), 301 (Yönlendirme), 403 (Erişim Reddedildi).

2. Googlebot Doğrulama (Reverse DNS Lookup)

Sektörde “Fake Googlebot” olarak bilinen ve sitenizi yoran sahte botlar mevcuttur. Log analizi yaparken sadece User-Agent kısmına bakmak sizi yanıltır.

  • Yöntem: Logdaki IP adresine Reverse DNS sorgusu yapın. Gerçek bir Googlebot IP’si her zaman crawl-XXX-XXX-XXX-XXX.googlebot.com şeklinde bir ana bilgisayar adına sahip olmalıdır.

3. Taramayan Sayfaları Tespit Etme Yöntemleri

Googlebot’un hangi sayfaları taramadığını bulmak için “Eksiltme Metodu” kullanılır:

A. URL Listesi Karşılaştırması (Vlookup Metodu)

  1. Sitenizdeki tüm yayında olan URL’lerin bir listesini çıkartın (Sitemap veya veritabanı çıktısı ile).
  2. Log analizi aracınızda (Screaming Frog Log File Analyser, JetOctopus veya ELK Stack) Googlebot’un son 30 günde ziyaret ettiği benzersiz (unique) URL listesini alın.
  3. İki listeyi karşılaştırın. Sitemap’te olup loglarda görünmeyen sayfalar, taranmayan sayfalardır.

B. Orphan Pages (Yetim Sayfalar) Analizi

Log analizi sırasında, botun ziyaret ettiği ancak site mimarinizde (link yapınızda) bulunmayan sayfaları keşfedebilirsiniz. Bu sayfalar tarama bütçenizi boşa harcıyor olabilir.


4. Neden Taranmıyor? Semantik ve Teknik Nedenler

Eğer önemli sayfalarınız taranmıyorsa, sorun şu üç odaktan birindedir:

  • Düşük Bilgi Yoğunluğu (Thin Content): Googlebot, daha önceki ziyaretlerinde sayfada “değerli/yeni bilgi” bulamadıysa, o sayfayı tarama kuyruğunun en sonuna atar.
  • Internal Linking (Varlık İlişkilendirme): Taranmayan sayfalar, site hiyerarşisinde çok derinde (ana sayfadan 4+ tık uzakta) olabilir. Bot, o sayfaya giden bir “iz” bulamıyordur.
  • Performans Sorunları (Server Latency): Eğer sunucunuz Googlebot’a yavaş yanıt veriyorsa (High TTFB), bot tarama hızını düşürür ve bazı sayfaları es geçer.

5. Teknik Çıkarımlar ve Aksiyon Planı (Actionable Insights)

  • Log Analiz Periyodu: Haftalık veya aylık periyotlarla log analizi yaparak Googlebot’un sitenizdeki “ayak izini” takip edin.
  • Hata Kodlarını Temizleyin: Loglarda yoğun şekilde görülen 404 ve 5xx hataları, botun gerçek içeriklere ulaşmasını engeller. Bunları derhal çözün.
  • JS Render Kontrolü: Eğer CSR (Client-Side Rendering) kullanıyorsanız, Googlebot’un sadece HTML iskeletini mi yoksa render edilmiş içeriği mi taradığını loglardaki dosya isteklerinden (JS dosyalarının yüklenme sıklığı) analiz edin.
  • Sitemap Optimizasyonu: Taranmayan ama kritik öneme sahip sayfaları priority etiketiyle sitemap’te öne çıkarın ve bu sayfaları ana sayfadan güçlü iç linklerle besleyin.

Özetle: Log analizi, “Karanlık SEO” bölgelerini aydınlatır. QNB Finansbank veya Telfence gibi yapıların yaptığı gibi; veriye dayalı hareket etmek, botun sitenizi bir labirent gibi değil, düz bir yol gibi görmesini sağlar.

Write your comment