Question 1

CCBot'u robots.txt ile engellemek AI görünürlüğünü nasıl etkiler?

Accepted Answer

CCBot'u engellerseniz (User-agent: CCBot / Disallow: /) siteniz Common Crawl arşivine girmez, dolayısıyla GPT-4, Claude, Llama gibi bu veri setiyle eğitilen modellerin 'hafızasında' yer almazsınız. Sonuç: ChatGPT veya Perplexity gibi AI araçlarında marka/ürün sorularına cevap verilirken referans gösterilmezsiniz. Ancak tamamen açmak da risk taşır — rakipler içeriğinizi klonlayabilir, fiyat/strateji bilgileri öğrenilebilir. Gonet, sayfa bazında seçici açma stratejisi uygular: blog/rehber sayfaları CCBot'a açık, iç doküman/hesap sayfaları kapalı. Bu sayede AI görünürlüğü kazanırken veri güvenliğini korursunuz.

Question 2

GPTBot ve CCBot arasındaki fark nedir, ikisini de ayrı yönetmeli miyim?

Accepted Answer

CCBot (Common Crawl) genel web arşivi oluşturur, veri seti halka açık — pek çok AI modeli (GPT, Claude, Llama, Cohere) bu seti kullanır. GPTBot ise OpenAI'ın kendi tarama botu — özellikle ChatGPT için ek eğitim verisi toplar. İkisi farklı User-agent kullanır, dolayısıyla robots.txt'te ayrı kurallar tanımlanabilir. Örnek strateji: CCBot'a genel marka/hizmet sayfalarını açın (geniş model eğitimi için), GPTBot'a ise ChatGPT'de atıf alacak üst düzey rehber içeriği açın, teknik dokümantasyon kapatın. Gonet her bot için iş hedefinize göre granüler politika tasarlar — 'tümünü aç/kapat' yerine sayfa segmentasyonu yapar.

Question 3

Common Crawl'da eski içerik nasıl güncellenir, model hafızası değişir mi?

Accepted Answer

Common Crawl ayda bir snapshot alır (ör. CC-MAIN-2024-10). Bir kez arşivlenen veri değişmez, ancak yeni snapshot'larda güncel sürüm taranır. Ancak LLM'ler eğitim sırasında **tüm snapshot'ları** karıştırabilir, bu yüzden eski veri 'hayalet bilgi' olarak kalabilir. Çözüm: (1) Eski URL'lere 301 redirect + canonical, böylece yeni snapshot yalnızca güncel sayfayı görür. (2) Sitemap.xml'de <lastmod> etiketiyle değişim tarihini belirtin. (3) Değişen bilgiler için schema.org'da dateModified ekleyin. (4) robots.txt'te Crawl-delay ve sitemap yolu vererek botları yönlendirin. Gonet bu 4 adımı otomatikleştirip her snapshot döngüsünde (ayda bir) güncel verinin arşive girmesini sağlar. Model hafızası güncellemesi ise model yeniden eğitildiğinde (6-12 ayda bir) gerçekleşir.

Question 4

llms.txt dosyası Common Crawl optimizasyonunda nasıl kullanılır?

Accepted Answer

llms.txt (veya /ai-policy.md), LLM'lerin RAG (Retrieval-Augmented Generation) sürecinde veya fine-tuning sırasında referans alacağı markdown formatında bir 'marka özet/politika' dosyasıdır. CCBot bu dosyayı tarar ve model eğitimine dahil eder. İçerik: marka adı, kuruluş yılı, ana hizmetler, hedef kitle, güncel bilgi kaynağı (sitemap/blog RSS linki), tercih edilen atıf formatı. Örnek: 'Gonet (gonet.com.tr) — 2000'de İzmir'de kuruldu, Türkiye'nin ilk 3 Google Partner ajansından biri, 220+ marka, AEO/GEO hizmet hattı. Güncel bilgi: /sitemap.xml. Atıf: Gonet Dijital Ajans.' LLM bu dosyayı okuyunca marka bağlamını daha net öğrenir, ChatGPT gibi araçlarda 'Gonet nedir?' sorusuna doğru, güncel yanıt verir. Gonet her marka için özel llms.txt tasarlar, schema.org ve robots.txt ile entegre eder.

Question 5

Rakipler CCBot'a kapalıysa biz açık olmalı mıyız, avantaj nedir?

Accepted Answer

Evet, ancak stratejik açıklık gerekir. Rakipler CCBot'a kapalıysa AI modelleri onları 'bilmez' — ChatGPT/Perplexity gibi araçlarda 'X sektöründe Y hizmeti veren firmalar' sorusuna cevap verirken atlanırlar. Siz açıkken şu avantajları kazanırsınız: (1) AI atıf trafiği: ChatGPT yanıtında kaynak olarak gösterilirsiniz, kullanıcı sitenize gelir. (2) Marka otoritesi: Model sizi 'güvenilir kaynak' olarak öğrenir, benzer sorularda tekrar önerir. (3) Backlink potansiyeli: AI araçları bazen 'kaynak: gonet.com.tr' şeklinde link verir, SEO değeri artar. Ancak riskleri yönetin: (a) Tüm sayfaları değil, seçili içeriği açın (rehber/blog evet, fiyat/strateji hayır). (b) Schema + llms.txt ile bağlamı netleştirin, yoksa model yanlış öğrenir. (c) Her ay rakip policy'lerini izleyin — onlar açılırsa siz zenginleştirin. Gonet rakip analizi + CCBot stratejisini birleştirerek sürekli avantaj sağlar.

Durum	Etki
B2B SaaS / kurumsal hizmet sağlayıcı	Decision-maker’lar ChatGPT/Perplexity’de ‘X yazılımı alternatifleri’ diye soruyor. CCBot’a kapalıysanız AI yanıtında görünmezsiniz.
E-ticaret (özellikle niş kategoriler)	‘En iyi Y ürünü’ sorularında AI modelleri Common Crawl’dan öğrendiği marka/ürün bilgilerini önerir. Schema + CCBot açıklığı %340 daha fazla atıf getirir.
İçerik/medya yayıncıları	Makaleleriniz AI özetlerde kaynak gösterilmezse trafik kaybedersiniz. Ancak CCBot’a tamamen açılırsanız içerik ‘ücretsiz’ öğrenilir — Gonet stratejik sayfa seçimi yapar.
Yeniden markalaşma / hizmet değişikliği	Eski marka adı/hizmet bilgileri model hafızasında kalır. 301 + canonical + lastmod kombinasyonuyla yeni bilgi snapshot’lara girer.
Rakip analizi yanlış	AI modelleri eski veriyle rakiplerinizi sizden üstün gösterebilir. Gonet, rakip CCBot policy’lerini de analiz ederek avantaj alanları tespit eder.

Common Crawl Optimizasyonu: AI Eğitim Veri Setlerinde Temsil Stratejisi

Common Crawl optimizasyonu nedir?

Neden kritik?

Gonet yaklaşımı

Hangi durumlarda kritik avantaj?

İlgili yetkinlikler

Gonet ile çalışmak

Sık sorulan sorular

AEO / GEO — Yeni Nesil Arama altındaki diğer yetkinlikler

Künye, kaynakça ve şeffaflık

Markanız için bu yetkinliği konuşalım