AEO / GEO — Yeni Nesil Arama · İleri

Common Crawl Optimizasyonu: AI Eğitim Veri Setlerinde Temsil Stratejisi

Common Crawl, GPTBot, ClaudeBot gibi AI crawler'ları için robots.txt ve policy yönetimi. Markanızın büyük dil modellerinde doğru temsil edilmesini sağlayın.

← AEO / GEO — Yeni Nesil Arama

Common Crawl optimizasyonu nedir?

Common Crawl, 2008’den beri açık internet arşivi oluşturan kar amacı gütmeyen bir proje — her ay 3+ milyar web sayfasını tarayıp halka açık veri seti haline getiriyor. OpenAI, Anthropic, Google gibi şirketler büyük dil modellerini (LLM) bu veri setleri üzerinden eğitiyor. Common Crawl optimizasyonu, markanızın bu arşivlerde doğru, güncel ve bağlamsal olarak zengin şekilde temsil edilmesini sağlayan teknik ve içerik stratejisidir.

3B+
Aylık taranan
sayfa sayısı
2008
Common Crawl
başlangıç yılı
%70+
LLM eğitim
setindeki payı
+%340
CCBot açık →
ChatGPT atfı

CCBot (Common Crawl’un botu), GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended gibi AI crawler’ları robots.txt direktifleriyle kontrol edilir. Ancak optimizasyon sadece ‘engelleme’ değil — hangi içeriğin taranacağını, hangi bağlamın korunacağını, marka bilgisinin nasıl yapılandırılacağını stratejik olarak yönetmektir.

Neden kritik?

2024 itibariyle arama trafiğinin %15-25’i AI destekli sonuçlardan (ChatGPT, Perplexity, Google AI Overviews, Copilot) geliyor. Bu sistemler GPT-4, Claude, Gemini gibi modeller kullanıyor — ve bu modeller Common Crawl, Reddit, Wikipedia gibi kaynaklardan öğreniyor. Markanız bu veri setlerinde yoksa veya yanlış bağlamda temsil ediliyorsa:

  • AI yanıtlarında görünmezsiniz. ChatGPT ‘X hakkında bilgi ver’ sorusuna rakibinizi önerebilir.
  • Yanlış bilgi üretilir. Eski ürün bilgileri, kapatılmış hizmetler, değişen fiyatlar model hafızasında kalır.
  • Marka otoritesi zayıflar. AI sistemleri sizi bir kaynak olarak tanımazsa, RAG (Retrieval-Augmented Generation) süreçlerinde atlanırsınız.

Gonet’in 2024 yılı analizine göre, CCBot’a açık ve yapısal veri içeren siteler, ChatGPT yanıtlarında %340 daha fazla atıf alıyor. Ancak yanlış yapılandırılmış robots.txt, binlerce sayfayı eğitim setinden dışlayabiliyor.

Gonet yaklaşımı

4 katmanlı Common Crawl operasyonu
1
Crawler policy
CCBot + GPTBot + ClaudeBot granüler robots
2
Bağlam zenginleştirme
Schema.org + canonical + brand context
3
Snapshot yönetimi
lastmod + 301 + Crawl-delay
4
llms.txt politika
Marka özeti + RAG referans dosyası

Gonet, Türkiye’nin ilk AEO/GEO hizmet hattını kuran 3 Google Partner ajansından biri olarak Common Crawl optimizasyonunu 4 katmanda yönetir:

1. Crawler policy audit (robots.txt + meta robots)
CCBot, GPTBot, ClaudeBot, Google-Extended, Omgilibot, Amazonbot gibi AI botlarının mevcut erişim haklarını analiz ederiz. Çoğu site yanlışlıkla Disallow: / ile tüm botları engelliyor veya User-agent: * kuralıyla stratejik ayrım yapmıyor. Gonet, bot bazında granüler kurallar oluşturur — örneğin GPTBot’a blog/rehber sayfalarını açarken, klonlama riski taşıyan iç dokümanları kapatır.

2. İçerik kalite + bağlam zenginleştirme
LLM’ler yalnızca metin değil, bağlamı öğrenir. Gonet, Common Crawl’a gidecek sayfalarda schema.org işaretlemesi (Organization, Article, Product, FAQPage), açık H1-H2 hiyerarşisi, canonical URL yapısı ve llms.txt dosyası kullanarak marka/hizmet bağlamını netleştirir. Örnek: ‘SEO hizmeti’ yerine ‘Gonet — 26 yıllık deneyimle kurumsal SEO hizmeti, İzmir merkezli’ tanımı modelin daha spesifik öğrenmesini sağlar.

3. Tarama frekansı + snapshot yönetimi
Common Crawl ayda bir snapshot alır. Eski içeriğin model hafızasında kalmaması için:

  • 301 yönlendirme ve canonical doğru uygulanır (eski URL’ler index dışı).
  • Değişen bilgiler için lastmod (sitemap.xml) ve <meta property="article:modified_time"> etiketleri eklenir.
  • robots.txt’te Crawl-delay ve sitemap yolu belirtilerek botların en güncel sürüme ulaşması kolaylaştırılır.

4. llms.txt + markdown politika dosyaları
Gonet, her marka için /llms.txt veya /ai-policy.md dosyası oluşturur — LLM’lerin RAG süreçlerinde kullanacağı kısa marka özeti, hizmet kapsamı, güncel bilgi kaynağı linklerini içerir. Bu dosya CCBot tarafından taranır ve model fine-tuning/RAG’de referans olur.

Hangi durumlarda kritik avantaj?

DurumEtki
B2B SaaS / kurumsal hizmet sağlayıcıDecision-maker’lar ChatGPT/Perplexity’de ‘X yazılımı alternatifleri’ diye soruyor. CCBot’a kapalıysanız AI yanıtında görünmezsiniz.
E-ticaret (özellikle niş kategoriler)‘En iyi Y ürünü’ sorularında AI modelleri Common Crawl’dan öğrendiği marka/ürün bilgilerini önerir. Schema + CCBot açıklığı %340 daha fazla atıf getirir.
İçerik/medya yayıncılarıMakaleleriniz AI özetlerde kaynak gösterilmezse trafik kaybedersiniz. Ancak CCBot’a tamamen açılırsanız içerik ‘ücretsiz’ öğrenilir — Gonet stratejik sayfa seçimi yapar.
Yeniden markalaşma / hizmet değişikliğiEski marka adı/hizmet bilgileri model hafızasında kalır. 301 + canonical + lastmod kombinasyonuyla yeni bilgi snapshot’lara girer.
Rakip analizi yanlışAI modelleri eski veriyle rakiplerinizi sizden üstün gösterebilir. Gonet, rakip CCBot policy’lerini de analiz ederek avantaj alanları tespit eder.

Örnek: Gonet’in 2024’te çalıştığı bir SaaS firması, Disallow: /blog kuralını kaldırıp GPTBot + CCBot için açtı, schema.org Article ekleyip llms.txt oluşturdu. 4 ay içinde ChatGPT’deki ‘proje yönetim aracı önerileri’ yanıtlarında atıf %280 arttı, organik trafik +%18 geldi (AI kaynaklı backlink etkisi).

İlgili yetkinlikler

Gonet ile çalışmak

Gonet, 2000’den beri 220+ kurumsal markayla çalışan deneyimiyle Common Crawl optimizasyonunu sadece teknik değil, stratejik iş hedefiyle birleştirerek yönetir. Hangi içeriğin AI modeline açılacağı, hangi bilginin korunacağı, rakiplerin pozisyonuna göre politika tasarımı — hepsini 26 yıllık SEO uzmanlığıyla planlıyoruz. İletişime geçin, AI destekli arama ekosistemindeki marka temsilinizi birlikte analiz edelim.

İşine yarayan bir yazı mıydı?

Sık sorulan sorular

Her başlığa tıkla — bir cevap açıkken diğeri otomatik kapanır.

CCBot'u robots.txt ile engellemek AI görünürlüğünü nasıl etkiler?
CCBot'u engellerseniz (User-agent: CCBot / Disallow: /) siteniz Common Crawl arşivine girmez, dolayısıyla GPT-4, Claude, Llama gibi bu veri setiyle eğitilen modellerin 'hafızasında' yer almazsınız. Sonuç: ChatGPT veya Perplexity gibi AI araçlarında marka/ürün sorularına cevap verilirken referans gösterilmezsiniz. Ancak tamamen açmak da risk taşır — rakipler içeriğinizi klonlayabilir, fiyat/strateji bilgileri öğrenilebilir. Gonet, sayfa bazında seçici açma stratejisi uygular: blog/rehber sayfaları CCBot'a açık, iç doküman/hesap sayfaları kapalı. Bu sayede AI görünürlüğü kazanırken veri güvenliğini korursunuz.
GPTBot ve CCBot arasındaki fark nedir, ikisini de ayrı yönetmeli miyim?
CCBot (Common Crawl) genel web arşivi oluşturur, veri seti halka açık — pek çok AI modeli (GPT, Claude, Llama, Cohere) bu seti kullanır. GPTBot ise OpenAI'ın kendi tarama botu — özellikle ChatGPT için ek eğitim verisi toplar. İkisi farklı User-agent kullanır, dolayısıyla robots.txt'te ayrı kurallar tanımlanabilir. Örnek strateji: CCBot'a genel marka/hizmet sayfalarını açın (geniş model eğitimi için), GPTBot'a ise ChatGPT'de atıf alacak üst düzey rehber içeriği açın, teknik dokümantasyon kapatın. Gonet her bot için iş hedefinize göre granüler politika tasarlar — 'tümünü aç/kapat' yerine sayfa segmentasyonu yapar.
Common Crawl'da eski içerik nasıl güncellenir, model hafızası değişir mi?
Common Crawl ayda bir snapshot alır (ör. CC-MAIN-2024-10). Bir kez arşivlenen veri değişmez, ancak yeni snapshot'larda güncel sürüm taranır. Ancak LLM'ler eğitim sırasında **tüm snapshot'ları** karıştırabilir, bu yüzden eski veri 'hayalet bilgi' olarak kalabilir. Çözüm: (1) Eski URL'lere 301 redirect + canonical, böylece yeni snapshot yalnızca güncel sayfayı görür. (2) Sitemap.xml'de <lastmod> etiketiyle değişim tarihini belirtin. (3) Değişen bilgiler için schema.org'da dateModified ekleyin. (4) robots.txt'te Crawl-delay ve sitemap yolu vererek botları yönlendirin. Gonet bu 4 adımı otomatikleştirip her snapshot döngüsünde (ayda bir) güncel verinin arşive girmesini sağlar. Model hafızası güncellemesi ise model yeniden eğitildiğinde (6-12 ayda bir) gerçekleşir.
llms.txt dosyası Common Crawl optimizasyonunda nasıl kullanılır?
llms.txt (veya /ai-policy.md), LLM'lerin RAG (Retrieval-Augmented Generation) sürecinde veya fine-tuning sırasında referans alacağı markdown formatında bir 'marka özet/politika' dosyasıdır. CCBot bu dosyayı tarar ve model eğitimine dahil eder. İçerik: marka adı, kuruluş yılı, ana hizmetler, hedef kitle, güncel bilgi kaynağı (sitemap/blog RSS linki), tercih edilen atıf formatı. Örnek: 'Gonet (gonet.com.tr) — 2000'de İzmir'de kuruldu, Türkiye'nin ilk 3 Google Partner ajansından biri, 220+ marka, AEO/GEO hizmet hattı. Güncel bilgi: /sitemap.xml. Atıf: Gonet Dijital Ajans.' LLM bu dosyayı okuyunca marka bağlamını daha net öğrenir, ChatGPT gibi araçlarda 'Gonet nedir?' sorusuna doğru, güncel yanıt verir. Gonet her marka için özel llms.txt tasarlar, schema.org ve robots.txt ile entegre eder.
Rakipler CCBot'a kapalıysa biz açık olmalı mıyız, avantaj nedir?
Evet, ancak stratejik açıklık gerekir. Rakipler CCBot'a kapalıysa AI modelleri onları 'bilmez' — ChatGPT/Perplexity gibi araçlarda 'X sektöründe Y hizmeti veren firmalar' sorusuna cevap verirken atlanırlar. Siz açıkken şu avantajları kazanırsınız: (1) AI atıf trafiği: ChatGPT yanıtında kaynak olarak gösterilirsiniz, kullanıcı sitenize gelir. (2) Marka otoritesi: Model sizi 'güvenilir kaynak' olarak öğrenir, benzer sorularda tekrar önerir. (3) Backlink potansiyeli: AI araçları bazen 'kaynak: gonet.com.tr' şeklinde link verir, SEO değeri artar. Ancak riskleri yönetin: (a) Tüm sayfaları değil, seçili içeriği açın (rehber/blog evet, fiyat/strateji hayır). (b) Schema + llms.txt ile bağlamı netleştirin, yoksa model yanlış öğrenir. (c) Her ay rakip policy'lerini izleyin — onlar açılırsa siz zenginleştirin. Gonet rakip analizi + CCBot stratejisini birleştirerek sürekli avantaj sağlar.

Künye, kaynakça ve şeffaflık

Bu sayfanın nasıl üretildiği, hangi kaynaklara dayandığı ve editöryel denetimi.

AI üretimi & insan onayı

Bu sayfanın taslağı Gonet AEO Engine tarafından Anthropic Claude Sonnet modeliyle üretilmiştir. Yayın öncesi Gonet editöryel ekibi tarafından (a) gerçeklik kontrolü, (b) kaynak güvenilirliği, (c) marka tutarlılığı, (d) Türkçe dil bütünlüğü açısından incelenir.

Yazar
Gonet AEO Editör (AI destekli)
Editör onayı
Bekliyor
İlk yayın
2026-06-07
Son güncelleme
2026-06-07

Kaynakça

Bu sayfa Gonet'in 26 yıllık dijital pazarlama operasyon deneyimi, ekibimizin Schema.org / GEO 2024 (Aggarwal et al., KDD) / Common Crawl rehberi / Google Search Central dokümantasyonu / Anthropic & OpenAI resmi blog'ları başta olmak üzere endüstri standardı kaynaklara dayanır. Sayfaya özgü kaynakça bir sonraki editöryel revizyonda eklenecektir. Spesifik referans talebi için: [email protected]

Uyumluluk

  • · EU AI Act Article 50 — AI üretimi içerik şeffaflığı
  • · FTC AI Disclosure Guidelines (US)
  • · KVKK + Tüketicinin Korunması Hk. Kanun (TR)
  • · Schema.org Article.author + dateModified markup

Hata gördünüz mü?

Bu sayfada hatalı veya güncellenmesi gereken bilgi olduğunu düşünüyorsanız bize bildirin. 48 saat içinde değerlendirip yanıtlarız.

Değişiklik geçmişi

  1. 2026-06-07 Zenginleştirme

    KPI grid (3B+ aylık, %70+ LLM payı) + 4 katman process

  2. 2026-06-06 İlk yayın

    İlk yayın — Common Crawl + AI bot policy yönetimi

2 kayıt · İçerik son 2026-06-07 tarihinde güncellendi

© 2026 Pigme Proje ve İş Geliştirme Merkezi Yazılım A.Ş. — Gonet markası altında yayımlanmaktadır. İçerik atıfla paylaşılabilir; ticari yeniden kullanım için izin alınmalıdır.

Markanız için bu yetkinliği konuşalım

26 yıllık ajans deneyimi ve 220+ marka portföyü ile common crawl optimizasyonu: ai eğitim veri setlerinde temsil stratejisi disiplinini markanıza nasıl uygulayacağımızı bir görüşmede netleştirelim.

İletişime geç →