Robots txt'de sayfa indeksleme nasıl durdurulur? Gerekli sayfaların indekslenmesi nasıl önlenir? name=”robots” etiketini kullanma

26.10.2023

Belirli bir sorgu dizesi içeren sayfaları (her biri kendi adresine sahip olan kullanıcı için benzersiz raporlar) arama motorları tarafından dizine eklenmesinden hariç tutma göreviyle karşı karşıya kaldım. Bu sorunu kendim çözdüm ve ayrıca site dizine eklemeye izin verme ve yasaklama sorunlarını tam olarak anlamaya karar verdim. Bu materyal buna adanmıştır. Yalnızca robots.txt için gelişmiş kullanım örneklerini değil, aynı zamanda site dizine eklemeyi kontrol etmenin daha az bilinen diğer yollarını da kapsar.

İnternette belirli klasörlerin arama motorları tarafından indekslenmesinin nasıl hariç tutulacağına dair birçok örnek vardır. Ancak, hepsini değil, yalnızca belirtilen parametreleri içeren sayfaları hariç tutmanız gerektiğinde bir durum ortaya çıkabilir.

Parametrelerin bulunduğu örnek sayfa: site.ru/?act=report&id=7a98c5

Burada davranmak değeri olan değişkenin adıdır rapor, Ve İD- bu aynı zamanda değeri olan bir değişkendir 7a98c5. Onlar. sorgu dizesi (parametreler) soru işaretinden sonra gelir.

Parametreli sayfaların indekslenmesini engellemenin birkaç yolu vardır:

robots.txt dosyasını kullanma
.htaccess dosyasındaki kuralları kullanma
robots meta etiketini kullanma

Robots.txt dosyasındaki indekslemeyi kontrol etme

Robots.txt dosyası

Dosya robots.txt sitenin kök dizininde (klasöründe) bulunan ve bir veya daha fazla giriş içeren basit bir metin dosyasıdır. Dosya içeriğinin tipik örneği:

Kullanıcı aracısı: * İzin verme: /cgi-bin/ İzin verme: /tmp/ İzin verme: /~joe/

Bu dosyada üç dizin indekslemenin dışında bırakılır.

Şu satırı unutmayın: " İzin verme Hariç tutmak istediğiniz her URL öneki için " ayrı ayrı yazılmalıdır. Yani " yazamazsınız. İzin verme: /cgi-bin/ /tmp/" tek satıra. Boş satırların özel anlamını da unutmayın; bunlar kayıt bloklarını ayırır.

Normal ifadeler hiçbir dizede desteklenmez Kullanıcı aracısı, ne de İzin verme.

Robots.txt dosyası sitenizin kök klasöründe bulunmalıdır. Sözdizimi aşağıdaki gibidir:

Kullanıcı aracısı: * İzin verme: /klasör veya sayfanın indekslenmesi yasaktır İzin Verme: /diğer klasör

Değer olarak Kullanıcı aracısı belirtilen * (yıldız işareti) - bu herhangi bir değerle eşleşir; Kurallar tüm arama motorlarına yöneliktir. Yıldız işareti yerine, kuralın amaçlandığı belirli arama motorunun adını belirtebilirsiniz.

Birden fazla direktif belirtilebilir İzin verme.

robots.txt dosyanızda joker karakterler kullanabilirsiniz:

* herhangi bir geçerli karakterin 0 veya daha fazla örneğini belirtir. Onlar. bu, boş bir dize de dahil olmak üzere herhangi bir dizedir.
$ URL'nin sonunu işaretler.

&, ?, = vb. dahil olmak üzere diğer karakterler. kelimenin tam anlamıyla alınır.

Robots.txt kullanılarak bir sayfanın belirli parametrelerle indekslenmesinin yasaklanması

Bu yüzden (yerine) gibi adresleri engellemek istiyorum ANLAM herhangi bir dize olabilir): site.ru/?act=report&id=VALUE

Bunun kuralı şudur:

Kullanıcı aracısı: * İzin verme: /*?*act=report&id=*

Onun içinde / (eğik çizgi) sitenin kök klasörü anlamına gelir ve ardından * (yıldız işareti), "herhangi bir şey" anlamına gelir. Onlar. bu herhangi bir göreceli adres olabilir, örneğin:

/sayfa.php
/sipariş/yeni/kimlik

Sonra takip eder ? (soru işareti), kelimenin tam anlamıyla yorumlanır, yani. soru işareti gibi. Bu nedenle, aşağıda sorgu satırı yer almaktadır.

Saniye * sorgu dizesinde her şeyin olabileceği anlamına gelir.

Sonra bir dizi karakter geliyor hareket=rapor&id=*, içinde hareket=rapor&id= kelimenin tam anlamıyla olduğu gibi yorumlanır ve son yıldız işareti yine herhangi bir satır anlamına gelir.

Arama motorları tarafından indekslemenin yasaklanması, ancak reklam ağlarının tarayıcılarına izin verilmesi

Sitenin arama motorları için dizine eklenmesini veya belirli bölümlerini kapattıysanız, bu sitelerde AdSense reklamları gösterilmeyecektir! Dizine eklenmeyen sayfalara reklam yerleştirmek diğer ortaklık ağlarında ihlal olarak değerlendirilebilir.

Bunu düzeltmek için dosyanın en başına ekleyin robots.txt aşağıdaki satırlar:

Kullanıcı aracısı: Mediapartners-Google İzin Verme: Kullanıcı aracısı: AdsBot-Google* İzin Verme: Kullanıcı Aracısı: YandexDirect İzin Verme:

Bu çizgilerle botlara izin veriyoruz Mediapartners-Google, AdsBot-Google* Ve YandexDirect siteyi indeksleyin.

Onlar. benim durumuma ilişkin robots.txt dosyası şöyle görünüyor:

Kullanıcı aracısı: Mediapartners-Google İzin Verme: Kullanıcı aracısı: AdsBot-Google* İzin Verme: Kullanıcı Aracısı: YandexDirect İzin Verme: Kullanıcı aracısı: * İzin Verme: /*?*act=report&id=*

Sorgu dizesi içeren tüm sayfaların dizine eklenmesini engelle

Bu şöyle yapılabilir:

Kullanıcı aracısı: * İzin verme: /*?*

Bu örnek, URL'de yer alan tüm sayfaları engeller ? (soru işareti).

Unutmayın: alan adından hemen sonra bir soru işareti, ör. site.ru/? dizin sayfasına eşdeğer olduğundan bu kurala dikkat edin.

GET yöntemiyle iletilen belirli bir parametreye sahip sayfaların indekslenmesinin yasaklanması

Örneğin, sorgu dizesinde parametreyi içeren URL'leri engellemeniz gerekir emir, aşağıdaki kural bunun için uygundur:

Kullanıcı aracısı: * İzin verme: /*?*order=

Çeşitli parametrelerden herhangi biriyle sayfaların indekslenmesini önleyin

Diyelim ki sorgu dizesi veya parametre içeren sayfaların dizine eklenmesini engellemek istiyoruz yön veya parametre emir veya parametre P. Bunu yapmak için, engelleme seçeneklerinin her birini ayrı kurallarda listeleyin, bunun gibi:

Kullanıcı aracısı: * İzin Verme: /*?*dir= İzin Verme: /*?*order= İzin Verme: /*?*p=

Arama motorlarının, URL'lerinde çeşitli spesifik parametreler bulunan sayfaları dizine eklemesi nasıl önlenir?

Örneğin, sorgu dizesindeki içerik parametresini sayfanın indekslenmesinden hariç tutmanız gerekir yön, parametre emir ve parametre P. Örneğin, bu URL'ye sahip bir sayfanın dizine eklenmesinin dışında tutulması gerekir: mydomain.com/new-printers?dir=asc&order=price&p=3

Bu, direktif kullanılarak elde edilebilir:

Kullanıcı aracısı: * İzin verme: /*?dir=*&order=*&p=*

Sürekli değişebilecek parametre değerleri yerine yıldız işaretlerini kullanın. Bir parametre her zaman aynı değere sahipse, harfi harfine yazılışını kullanın.

Bir sitenin indekslenmesi nasıl engellenir

Tüm robotların sitenin tamamını dizine eklemesini önlemek için:

Kullanıcı aracısı: * İzin verme: /

Tüm robotların tam erişimine izin ver

Tüm robotlara siteyi dizine ekleme konusunda tam erişim vermek için:

Kullanıcı aracısı: * İzin verme:

Ya boş bir /robots.txt dosyası oluşturun ya da hiç kullanmayın; varsayılan olarak, indekslenmesi yasak olmayan her şey açık olarak kabul edilir. Bu nedenle boş bir dosya veya onun yokluğu, tam indeksleme izni anlamına gelir.

Tüm arama motorlarının sitenin bir kısmını indekslemesinin yasaklanması

Sitenin bazı bölümlerini tüm robotlardan kapatmak için, değerleri kendi değerlerinizle değiştiren aşağıdaki türdeki yönergeleri kullanın:

Kullanıcı aracısı: * İzin verme: /cgi-bin/ İzin verme: /tmp/ İzin verme: /junk/

Bireysel robotların engellenmesi

Bireysel robotlara ve arama motorlarına erişimi engellemek için satırda robotun adını kullanın Kullanıcı aracısı. Bu örnekte erişim reddedildi BadBot:

Kullanıcı aracısı: BadBot İzin Verme: /

Unutmayın: çoğu robot robots.txt dosyasını yok sayar; dolayısıyla bu, bir sitenin veya bir kısmının dizine eklenmesini durdurmanın güvenilir bir yolu değildir.

Sitenin bir arama motoru tarafından dizine eklenmesine izin ver

Diyelim ki siteyi yalnızca Google'ın dizine eklemesine izin vermek ve diğer arama motorlarına erişimi engellemek istiyoruz, ardından şunu yapın:

Kullanıcı aracısı: Google İzin Verme: Kullanıcı aracısı: * İzin Verme: /

İlk iki satır, Google robotunun siteyi dizine eklemesine izin verir ve son iki satır, diğer tüm robotların bunu yapmasını yasaklar.

Biri hariç tüm dosyaların indekslenmesinin yasaklanması

Direktif İzin vermek Belirtilen arama robotlarının erişebilmesi gereken yolları tanımlar. Yol belirtilmezse dikkate alınmaz.

Kullanımı:

İzin ver: [yol]

Önemli: İzin vermekönce takip etmelisin İzin verme.

Not: İzin vermek standardın bir parçası değildir ancak birçok popüler arama motoru bunu desteklemektedir.

Alternatif olarak, kullanarak İzin verme bir dosya veya bir klasör dışında tüm klasörlere erişimi reddedebilirsiniz.

robots.txt dosyasının çalışması nasıl kontrol edilir

İÇİNDE Yandex.Web Yöneticisi Dosyanızın robots.txt dosyasına göre belirli adreslerin indekslenmesine izin vermek veya bunları reddetmek üzere kontrol etmek için bir araç vardır.

Bunu yapmak için sekmeye gidin Aletler, seçme Robots.txt analizi. Bu dosya otomatik olarak indirilmelidir; eski bir sürüm varsa, ardından düğmeye tıklayın. Kontrol etmek:

Daha sonra sahaya URL'lere izin veriliyor mu? kontrol etmek istediğiniz adresleri girin. Aynı anda birçok adres girebilirsiniz, her birinin yeni bir satıra yerleştirilmesi gerekir. Her şey hazır olduğunda düğmeye basın Kontrol etmek.

Sütunda Sonuç URL arama robotları tarafından indekslenmeye kapatılmışsa kırmızı ışıkla, açıksa yeşil ışıkla işaretlenecektir.

İÇİNDE Arama Konsolu buna benzer bir araç var. Bu sekmede Tarama. İsminde Robots.txt dosyası inceleme aracı.

Robots.txt dosyasını güncellediyseniz düğmesine tıklayın. Göndermek ve ardından açılan pencerede düğmeye tekrar tıklayın. Göndermek:

Bundan sonra sayfayı yeniden yükleyin (F5 tuşu):

Doğrulanacak adresi girin, botu seçin ve düğmeye tıklayın Kontrol etmek:

Robots meta etiketini kullanarak sayfa dizine eklemeyi yasaklama

Sayfanın dizine eklenmesini kapatmak istiyorsanız, etikette … şunu yazın:

Hangi tür dosyaların indekslenmesinin yasak olduğunu belirtmek için.

Örneğin, .PDF uzantılı tüm dosyaların indekslenmesinin yasaklanması:

Başlık seti X-Robots-Tag "noindex, nofollow"

Tüm resim dosyalarının (.png, .jpeg, .jpg, .gif) indekslenmesi yasağı:

Başlık seti X-Robots-Tag "noindex"

mod_rewrite kullanarak arama motorlarına erişimi engelleme

Aslında yukarıda açıklananların tümü, arama motorlarının ve yasaklı robotların sitenize erişemeyeceğini ve dizine eklemeyeceğini GARANTİ VERMEZ. Robots.txt dosyasına "saygı duyan" robotlar var ve onu görmezden gelenler de var.

mod_rewrite kullanarak belirli botların erişimini engelleyebilirsiniz

RewriteCond'da RewriteEngine %(HTTP_USER_AGENT) Google RewriteCond %(HTTP_USER_AGENT) Yandex RewriteRule ^ - [F]

Yukarıdaki direktifler sitenin tamamı için Google ve Yandex robotlarına erişimi engelleyecektir.

rapor/

RewriteCond'da RewriteEngine %(HTTP_USER_AGENT) Google RewriteCond %(HTTP_USER_AGENT) Yandex RewriteRule ^report/ - [F]

Mod_rewrite kullanarak arama motorlarının bir sitenin ayrı sayfalarına ve bölümlerine erişimini engellemek istiyorsanız, yorumları yazın ve sorularınızı sorun - daha fazla örnek hazırlayacağım.

“ üzerine 13 gözlem URL'de belirli parametrelere sahip sayfaları indekslemenin dışında tutma ve arama motorları tarafından site indekslemeyi kontrol etmeye yönelik diğer teknikler”

Taras

anlam olarak en yakın olanı, ancak işte klasör

Örneğin indeksleme için yalnızca bir klasörü kapatmanız gerekiyorsa rapor/, ardından aşağıdaki yönergeler Google ve Yandex tarayıcıları için bu klasöre erişimi tamamen engelleyecektir (403 Erişim Reddedildi yanıt kodu verilecektir).

Sitenizin robots.txt dosyasında dizine eklenmesini ve diğer araçları kullanmasını nasıl önleyeceğinizi bilmek ister misiniz? O halde sunulan materyal tam size göre.

Elbette web sitesi sahipleri, kaynaklarının arama motorları tarafından mümkün olan en kısa sürede dizine eklenmesini sağlamak için mücadele ediyor. Ancak arama botunun bir süre kaynağı ziyaret etmemesi ve web kaynağınızdaki materyalleri dizinine eklememesinin gerekli olduğu zamanlar vardır. Bu gibi durumlar şunlar olabilir:

henüz herhangi bir yararlı bilgi içermediğinde bir kaynağın yakın zamanda oluşturulması;
güncelleme yapma ihtiyacı (örneğin, web sitesi tasarımını değiştirmek);
arama botlarına iletmek istemeyeceğiniz gizli veya gizli bölümlerin veya faydalı bağlantıların varlığı.

Sitenin tamamını veya tek tek bölümlerini kapatabilirsiniz:

ayrı paragraf veya bağlantı;
bilgi girme formları;
yönetici kısmı;
kullanıcı profili ve kayıt sayfaları;
yinelenen sayfalar;
etiket bulutu vb.

Sitenizin dizine eklenmesini engellemenin birçok yolu vardır. Robots.txt dosyasını düzenlemek bunlardan biridir. Bu yönteme ve iki popüler ve basit yönteme daha bakacağız.

Bir sitenin Yandex, Google ve robots.txt'deki tüm arama motorları için dizine eklenmesi nasıl engellenir?

Robots.txt dosyasını düzenlemek en güvenilir ve en hızlı yollardan biridir Arama motorları için bu yasağı bir süre veya sonsuza kadar ayarlayın. Ne yapmaya ihtiyacım var:

Bir robots.txt dosyası oluşturma. Bunu yapmak için .txt uzantılı normal bir metin belgesi oluşturmanız ve ona "robotlar" adını vermeniz gerekir.
Oluşturulan dosyayı blogunuzun kök klasörüne yükleyin. Site WordPress motorunda oluşturulduysa, bu klasör wp-includes, wp-content vb. klasörlerin bulunduğu yerde bulunabilir.
Arama motorları için indekslemeyi doğrudan yasaklamak.

Bir sitenin robots.txt dosyasındaki indeksleme yasağı, hem belirli arama motorları hem de tüm arama motorları için ayarlanabilir. Farklı seçeneklere bakacağız.

Sitenizin Google arama botları tarafından dizine eklenmesini engellemek için robots.txt dosyasına aşağıdakileri yazmanız gerekir:

Kullanıcı aracısı: Googlebot
İzin verme: /

Bir sitenin dizine eklenmesinin kapatılıp kapatılmadığını kontrol etmek için bir hesap oluşturun ve gerekli alan adını Google Web Yöneticisi'ne ekleyin.. Burada bir doğrulama işlevi var.

Bundan sonra sonuçlar gösterilecektir. Bir sitenin indekslenmesi engellenmişse, "Satır tarafından engellendi" ifadesi görünecek ve hangi hattın indekslemeyi engellediği belirtilecektir. Google arama botlarının indekslemesini yasaklayan herhangi bir işlem hatalı gerçekleştirilmişse, "İzin Verildi" imzalanacaktır.

Google arama motoruna robots.txt kullanarak indekslemeyi %100 engellemenin mümkün olmadığını belirtelim. Bu, Google için bir tür öneridir, çünkü tek bir belgenin indekslenip indekslenmeyeceğine kendisi karar verecektir.

Site materyallerinin Yandex tarafından indekslenmesini engellemek için robots.txt dosyasına aşağıdakileri girmeniz gerekir:

Kullanıcı aracısı: Yandex
İzin verme: /

Bir kaynağın durumunu kontrol etmek için onu Yandex Web Yöneticisi'ne eklemeniz gerekir; burada sitenizden birkaç sayfa girmeniz ve "Kontrol Et" düğmesini tıklamanız gerekir. Her şey yolunda giderse satırda "Kural gereği yasaklandı" mesajı görüntülenecektir.

Ayrıca sitenizin tüm arama motorları için aynı anda indekslenmesini de yasaklayabilirsiniz. Bunu yapmak için tekrar robots.txt dosyasını açın ve içine aşağıdaki satırı yazın.:

Kullanıcı aracısı: *
İzin verme: /

Google ve Yandex için indeksleme yasağının kontrol edilmesi, sırasıyla Google Web Yöneticisi ve Yandex Web Yöneticisi'nde yukarıdaki şemaya göre gerçekleştirilir.

Robots.txt dosyanızı görmek için Vashdomain.ru/robots.txt adresine gitmeniz gerekir. Girilen her şey burada görüntülenecektir. Bir 404 hatası ortaya çıkıyor. Bu, dosyanızı indirirken bir şeylerin yanlış yapıldığını gösterir.

Araç çubuğunu kullanarak kaynak indekslemeyi önleyin

Araç çubuğunu kullanarak bir sitenin dizine eklenmesini engelleme yöntemi yalnızca WordPress'te oluşturulan kaynaklar için uygundur.

Prosedür basit ve hızlıdır:

“Denetim Masası”nı açın, “Ayarlar” – “Okuma” seçeneğine gidin;
“Arama motorlarının siteyi dizine eklememesini önerin” kutusunu işaretleyin.
Değişiklikleri Kaydet.

Bu eylemlerin gerçekleştirilmesi arama motorları için yalnızca bir öneridir. Ve kaynak materyallerin indekslenip indekslenmeyeceğine kendileri karar veriyorlar. Hatta sitenin görünürlük ayarlarında özel bir satır bile var: "İsteğinizi takip edip etmemeye arama motorları kendileri karar verir." Yandex'in genellikle "dinlediğini" ve Google'ın kendi takdirine göre hareket edebileceğini ve bazı durumlarda öneriye rağmen yine de siteyi dizine ekleyebileceğini unutmayın.

Bir sitenin manuel olarak indekslenmesinden kapatılması

Kaynak kodunda, bir sayfayı veya kaynağın tamamını indekslemeden kapatırken satır belirir

Arama motorlarına tek tek materyalleri veya kaynakları indekslemeye gerek olmadığını söyleyen bu satırdır. Bu satırı sitenin herhangi bir yerine manuel olarak girebilirsiniz. Önemli olan tüm sayfalarda görüntülenmesidir.

Bu yöntem aynı zamanda gereksiz belgelerin indekslenmesini engellemek için de uygundur.

Güncellemeleri tamamladıktan sonra her şeyin çalışıp çalışmadığını kontrol etmeniz gerekir. Bunu yapmak için CTRL + U tuşlarını kullanarak kaynak kodunu açmanız ve gerekli satırı içerip içermediğine bakmanız gerekir. Varlığı, indekslemeden kapatmanın başarılı bir şekilde gerçekleştirildiğini teyit etmektedir. Ayrıca Yandex Web Yöneticisi ve Google Web Yöneticisi'ni de kontrol edebilirsiniz.

Bu nedenle, bir sitenin tamamının veya tek tek kaynak materyallerinin arama motorları tarafından dizine eklenmesini engellemenin en basit ve en hızlı yollarına baktık. Ve ortaya çıktığı gibi, robots.txt en kolay ve nispeten güvenilir yöntemlerden biridir.

Oluşturulan sitenin teknik yönleri, web sitesinin arama motorlarında tanıtılmasında içeriğinden daha az önemli bir rol oynamaz. En önemli teknik yönlerden biri site indekslemedir, yani sitenin arama motoru robotları tarafından indekslenebilecek veya indekslenemeyecek alanlarının (dosyalar ve dizinler) belirlenmesidir. Bu amaçlar için robots.txt kullanılır - bu, arama motoru robotları için komutlar içeren özel bir dosyadır. Yandex ve Google için doğru robots.txt dosyası, site indekslemeyle ilgili pek çok hoş olmayan sonuçtan kaçınmanıza yardımcı olacaktır.

2. Robots.txt dosyasının konsepti ve gereksinimleri

/robots.txt dosyası, tüm arama robotlarına (örümceklere) bu dosyada tanımlandığı gibi bilgi sunucularını indeksleme talimatı vermek üzere tasarlanmıştır; yalnızca /robots.txt dosyasında açıklanmayan dizinler ve sunucu dosyaları. Bu dosya, belirli bir robotla ilişkili (agent_id alanının değeri tarafından belirlenen) 0 veya daha fazla kayıt içermeli ve her robot için veya hepsi için tam olarak neyi indekslemeleri gerekmediğini bir kerede belirtmelidir.

Dosya sözdizimi, hem tüm robotlar hem de belirli robotlar için kısıtlı indeksleme alanları ayarlamanıza olanak tanır.

Robots.txt dosyasının özel gereksinimleri vardır ve bunlara uyulmaması, arama motoru robotunun dosyayı doğru okuyamamasına veya genel olarak dosyayı işlevsiz hale getirmesine neden olabilir.

Birincil gereksinimler:

Dosya adındaki tüm harfler büyük, yani küçük harf olmalıdır:
robots.txt doğrudur,
Robots.txt veya ROBOTS.TXT – yanlış;
robots.txt dosyası Unix metin formatında oluşturulmalıdır. Bu dosyayı bir web sitesine kopyalarken, ftp istemcisinin metin dosyası değişim modu için yapılandırılması gerekir;
robots.txt dosyası sitenin kök dizinine yerleştirilmelidir.

3. robots.txt dosyasının içeriği

Robots.txt dosyası iki giriş içerir: "Kullanıcı aracısı" ve "İzin Verme". Bu girişlerin adları büyük/küçük harfe duyarlı değildir.

Bazı arama motorları ek girişleri de destekler. Yani örneğin Yandex arama motoru, bir sitenin ana aynasını belirlemek için “Ana Bilgisayar” kaydını kullanır (bir sitenin ana aynası, arama motoru dizininde yer alan bir sitedir).

Her girişin kendi amacı vardır ve indekslenmesi engellenen sayfa ve/veya dizin sayısına ve iletişim kurduğunuz robot sayısına bağlı olarak birkaç kez görünebilir.

Robots.txt dosyası için beklenen satır formatı aşağıdaki gibidir:

posta adı[isteğe bağlı

boşluklar] : [isteğe bağlı

boşluklar] Anlam[isteğe bağlı boşluklar]

Bir robots.txt dosyasının geçerli sayılması için, her "Kullanıcı aracısı" girişinden sonra en az bir "İzin Verme" yönergesinin mevcut olması gerekir.

Tamamen boş bir robots.txt dosyası, robots.txt dosyasının olmamasıyla eşdeğerdir; bu, tüm sitenin dizine eklenmesine izin verildiği anlamına gelir.

Kullanıcı aracısı girişi

“Kullanıcı aracısı” girişi arama robotunun adını içermelidir. Bu girişte, her bir robot için sitenin hangi sayfalarının indeksleneceğini ve hangilerinin indekslenmeyeceğini belirtebilirsiniz.

İstisnasız tüm arama motorlarına erişilen ve “*” simgesinin kullanıldığı “Kullanıcı aracısı” girişi örneği:

Yalnızca Rambler arama motoru robotuyla iletişim kurulan bir "Kullanıcı aracısı" kaydı örneği:

Kullanıcı aracısı: StackRambler

Her arama motoru robotunun kendi adı vardır. (Adını) bulmanın iki ana yolu vardır:

birçok arama motorunun web sitelerinde, arama robotunun adının sıklıkla belirtildiği özel bir "web yöneticisi yardımı" bölümü vardır;

Web sunucusu günlüklerini görüntülerken, yani robots.txt dosyasına yapılan çağrıları görüntülerken, arama motorlarının adlarını veya bunların bir kısmını içeren birçok ad görebilirsiniz. Bu nedenle tek yapmanız gereken istediğiniz adı seçip robots.txt dosyasına girmek.

"İzin verme" girişi

"İzin Verme" kaydı, "Kullanıcı aracısı" kaydından hangi dosya ve/veya dizinlerin indekslenmesinin yasak olduğunu arama robotuna belirten talimatlar içermelidir.

“İzin Verme” kaydının çeşitli örneklerine bakalım.

Robots.txt dosyasındaki bir giriş örneği (dizin oluşturma için her şeye izin ver):

İzin verme:

Örnek (siteye giriş tamamen yasaktır. Bunun için “/” sembolü kullanılmıştır): İzin Verme: /

Örnek (“kök dizinde bulunan “page.htm” dosyası ve “dir” dizininde bulunan “page2.htm” dosyasının indekslenmesi yasaktır):

İzin verme: /page.htm

İzin verme: /dir/page2.htm

Örnek ("cgi-bin" ve "forum" dizinleri ve dolayısıyla bu dizinin tüm içeriğinin indekslenmesi yasaktır):

İzin verme: /cgi-bin/

İzin verme: /forum/

Yalnızca bir “İzin Verme” girişi kullanarak, aynı karakterlerle başlayan çok sayıda belgenin ve/veya dizinin indekslenmesini engellemek mümkündür. Bunu yapmak için, başlangıçtaki aynı karakterleri kapanış çizgisi olmadan yazmanız gerekir.

Örnek ("dir" dizininin yanı sıra "dir" harfleriyle başlayan tüm dosya ve dizinlerin indekslenmesi yasaktır, yani dosyalar: "dir.htm", "direct.htm", dizinler: "dir", "directory1" ” ", "dizin2" vb.):

"İzin ver" girişi

"İzin Ver" seçeneği, "İzin Verme" girişi tarafından belirtilen, indekslenemeyen dizinler ve sayfalardaki istisnaları belirtmek için kullanılır.

Mesela şöyle bir kayıt var:

İzin verme: /forum/

Ancak bu durumda sayfa1 sayfasının /forum/ dizininde indekslenmesi gerekmektedir. Daha sonra robots.txt dosyasında aşağıdaki satırlar gerekecektir:

İzin verme: /forum/

İzin ver: /forum/sayfa1

Site haritası girişi

Bu giriş, arama robotları tarafından kullanılan site haritasının xml formatındaki konumunu belirtir. Bu giriş, bu dosyanın yolunu belirtir.

Site haritası: http://site.ru/sitemap.xml

"Ana bilgisayar" girişi

“Ana bilgisayar” kaydı Yandex arama motoru tarafından kullanılır. Sitenin ana aynasını belirlemek gerekir, yani sitenin aynaları varsa (bir ayna sitenin kısmi veya tam bir kopyasıdır. Bazen çok ziyaret edilen sitelerin sahipleri için güvenilirliği artırmak ve kaynak kopyalarının varlığı gereklidir.) hizmetlerinin kullanılabilirliği), ardından “Ana Bilgisayar” direktifini kullanarak dizine eklenmesini istediğiniz adı seçebilirsiniz. Aksi takdirde Yandex ana aynayı kendisi seçecek ve diğer isimlerin indekslenmesi yasaklanacaktır.

Robots.txt dosyasını işlerken Host direktifini kabul etmeyen arama robotlarıyla uyumluluk için Disallow girişlerinin hemen sonrasına “Host” girişinin eklenmesi gerekmektedir.

Örnek: www.site.ru – ana ayna:

Ana bilgisayar: www.site.ru

“Tarama gecikmeli” kayıt

Bu giriş Yandex tarafından algılanmaktadır. Robotun indekslenen sayfalar arasında belirli bir süre (saniye cinsinden) ayırması için verilen bir komuttur. Bazen siteyi aşırı yüklemelerden korumak için bu gereklidir.

Bu nedenle, aşağıdaki giriş, Yandex robotunun en geç 3 saniye sonra bir sayfadan diğerine geçmesi gerektiği anlamına gelir:

Yorumlar

Robots.txt dosyasında "#" karakteriyle başlayan her satır yorum olarak kabul edilir. Yönerge satırlarının sonunda yorumlara izin verilir ancak bazı robotlar satırı doğru şekilde tanıyamayabilir.

Örnek (yorum, direktifle aynı satırdadır):

İzin verme: /cgi-bin/ #comment

Yorumun ayrı bir satıra yerleştirilmesi tavsiye edilir. Satır başında boşluk bırakılmasına izin verilir, ancak önerilmez.

4. robots.txt dosyası örnekleri

Örnek (yorum ayrı bir satırdadır):

İzin verme: /cgi-bin/#comment

Tüm robotların sitenin tamamını dizine eklemesine olanak tanıyan bir robots.txt dosyası örneği:

Ana bilgisayar: www.site.ru

Tüm robotların bir siteyi dizine eklemesini yasaklayan bir robots.txt dosyası örneği:

Ana bilgisayar: www.site.ru

Tüm robotların "abc" dizinini ve ayrıca "abc" karakterleriyle başlayan tüm dizinleri ve dosyaları dizine eklemesini yasaklayan bir robots.txt dosyası örneği.

Ana bilgisayar: www.site.ru

Sitenin kök dizininde yer alan “page.htm” sayfasının Googlebot arama robotu tarafından indekslenmesini engelleyen robots.txt dosyası örneği:

Kullanıcı aracısı: googlebot

İzin verme: /page.htm

Ana bilgisayar: www.site.ru

Dizin oluşturmayı devre dışı bırakan bir robots.txt dosyası örneği:

– “googlebot” robotuna – “dizin” dizininde bulunan “sayfa1.htm” sayfası;

– “Yandex” robotuna – “dir” simgeleriyle başlayan (/dir/, /direct/, dir.htm, Direction.htm, vb.) ve sitenin kök dizininde bulunan tüm dizinler ve sayfalar.

Kullanıcı aracısı: googlebot

İzin verme: /directory/page1.htm

Kullanıcı aracısı: Yandex

5. robots.txt dosyasıyla ilgili hatalar

En yaygın hatalardan biri ters söz dizimidir.

Yanlış:

İzin verme: Yandex

Sağ:

Kullanıcı aracısı: Yandex

Yanlış:

İzin verme: /dir/ /cgi-bin/ /forum/

Sağ:

İzin verme: /cgi-bin/

İzin verme: /forum/

404 hatasını işlerken (belge bulunamadı), web sunucusu özel bir sayfa görüntülerse ve robots.txt dosyası eksikse, robots.txt dosyasını talep ederken arama robotuna aynı dosyanın verilmesi mümkündür. Tüm indeksleme yönetiminde bir dosya olmayan özel sayfa.

Robots.txt dosyasında büyük/küçük harfin hatalı kullanımıyla ilgili hata. Örneğin, “cgi-bin” dizinini kapatmanız gerekiyorsa, “İzin Verme” girişinde dizinin adını büyük harf “cgi-bin” olarak yazamazsınız.

Yanlış:

İzin verme: /CGI-BIN/

Sağ:

İzin verme: /cgi-bin/

Bir dizini indekslemeden kapatırken eksik eğik çizgiyle ilgili hata.

Yanlış:

İzin verme: page.HTML

Sağ:

İzin verme: /page.HTML

En yaygın hataları önlemek için robots.txt dosyası Yandex.Web Yöneticisi veya Google Web Yöneticisi Araçları kullanılarak kontrol edilebilir. Kontrol, dosya indirildikten sonra gerçekleştirilir.

6. Sonuç

Dolayısıyla robots.txt dosyasının varlığı ve derlenmesi web sitesinin arama motorlarındaki tanıtımını etkileyebilir. Robots.txt dosyasının sözdizimini bilmeden, olası tanıtılan sayfaların ve tüm sitenin dizine eklenmesini engelleyebilirsiniz. Ve tersine, bu dosyanın yetkin bir şekilde derlenmesi, bir kaynağın tanıtılmasına büyük ölçüde yardımcı olabilir; örneğin, gerekli sayfaların tanıtımını engelleyen belgelerin dizine eklenmesini engelleyebilirsiniz.

Robots.txt dosyası, arama robotlarının sitenizin belirli bölümlerini ve dosyalarını dizine eklemesini önlemek veya buna izin vermek ve ayrıca ek bilgi sağlamak için kullanılabilecek bir dizi yönergedir (robotlar için bir dizi kural). Başlangıçta, robots.txt kullanarak yalnızca bölümlerin indekslenmesini yasaklamak mümkündü; indekslemeye izin verme yeteneği daha sonra ortaya çıktı ve arama liderleri Yandex ve Google tarafından tanıtıldı.

Robots.txt dosya yapısı

Öncelikle talimatların hangi arama robotuna uygulanacağını gösteren Kullanıcı aracısı direktifi yazılır.

İyi bilinen ve sık kullanılan Kullanıcı aracılarının küçük bir listesi:

Kullanıcı aracısı:*
Kullanıcı aracısı: Yandex
Kullanıcı aracısı: Googlebot
Kullanıcı aracısı: Bingbot
Kullanıcı aracısı: YandexImages
Kullanıcı aracısı: Mail.RU

Daha sonra sırasıyla bölümlerin, tek tek site sayfalarının veya dosyaların indekslenmesini yasaklayan veya buna izin veren İzin Verme ve İzin Ver direktifleri gelir. Daha sonra bu adımları bir sonraki Kullanıcı aracısı için tekrarlıyoruz. Dosyanın sonunda site haritanızın adresini belirten bir Site Haritası yönergesi bulunmaktadır.

Disallow ve Allow direktiflerini yazarken * ve $ özel karakterlerini kullanabilirsiniz. Burada * "herhangi bir karakter" anlamına gelir ve $ "satır sonu" anlamına gelir. Örneğin Disallow: /admin/*.php, admin klasöründe bulunan ve .php ile biten tüm dosyaların indekslenmesinin yasak olduğu anlamına gelir, Disallow: /admin$ /admin adresini yasaklar, ancak /admin.php'yi yasaklamaz. , veya varsa / admin/new/ .

Tüm Kullanıcı aracıları aynı yönerge kümesini kullanıyorsa, bu bilgilerin her biri için çoğaltılmasına gerek yoktur; Kullanıcı aracısı: * yeterli olacaktır. Kullanıcı aracılarından birinin bilgilerinin eklenmesinin gerekli olduğu durumlarda, bilgileri çoğaltmalı ve yenisini eklemelisiniz.

WordPress için örnek robots.txt:

*Kullanıcı aracısı için not: Yandex

robots.txt kontrol ediliyor

Arama konsolunun eski sürümü

Robots.txt dosyasının doğruluğunu kontrol etmek için şunu kullanabilirsiniz: Google'dan web yöneticisi- "Tarama" bölümüne ve ardından "Googlebot Olarak Görüntüle"ye gitmeniz ve ardından "Al ve görüntüle" düğmesini tıklamanız gerekir. Tarama sonucunda sitenin kullanıcılar tarafından nasıl görüntülendiğini ve arama robotlarının siteyi nasıl gördüğünü gösteren iki adet ekran görüntüsü sunulacaktır. Aşağıda, indeksleme yasağı sitenizin arama robotları tarafından doğru okunmasını engelleyen dosyaların bir listesini göreceksiniz (bunların Google robotu tarafından indekslenmesine izin verilmesi gerekecektir).

Genellikle bunlar çeşitli stil sayfası dosyaları (css), javascript ve resimler olabilir. Bu dosyaların dizine eklenmesine izin verdikten sonra Web Yöneticisi'ndeki her iki ekran görüntüsü de aynı olmalıdır. Bunun istisnası, Yandex.Metrica komut dosyası, sosyal ağ düğmeleri vb. gibi uzaktan konumlandırılan dosyalardır. Bunları indeksleme için engelleyemez/izin veremezsiniz. “Googlebot sitedeki CSS ve JS dosyalarına erişemiyor” hatasının nasıl çözüleceği hakkında daha fazla bilgi için blogumuzu okuyun.

Arama konsolunun yeni sürümü

Yeni sürümde robots.txt'yi kontrol etmek için ayrı bir menü öğesi bulunmuyor. Artık istediğiniz ülkenin adresini arama çubuğuna yapıştırmanız yeterli.

Bir sonraki pencerede "Taranan sayfayı incele"yi tıklayın.

Görünen pencerede, şu veya bu nedenle Google robotunun erişemediği kaynakları görebilirsiniz. Bu spesifik örnekte robots.txt dosyası tarafından engellenen herhangi bir kaynak yoktur.

Bu tür kaynaklar varsa aşağıdaki gibi mesajlar göreceksiniz:

Her sitenin benzersiz bir robots.txt dosyası vardır, ancak aşağıdaki listede bazı ortak özellikler tanımlanabilir:

Yetkilendirmeyi, kaydı, şifreyi hatırlamayı ve diğer teknik sayfaların indekslenmesini engelleyin.
Kaynağın yönetim paneli.
Sayfaları, sitede bilgi görüntülemek için kullanılan sayfaları sıralama.
Çevrimiçi mağazalar, sepet sayfaları, favoriler için. Yandex blogundaki indeksleme ayarlarıyla ilgili çevrimiçi mağazalara yönelik tavsiyelerde daha fazlasını okuyabilirsiniz.
Arama sayfası.

Bu, arama motoru robotları tarafından nelerin indekslenmesinin engellenebileceğinin yaklaşık bir listesidir. Her vaka ayrı ayrı incelenmelidir; bazı durumlarda kuralların istisnaları olabilir.

Çözüm

Robots.txt dosyası, site ile arama motoru robotu arasındaki ilişkiyi düzenlemek için önemli bir araçtır; kurulumu için zaman harcamak önemlidir.

Makale, Yandex ve Google robotları hakkında büyük miktarda bilgi içeriyor ancak bu, yalnızca onlar için bir dosya oluşturmanız gerektiği anlamına gelmiyor. Başka robotlar da var - Bing, Mail.ru vb. Robots.txt'yi onlara yönelik talimatlarla tamamlayabilirsiniz.

Birçok modern cms otomatik olarak robots.txt dosyası oluşturur ve bunlar güncel olmayan yönergeler içerebilir. Bu nedenle bu yazıyı okuduktan sonra web sitenizdeki robots.txt dosyasını kontrol etmenizi, eğer orada mevcutsa silmenizi tavsiye ederim. Bunu nasıl yapacağınızı bilmiyorsanız lütfen iletişime geçin