ROBOTS.TXT FAJL – uputstvo za botove

Robots.txt je tekstualni fajl koji se nalazi u root-u (korenu) domena i to je prvi dokument kome bot pristupa kada poseti web lokaciju. Zato je ovaj fajl i jedan od prvih stavki prilikom optimizacije sajta (search engine optimization).

Može se ispisati u običnom Notepad-u. On  definiše koje delove domena web crawler može da popiše, a koje ne. Ovaj fajl takođe može da sadrži vezu do XML-mape sajta. Pomoću robots.txt, pojedinačne datoteke u direktorijumu, kompletni direktorijumi, poddirektorijumi ili celi domeni mogu biti isključeni iz popisivanja od strane botova. Botovi najvećih pretraživača kao što su Google i Bing prate uputstva koja su im data preko ovog fajla. Ipak, nema garancije da će se svaki bot pridržavati zahteva datih u robots.txt.

Robots.txt fajl – bezbednost?

Neki roboti ih jednostavno mogu ignorisati, kao što su malware ili spam botovi. Pošto je ovaj fajl lako videti, važno je istaći da ga ne bi trebalo koristiti za sakrivanje važnih podataka.

Šta vidimo u robots.txt fajlu?

Ovaj ćemo fajl otvoriti kada u pretragu unesemo www.domen.com/robots.txt. Obično ćemo zateći sledeću situaciju:

User-agent: *

Disallow:

Sitemap: https://domen.com/sitemap_index.xml

Na ovaj nači smo, u prvom redu smo saopštili da se obraćamo svim robotima (* je univerzalni parametar). U drugom redu kažemo da je robotima, kada već pristupe, omogućeno popisivanje svih elemenata lokacije. Odnosno, pošto iza “Disallow:” nema ništa, znači ne zabranjujemo pristup ničemu.

U trećem redu vidimo mapu sajta koja se obično tu nalazi.

 User-agent: Googlebot

Disallow: /

U ovom slučaju, kažemo da se obraćamo Google botovima. Zatim, u drugom redu, kažemo da upravo tim botovima zabranjujemo pristup svim elementima lokacije (/). Drugim rečima, ne želimo da Google bilo šta indeksira.

Ako želimo svim botovima da zabranimo indeksiranje sve na sajtu, imaćemo sledeću situaciju:

User-agent: *

Disallow: /

Ipak, trebalo bi da imamo na umu da neće svi roboti poštovati tzv. Robots Exclusion Protocol (obično spam i malwere botovi).

User-agent: Yahoo!Slurp

Disallow: /a-folder

U ovom slučaju ne želimo da Yahoo!-ov robot koji se naziva Slurp indeksira a-folder.

 User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

U ovom slučaju želimo da Google roboti indeksiraju sve, a svim ostalim robotima je zabranjeno indeksiranje.

 User-agent: *

Disallow: /tmp/

Disallow: /junk/

U ovom slučaju ne dozvoljava se pristup robotima, ali samo za određene direktorijume.

Značaj robots.txt fajla

Ovaj fajl je jedan od načina da se kontrolišu botovi, pa stoga je veoma bitan. Ukoliko ne želimo da se neke stranice nađu u rezultatima pretrage, za šta postoji više razloga, možemo koristiti upravo ovaj fajl. U procesu izrade sajta i testiranja, kao i u cilju sprečavanja dupliranja sadržaja i rasipanja link juice-a, ovaj je fajl veoma koristan.

Ovaj fajl služi da bi se zabranio pristup botovima ni nivou sajta, odnosno kako bi se obuhvatile sve stranice sa zajedničkim karakteristikama.

Robots meta oznake

Pored robots.txt fajla, postoje i robots meta oznake koje se upisuju u head sekciju HTML koda. Ove oznake služe za zabranu indeksiranja pojedinačnih stranica, ali, za razliku od robots.txt fajla, gde je robotima zabranjen pristup stranicama određenog tipa, botovima je omogućeno da „vide“ stranicu i detektuju da se ne želi indeksirati. Korišćenje ovih oznaka je sigurnija u smislu poštovanja poravila od strane botova.

Uputstvo za robote: indeksiraj i prati linkove

<meta name=”robots” content=”index, follow”>

Uputstvo za robote : ne indeksiraj, ali prati linkove

<meta name=”robots” content=”noindex, follow”>

Uputstvo za robote : indeksiraj, ali nemoj pratiti linkove

<meta name=”robots” content=”index, nofollow”>

Uputstvo za robote : ne indeksiraj i ne prati linkove

<meta name=”robots” content=”noindex, nofollow”>