Pretraživač (pregledač ili web browser) je zapravo program koji ima funkciju interpretatora (tumač, prevodilac). On prima i izvršava  naredbe koje se zadaju u drugim programima napisanim u interpretatorskim jezicima. Time se postiže lako pretraživanje web stranica od strane korisnika.

Početkom 90-tih godina jedan od ljudi zaposlenih u CERN-u razvio je pretraživač namenjen za čitanje samo tekstualnih sadržaja.  Od tog trenutka kreće prava borba za prevlast kompanija u ovoj oblasti. Cilj je bio razviti što kvalitetniji pretraživač i lakši za korišćenje. Razvili su se i grafički pretraživači koji sem tekstualnih nude i multimedijalne sadržaje.

Danas je u ponudi veliki broj pretraživača. Neki su posebno namenjeni samo određenim operativnim sistemima.

Najzastupljeniji pretraživač trenutno je Google Chrome, posebno kada govorimo o Evropi. On je u vlasništvu kompanije Google, a izrađen na softveru otvorenog koda WebKit. Nudi korisnicima razne besplatne usluge, kao što su prevođenje, otvaranje email adrese, aktiviranje Google analitike, alatke različitih funkcionalnosti i puno toga još.

Pored Google Chrome, tu su Firefox, Opera, Internet Explorer  koji se sve manje koristi. Safari  je namenjen uređajima Apple kompanije, ali od 2007. godine postoji i verzija za korišćenje na Windows operativnom sistemu.

Kako radi pretraživač?

Kako bi pretraživač ispunio svoj zadatak na odgovarajući način, on vrši neke bitne funkcije:

  1. Popisivanje (crawling) je sistematsko pretraživanje interneta u cilju praćenja veza i otkrivanja stranica na web-u, a od strane tzv. web crawler-a, botova, robota ili spider-a
  2. Indeksiranje (indexing) je smeštanje stranica u indeks pretraživača, odnosno čuvanje istih u bazi podataka na način koji omogućava kasnije efikasno preuzimanje
  3. Rangiranje (ranking) je proces u toku kog pretraživač određuje šta je za web stranice relevantan sadržaj i rangira stranice prema tome za određene upite

Šta je crawler ili google bot (crawlering – puzanje)?

Web crawler, web spider ili bot je zapravo internet robot koji ima funkciju pretraživanja interneta u cilju indeksiranja web stranica. On skenira stranice koje poseti kako bi pronašao linkove, prati te linkove, skenira njihove sadržaje, numeriše svaku stranicu i beleži podatke kako bi se međusobno lakše razlikovale. Kasnije ih drugi spider program obradi i indeksira, odnosno smesti tamo gde pripadaju prema relevantnosti sadržaja koje nude.

Crawler kreće u potragu za web lokacijama koje se nazivaju semena. Prilikom posete on prepoznaje hiperveze na tim lokacijama i stavlja ih na listu web lokacija koje će da poseti. Usled ogromnog broja web lokacija, crawler može posetiti samo određeni broj u određenom vremenskom periodu, odnosno broj poseta nije neograničen, a posećivanje iziskuje određene troškove. U tom smislu je veoma bitan prioritet posećivanja stranica, pri čemu je cilj da se servira kvalitetan, relevantan i svež sadržaj.

Načini kontrolisanja Google botova

Pošto znamo da kretanje bota nije neograničeno, ali u nekim situacijama nije ni poželjno da skenira sve URL-ove, nad tim procesom bi trebalo uspostaviti određenu kontrolu. Postoji više načina kojima saopštavamo botu da zaobiđe određene URL-ove, da se umesto ciljanih URL-ova otvore druge lokacije i da umanjimo značaj jednih ukazujući na značaj drugih lokacija. Tim postupcima sprečavamo neracionalno rasipanje link juice-a, dupliranje sadržaja, prikazivanje sadržaja koje trenutno trajno ne želimo da se prikažu i prikazivanje 404 greške koja ukazuje na to da stranica više ne postoji. Načini za kontrolisanje Google botova su sledeći:

  • CANONICAL OZNAKA
  • INDEX I NOINDEX OZNAKA
  • FOLLOW I NOFOLLOW OZNAKA
  • REDIREKCIJE

Kako će se crawler ponašati u tom smislu diktiraju mu sledeće četiri politike:

  1. politika izbora – definiše koje se stranice preuzimaju
  2. politika ponovne posete –  definiše kada je potrebno obaviti proveru da li se na stranici desila promena
  3. politika “pristojnosti” – definiše načine kako izbeći preopterećenje sajtova
  4. politika paralelizacije – definiše kako upravljati poslatim crawler-ima u cilju sprečavanja višestrukog preuzimanja iste stranice

Šta je indeksiranje (indexing) i rangiranje (ranking)?

Postavlja se pitanje kako pretraživač zna šta da nam servira i koji su sadržaji najrelevantniji za zadate upite? Tokom dugog niza godina razvijani su sistemi za razvrstavanje sadržaja koji su u sve većoj meri isključivali čoveka, a uključivali računarski program. Pojavom baza podataka sa povećavanjem i usložnjavanjem istih, dolazi i do rada na unapređivanju tih baza u cilju ubrzavanja prikaza traženih podataka. U tom smislu, indeksiranje stranica predstavlja proces pregleda stranica i svrstavanja istih u određene kataloge kako bi se do njih po potrebi lakše i brže dolazilo. Program pregleda stranicu, utvrđuje šta se na toj stranici nalazi, određuje format stranice i druge potrebne podatke.

Ovde se zapravo radi o prepoznavanju sadržaja koji se nalazi na web stranici od strane web pretraživača. Nakon prepoznavanja dolazi do indeksiranja, odnosno svrstavanja u određene kataloge, tj. Google index. Kada toga ne bi bilo, podaci bi morali da se traže u ogromnom moru stranica, što bi iziskivalo mnogo vremena i troškova. Google zato sebi indeksiranjem predefiniše koja stranica pripada kom entitetu, niši ili klasteru i mnogo je efikasnije isporučuje prilikom upita. To nam govori i koliko je relevantnost i jasnoća sadržaja bitna kako bi Google tačno razumeo u koju “fioku” da ubaci koju stranicu. Takođe nam govori i da je dupliranje sadržaja, kao i drugi načini trošenja vremena i ostalih Google-ovih resursa koji su ipak ograničeni, nepoželjno ponašanje i da Google teži da ga kazni. Te kazne mogu biti različite, a obično se tiču izbacivanja iz indeksa, odnosno potpune nevidljivosti na internetu ili lošeg pozicioniranja.

Kada robot obavi skeniranje, obavlja se definisanje glavnog indeksa koji je baza odakle se dolazi do konkretnog indeksa. Sve ovo doprinosi velikoj brzini i efikasnosti pretraživača, kada je reč o serviranju sadržaja nakon unošenja tzv. ključnih reči u pretragu.

Indeksiranje u velikoj meri zavisi od linkova, odnosno od onih linkova koji idu sa stranice (izlazni) i onih koji upućuju na stranicu (ulazni). Zato se nikada precizno ne može odrediti koliko je vremena potrebno da neka stranica bude vidljiva prilikom pretrage.