Ce este fișierul robots.txt și cum pot restricționa accesul la anumite secțiuni din website?: Mură-n Gură

Ce este fișierul robots.txt și cum pot restricționa accesul la anumite secțiuni din website?

Ce este fișierul robots.txt și cum pot restricționa accesul la anumite secțiuni din website?

Robots.txt: Un fișier text care conține instrucțiuni pentru motoarele de căutare și alți roboți software care încearcă să descarce sau să indexeze site-ul tău. În acest fișier poți transmite instrucțiuni către crawlerele motoarelor de căutare în legătură cu ce pagini dorești să NU indexeze.

Este obligatoriu să am fișier robots.txt?

Nu, fișierul robots.txt este opțional și este util dacă chiar dorești să previi indexarea anumitor pagini sau secțiuni ale site-ului tău. Majoritatea webmasterilor doresc indexarea întregului website public și nu își fac griji cu robots.txt.

Roboții respectabili (Google, Bing, etc.) caută acest fișier, dar dacă nu îl găsesc, își văd de treabă. Dacă nu ești sigur despre sintaxa acestui fișier și de instrucțiunile pe care le pui în el, mai bine caută pe cineva experimentat sau nu include nimic în el, decât să faci greșeli și fără să vrei să împiedici indexarea site-ului.

Cu ce program creez fișierul robots.txt?

Datorită faptului că este doar un fișier text, fără formatare sau alte taguri speciale, poți edita fișierul robots.txt chiar în notepad sau în orice program capabil să salveze fișiere simple cu extensia .txt. Preferatul meu este Notepad++ dar și Notepad din Windows e ok.

Unde trebuie să încarc fișierul robots.txt?

Fișierul trebuie salvat cu numele exact: robots.txt și se încarcă în rădăcina site-ului, în directorul cel mai de sus. 

De exemplu, dacă adresa/domeniul site-ului tău este www.siteulmeu.ro, atunci fișierul robots.txt trebuie să fie accesibil la adresa:

http://www.siteulmeu.ro/robots.txt

Ca să fii sigur, după ce îl încarci (prin intermediul unui program FTP sau prin control panelul site-ului), este bine să încerci să încarci adresa respectivă în browser și să vezi dacă apare fișierul încărcat. Dacă vezi conținutul fișierului în browser, l-ai încărcat corect.

Mai poți testa fișierul robots.txt folosind instrumentul de testare „robots.txt Tester” oferit de Google care îți spune dacă fișierul tău blochează anumiți roboți de la zone specifice din site-ul tău.

Ce instrucțiuni pot să includ în fișierul robots.txt? 

Ca o regulă generală, dacă în robots.txt nu interzici explicit unele pagini sau foldere, tot site-ul va fi indexat.

Dacă introduci în acest fișier reguli de genul: 

User-agent: *
​Disallow: /folder-secret/

Aceasta transmite următoarele: 

Pentru orice roboțel (*) 

Nu ai voie să indexezi nimic din folderul ‘folder-secret’, ceea ce înseamnă că nici una din următoarele nu vor fi indexate:

  • www.siteulmeu.ro/folder-secret/imagine.jpg
  • www.siteulmeu.ro/folder-secret/pagina-web.html
  • www.siteulmeu.ro/folder-secret/orice-altceva.html

Dacă dorești să te adresezi doar robotului lui Google, poți să scrii: 

User-agent: Google
​Disallow: /folder-secret/

În acest caz, regula spune că doar crawlerul lui Google nu are voie să indexeze nimic din /folder-secret/

Este important de notat că: 

  • Nu toți roboții respectă instrucțiunile din fișierul robots.txt – există programe ale persoanelor malițioase care ignoră fișierul acesta și tot indexează sau descarcă fișierele și paginile din folderul interzis. 
  • Fișierul robots.txt nu este o măsură de securitate. Este doar un „sfat” pentru roboții „cuminți”. Conținutul (paginile, fișierele) aflate în folderul interzis tot mai pot fi accesate, chiar dacă în robots.txt ai spus că nu vrei să fie indexate. Roboții companiilor serioase respectă instrucțiunile, dar dacă dorești să protejezi cu adevărat fișierele sau paginile încât ele să nu poată fi accesate, trebuie să implementezi alt fel de securitate (pagini protejate cu parole, sau să pui fișierele în afara spațiului web, într-o zonă protejată). Nu toți roboții joacă după reguli.
Cristi Coțovan

Cristi lucrează de peste 15 ani în domeniul web design, dezvoltare, e-commerce și marketing. A construit două platforme CMS de la zero și este pasionat de comerț electronic, automatizări și muzică și artă și altele. Are 15 idei pe secundă și parcă le-ar începe pe toate până la sfârșitul zilei. Uneori vorbește despre el însuși la persoana a treia.

Categories