Unul dintre principalele obiective ale strategiilor de pozitionare este acela de a se asigura ca motoarele de cautare pot accesa cu crawlere si indexeaza corect continutul. Pentru a face acest lucru, exista diferite moduri de a comunica cu Google Bots, Crawlere, sau paianjeni care urmaresc si ajuta la indexarea continutului nostru pentru a-l pozitiona in motoarele de cautare. Aici intervine robots.txt.
Cuvintele cheie, etichetele si tehnicile SEO joaca un rol important, deoarece ii ajuta pe paianjeni sa gaseasca si sa acceseze cu crawlere paginile noastre pentru a le indexa in primele pozitii ale motoarelor de cautare. In plus, sitemap.xml ofera un ghid sau index pentru a gasi paginile care pot fi accesate cu crawlere. Acest ultim fisier poate fi completat cu un robots.txt, cunoscut si sub numele de protocol de excludere a robotilor. Datorita acestui raport, putem informa paianjenii Google despre paginile pe care suntem interesati sa le indexam si cele care nu sunt.
In continuare, vom arata cum putem dezindexa paginile cu robots.txt si cum putem indexa automat paginile cu Google Search Control. In acest fel, in motoarele de cautare vor aparea doar acele pagini care chiar nu vrei sa apara.
Fisierul Robots.txt
Inainte de a incepe accesarea cu crawlere a site-ului nostru web, paianjenii motoarelor de cautare parcurg fisierul robots.txt. In acest fisier, botii gasesc ordine de executie care ne vor permite sa:
- Interziceti accesul la anumite pagini sau directoare pentru a evita indexarea.
- Nu permiteti ca anumite parti ale codului site-ului nostru web sa fie indexate.
- Evitati indexarea continutului duplicat cauzata de parametri sau paginare, de exemplu.
- Afisati harta site-ului XML pentru a facilita accesarea cu crawlere pe web.
Tipuri de fisiere pe care le putem exclude cu robots.txt
Inainte de a deindexa orice pagina, este important sa intelegem cum functioneaza robots.txt, astfel incat sa excludem paginile corecte si nu continutul important. Tipurile de fisiere pe care le putem exclude de la indexare sunt urmatoarele.
- Pagini web: excluderea paginilor web ne poate ajuta sa impiedicam crawler-ul sa afiseze pagini sau continut care nu este foarte relevant pentru public, daunandu-ne pozitionarii SEO.
- Imagini: putem impiedica aparitia fisierelor imagine in rezultatele cautarii. Poate fi folosit pentru a preveni indexarea imaginilor stoc.
- Alte resurse: De asemenea, putem bloca fisiere precum scripturi sau elemente de mica importanta pentru utilizatori.
Creati un fisier Robots.txt
Generarea unui fisier Robots.txt este relativ usoara. Acesta este pur si simplu un document .txt in care scriem anumite comenzi cu un limbaj pe care il vom detalia acum. Odata creat, il vom incarca la radacina domeniului. (www.mydomain.es/robots.txt)
Sintaxa Robots.txt
Inainte de a incepe sa detaliem principalele comenzi ale fisierului Robots.txt, trebuie sa stim ca scrierea corecta a acestora este foarte importanta. Adica trebuie sa respectam spatiile, literele mari sau mici si sa introducem doar comenzile permise.
Principalele comenzi sunt:
- User-agent: cu aceasta comanda indicam ce robot fortam sa efectueze anumite actiuni. Nu numai ca putem gasi GoogleBot (Google crawler), exista si cel al Bing, Yahoo si un repertoriu mare al acestora. Exista, de asemenea, boti rau intentionati (malware) care acceseaza cu crawlere web-ul nostru pentru a fura informatii sau in alte scopuri intunecate.
- Disallow: Nu permite robotilor sa acceseze o anumita parte a site-ului nostru
- Permite: opusul comenzii Disallow. Va oferim acces complet la roboti.
- Harta site-ului: prin introducerea URL-ului sitemapului nostru vom facilita urmarirea intregului nostru site web.
- Crawl-delay: este pentru a stipula cate secunde trebuie sa astepte botul pentru a sari la alta pagina.
- (Asterisc): asteriscul are aceeasi valoare ca o secventa completa de caractere. De exemplu, toate directoarele care incep cu „pagina” ar fi „/page*/ (pentru a evita continutul duplicat cu paginare)
Exemplu de fisier Robots.txt
Vom detalia un exemplu de fisier robots.txt simplu pentru a intelege cum functioneaza.
Dupa cum putem vedea in prima linie, indicam ca functiile fisierelor sunt valabile pentru toti robotii.
In randurile a doua si a treia, va refuzam accesul la cele mai private parti ale WordPress. Clarificati ca acest fisier Robots.txt este de la WordPress, fiecare site are propriile nevoi si din acest motiv nu exista un fisier Robots.txt universal.
In a patra linie, va interzicem accesul la paginile web. Si in sfarsit, in a cincea linie indicam harta site-ului.
Incarcati fisierul Robots.txt
Odata realizate definitiile anterioare, trebuie parcursi urmatorii pasi:
- Salvati codul ca fisier text (.txt) cu numele „roboti”.
- Plasati-l in directorul de nivel superior al site-ului (http://www.example.com/robots.txt)
Odata finalizati acesti pasi, putem verifica daca totul este in ordine in testerul Google robots.txt.
Trebuie sa tinem cont, insa, de faptul ca unii roboti nu respecta fisierul si, prin urmare, oricum indexeaza continutul. Din acest motiv, este important ca, daca avem informatii sensibile care nu trebuie aratate publicului, sa le protejam intotdeauna cu metode suplimentare. Un exemplu ar fi parolele.
















