Come personalizzare il file robots.txt nei diti della piattaforma Blogger per impedire la scansione di dati post o pagine o delle immagini
Il file robots.txt è un file che deve risiedere nella radice di archiviazione del dominio; tanto per fare un esempio se un sito ha indirizzo esempio.com allora il file robots.txt deve avere come URL esempio.com/robots.txt. Si tratta di un file di semplice testo proposto nel lontano 1994 che velocemente è diventato uno standard per tutti i motori di ricerca.
Attraverso il file robots.txt gli amministratori del sito danno delle istruzioni ai crawler che scansionano le pagine del dominio. Si possono inserire delle istruzioni per fare in modo che i motori ignorino specifici file, directory o determinati URL. La sintassi dei file robots.txt è standard e, nel caso in cui in un sito non esistesse tale file, i motori lo scansioneranno integralmente senza eccezioni.
I motori che seguono lo standard del file robots.txt sono Ask, AOL, Baidu, DuckDuckGo, Google, Yahoo! e Yandex mentre Bing è solo parzialmente compatibile. Il file robots.txt è strutturato in modo da indicare il nome del crawler e quello delle pagine di cui è permessa o negata la scansione. I comandi sono essenzialmente tre: User-agent, Allow e Disallow. Con il primo si indica il nome del crawler, con il secondo le pagine di cui è permessa la scansione e con il terzo le pagine di cui è vietata la scansione.
Per indicare tutti i crawler si usa il simbolo dell'asterisco ( * ) mentre per indicare tutte le pagine di un dominio si usa il simbolo della slash ( / ). Facciamo un paio di esempi. Un file robots.txt che contiene questo testo
User-agent: *
Allow: /
Allow: /
indica che è permesso di scansionare tutto il sito a tutti i motori. Invece questo file robots.txt
User-agent: *
Disallow: /
Disallow: /
indica a tutti i crawler di non indicizzare niente del sito. Per avere informazioni più complete su come creare e personalizzare il file robots.txt si può consultare questa pagina di istruzioni di Google.
FILE ROBOTS.TXT DI BLOGGER
Tutti i domini dei siti su piattaforma Blogger, del tipo gratuito nomeblog.blogspot.com e con dominio personalizzato, hanno automaticamente il file robots.txt nella radice di archiviazione ovvero un blog con dominio mioblog.blogspot.com avrà il robots.txt nell'URL mioblog.blogspot.com/robots.txt.
Il robots.txt di Blogger ha questa struttura generica
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://nomeblog.blogspot.com/sitemap.xml
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://nomeblog.blogspot.com/sitemap.xml
dove l'ultima riga è quella della Sitemap, che ovviamente varia in funzione del dominio del sito. Le prime due righe permettono ai partner pubblicitari di Google di scansionare tutto il sito. Le righe che vanno dalla terza alla quinta permettono a tutti i crawler di scansionare tutto il sito, con l'eccezione degli URL con /search ovvero delle pagine delle etichette, che Blogger ha deciso di non far scansionare per evitare ridondanze con gli URL dei post.
Chi avesse un sito con delle esigenze particolari può però personalizzare questo file robots.txt dalla Bacheca. Si va su Impostazioni -> Preferenze di ricerca -> Crawler e indicizzazione -> File Robots.txt personalizzato per poi cliccare su Modifica accanto a Disattivato. Si mette la spunta sul Sì per personalizzare il file.
PERSONALIZZAZIONI FILE ROBOTS.TXT
1) Bloccare URL di un post o di una pagina per impedirne la scansione - Si digitano queste righe
Disallow: /2019/10/titolo-post1.html
Disallow: /p/nome-pagina1.html
Disallow: /p/nome-pagina1.html
per poi andare su Salva Modifiche. IMPORTANTE: Le righe dovranno essere aggiunte a quelle già presenti nel file originale. Nell'esempio di test si deve quindi incollare questo testo completo.
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Disallow: /2019/10/titolo-post1.html
Disallow: /p/nome-pagina1.html
Sitemap: https://nomeblog.blogspot.com/sitemap.xml
Disallow:
User-agent: *
Disallow: /search
Allow: /
Disallow: /2019/10/titolo-post1.html
Disallow: /p/nome-pagina1.html
Sitemap: https://nomeblog.blogspot.com/sitemap.xml
In sostanza si devono aggiungere le righe a quelle preesistenti.
2) Bloccare l'indicizzazione delle immagini - Al testo iniziale del file occorre aggiungere queste righe:
User-agent: Googlebot-Image
Disallow: /
Disallow: /
per avere un risultato finale come il seguente:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
User-agent: Googlebot-Image
Disallow: /
Sitemap: https://nomeblog.blogspot.com/sitemap.xml
Disallow:
User-agent: *
Disallow: /search
Allow: /
User-agent: Googlebot-Image
Disallow: /
Sitemap: https://nomeblog.blogspot.com/sitemap.xml
Dopo una modifica aprite il file robots.txt incollandone l'URL nel browser per controllare che sia giusto.
PERSONALIZZARE I TAG DI INTESTAZIONE DEL ROBOT
Si può usare anche un altro sistema per personalizzare il robots.txt. Si va sempre su Impostazioni -> Preferenze di ricerca ma stavolta si sceglie Tag di intestazione robot personalizzati -> Modifica.
Dopo aver messo la spunta al Sì, visualizzeremo delle opzioni su cui agire. Potremo applicare i tag del file robots.txt separatamente alla Homepage, alle Pagine di Archivio e Ricerca e alle Impostazioni Predefinite per Post e Pagine. Le istruzioni per usare questi tag si possono trovare in questa pagina.
Utilizzare questi tag non modifica il file robots.txt ma presumibilmente vengono aggiunte delle righe di codice all'HTML delle pagine. Visto che non è molto chiaro il loro utilizzo consiglio di usarli con prudenza.
Saluti, Ernesto. Spesso faccio tesoro dei Suoi consigli, metto in pratica codici e suggerimenti per il mio blog-giornale. Complimenti per il Suo lavoro, scrupoloso e dettagliato al massimo. Domanda su robots. Ho inserito queste linee robots sul mio "blogspot":
RispondiEliminaUser-agent: *
Disallow:
Sitemap: https://cinquewnews.blogspot.com/sitemap.xml
Come vede, sono diverse da quelle basi, le standard. Quale la soluzione migliore dal punto di vista delle visite al sito? Logicamente, per ottenerne un aumento. La ringrazio. Giuseppe
Di diverso c'è che vengono indicizzate anche le pagine delle etichette visto che manca il Disallow: /search
EliminaNon so se questo porterà a dei benefici. In linea di massima il traffico è generato dai post e non dalle etichette. Però non posso in tutta onestà se questo porterà benefici o danni, visto che Google potrebbe interpretare le pagine di etichette come doppioni di quelle dei post
@#
Anche perché nella indicizzazione Google inserirà prima tutte le etichette. La ringrazio, Ernesto. Come sempre. Giuseppe. Conviene ripristinare l'originale.
Elimina👍
EliminaCiao Ernesto, per far risultare gli articoli del mio blog su google dv attivare questa impostazione?
RispondiEliminaNo. È già attiva di default. Puoi vedere il tuo file a questo indirizzo generico
Eliminamioblog.blogspot.com/robots.txt
Ti consiglio di non personalizzare il file se non hai ragioni importanti per farlo come per esempio non fare indicizzare alcuni post per delle ragioni di privacy o di copyright
@#
Ok grazie mille. Per la seguente impostazione : User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap:
RispondiEliminaDeve essere abilitata giusto ?
La impostazione di default del file robots.txt è questa
RispondiEliminaUser-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: .../sitemap.xml
La devi attivare solo se vuoi modificare il file robots.txt altrimenti lo è già
@#
Ok, ho spento questa impostazione. Ma come mai i miei articoli non compaiono su Google?
RispondiEliminaCosa vuol dire - ho spento questa impostazione -? Non capisco. Devi lasciare tutto come è. Gli articoli compariranno su Google dopo che saranno indicizzati e finiranno nelle SERP. Devi accedere a Search Console qui
Eliminahttps://search.google.com/search-console
e controllare che il tuo sito sia stato aggiunto, che la sitemap sia stata inviata e che gli articoli siano stati indicizzati. Se così non fosse li puoi far indicizzare anche manualmente
https://www.ideepercomputeredinternet.com/2019/05/indicizzazione-google-search-console.html
@#
Ho fatto sul blog impostazioni, poi su
RispondiElimina-> Crawler e indicizzazione
Abilita file robots.txt personalizzato ho tolto la spunta verde. Ho sbagliato?
No. Hai fatto bene
Elimina@#
Salve ho un blog da qualche anno artemassaggi.blogspot.com, ma ultimamente anche se sto pubblicando video su youtube.com e instagram.com le visite stanno diminuendo e l'indicizzazione di google sembra assente, non capisco come mai ed avrei bisogno di aiuto, puoi aiutarmi ? Grazie della risposta e buona serata
RispondiEliminaIl problema della mancanza di traffico è comune a tutti. Adesso vengono privilegiati i contenuti che rimandano a Youtube o ad altre sorgenti. Nel tuo caso comunque una cosa che si vede è la mancanza di contenuti. Nei post il testo è molto poco ed è quello che viene indicizzato. Contano anche le immagini ma il testo conta di più e la maggior parte del testo è solo una autopromozione. Prova a scrivere articoli più lunghi e con argomenti meglio identificabili. Invece i titoli dei post sono buoni.
Elimina@#