Come modificare e testare il file robots.txt dalla searc Console di Google per bloccare la scansione di specifici URL.
Ricordo che il file robots.txt è quello che determina le regole per la scansione delle pagine e degli elementi del sito dai vari crawler. Gli utenti di Blogger possono personalizzare il file robots.txt dalla Bacheca. Tale operazione è consigliabile solo a chi sia particolarmente esperto visto che può portare al blocco della indicizzazione di pagine o di altri contenuti del sito.
Tutti i siti che utilizzano la piattaforma Blogger possono visualizzare il loro file robots.txt direttamente online incollando alla fine dell'URL della Homepage la stringa /robots.txt. Per questo blog bisogna quindi aprire nel browser questo indirizzo
http://www.ideepercomputeredinternet.com/robots.txt
Per la sua modifica invece si può andare su Impostazioni > Preferenze di ricerca > Crawler e indicizzazione > File robots.txt personalizzato > Modifica
Nel modulo possiamo inserire fino a 10.000 caratteri e andare su Salva modifiche. Tutti i blog di Blogger hanno la stessa tipologia di file robots.txt che è la seguente
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://www.ideepercomputeredinternet.com/sitemap.xml
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://www.ideepercomputeredinternet.com/sitemap.xml
dove solo l'ultima riga è diversa da sito a sito ed è la nuova sitemap di Blogger in formato XML. Le modifiche che potevamo fare dalla Bacheca adesso è possibile farle anche da Search Console ex Strumenti per Webmaster. I blog che si creano con Blogger vengono aggiunti automaticamente come di nostra proprietà nella Search Console. Si seleziona quello che ci interessa quindi si va su Scansione > Tester dei file robots.txt che aprirà una finestra come questa
Oltre alla struttura solita del file robots.txt c'è il link Consulta il robots.txt sul sito che apre la pagina che abbiamo visto all'inizio del post. In basso ci sono il numero di Errori e di Avvisi relativi al file robots.txt nel caso si siano commessi errori o se siano stati rilevati dei problemi.
PERSONALIZZAZIONI DEL FILE ROBOTS.TXT
Per modificare il file robots.txt dalla Search Console si agisce sul codice. Ecco 2 esempi:
1) Bloccare URL per impedirne la scannerizzazione - Si incollano queste righe
Disallow: /2015/06/titolo-post1.html
Disallow: /p/nome-pagina1.html
per non far indicizzare il post e la pagina che hanno come parte finale l'URL dopo Disallow.
Dopo le modifiche si va su Invia. Si aprirà questa finestra popup in cui eseguire precauzionalmente tutte e tre le operazioni
Verremo informati che l'operazione è riuscita e di ricaricare la pagina di tester dopo un minuto. In realtà un minuto è decisamente troppo poco affinché le modifiche vengano digerite da Google.
2) Bloccare l'indicizzazione delle immagini - Si incollano queste due righe:
User-agent: Googlebot-Image
Disallow: /
Dopo un certo periodo le modifiche saranno recepite. Controllare sempre che non appaiano degli errori o degli avvisi per eventualmente rimettere il file robots.txt presente di default su Blogger.
COME TESTARE SE UN POST O UNA PAGINA È BLOCCATA
Si incolla l'ultima parte dell'URL nel campo in fondo alla pagina quindi si va su Testa
Verrà evidenziata la riga del file che ne consente o che ne blocca l'indicizzazione.
Ciao Ernesto,
RispondiEliminasono di nuovo qui perché sono stato accettato in Google News e mi sto esaurendo con il file robots.txt.
Avrei una domanda: nell'immagine da te postata (1. Scarica ... 2.... 3 Invia), sei sicuro che quei passaggi non debbano essere fatti tutti e tre e che si possa arrivare direttamente a Invia dopo aver modificato il file robots nell'apposito form?
Nel caso in cui non dovesse funzionare, ma spero vada tutto bene, si può comunque procedere tramite Blogger?
Grazie,
Mik
In realtà non ho testato fino in fondo, mi sono solo limitato a mostrare la procedura. Il file robots.txt può essere sempre modificato anche da Blogger come al solito
Elimina@#
Sono passate 24 ore e Search Console ancora non aggiorna. Volevo chiederti: se modifico il robots tramite Blogger, poi devo comunicarlo a Search Console con Invia oppure devo limitarmi a Blogger?
EliminaGrazie!
Non te lo so dire. Se è una cosa da fare subito ti consiglio di modificare il file robots.txt in entrambi i posti. Poi apri la pagina www.tuodominio.com/robots.txt per vedere se la modifica è stata recepita. Il file di questo sito p.e si può controllare in questo URL
Eliminahttp://www.ideepercomputeredinternet.com/robots.txt
Puoi fare il test anche con il tuo blog per vedere se e quando sia stato aggiornato il robots.txt
@#
Giusto per essere d'aiuto a chi magari ha lo stesso problema: ho cambiato tramite Blogger tutto e Google Search Console ha subito recepito :) ora vediamo come va...
EliminaMik
Ciao Ernesto, ho provato a testare un file bloccato è il risultato è uguale a quello dell'ultima foto del tuo post: Allow: / Cosa devo fare per sboccarlo, usare il tasto "consentito" o cosa? Ti ringrazio anticipatamente.
RispondiEliminaProva a inviarlo all'indice
Eliminahttp://www.ideepercomputeredinternet.com/2016/02/google-indicizzare-post-search-console.html
per vedere se lo accetta
@#
Ho fatto il test di ottimizzazione del sito e mi da il seguenti errori.
RispondiEliminaPage caricata parzialmente
Non è stato possibile caricare tutte le risorse della pagina. Ciò può influire su come Google vede e comprende la tua pagina. Correggi i problemi di disponibilità per le risorse che influiscono sulla comprensione della pagina da parte di Google.
Impossibile caricare 5 risorse della pagina
Googlebot bloccato dal file robots.txt
e un messaggio che dice Uncaught SyntaxError: Unexpected identifier con scritto l'url del mio sito vicino.
Come posso risolvere questo errore?
Ho cliccato sul tuo profilo. Hai solo un blog di prova. Non posso fare test. L'avviso "Non è stato possibile caricare tutte le risorse della pagina."
Eliminavuol dire poco. Può significare anche che ci sono banner pubblicitari che Google non carica, anche se sono i suoi.
@#
Si infatti non è sua questo blog ma su un altro. Quindi significa che dovrei chiedere a ad Google ads?
RispondiEliminaNo. Non devi fare nulla in tal senso. E normale. Non so se ci sono altri problemi.
Elimina@#
Ok ho lasciato turto per com'è. Un'ultima cosa sempre nell altro mio blog ho rimosso dal layout l'intestazione e non posso più attivarla c'è un modo per rimetterla a posto ? Mi servirebbe per rinserire il nome del mio blog in Home page e quando si apre un articolo.
RispondiEliminaDevi fare mente locale a come hai fatto a rimuoverla per poi fare il procedimento inverso 😊 Non posso sapere che cosa hai modificato
Elimina@#
:( non ricordo cosa ho modificato forse quando ho rimosso l'intenzione ho scarricato il tema che poi l'ho rinserito inconsapevole che c'era l'intestazione disattivata e non più modificabile. Grazie comunque per avermi risposto
RispondiElimina