Pubblicato il 07/08/18 - aggiornato il  | 2 commenti :

Come trovare le pagine non indicizzate e inviarle all'indice di Google

Come trovare le pagine escluse dall'indicizzazione, come sanare i problemi e come riproporle nell'indice di Google
Quando si pubblica un nuovo post nel nostro sito, sarebbe buona norma, il giorno successivo, controllare che sia stato indicizzato. Lo si può fare in modo abbastanza semplice incollando nella casella di ricerca di Google il Titolo dello stesso post seguito dal nome del sito.

Se i risultati di ricerca di Google ci mostrano anche la nostra pagina, significa che questa è stata correttamente indicizzata. Se così non fosse, dovremmo aspettare il giorno successivo e ripetere l'operazione. Se la pagina non fosse ancora presente nell'indice di Google, allora si può chiedere l'indicizzazione manuale mediante Search Console.

Evidentemente si tratta di una procedura decisamente antipatica che confesso di praticare molto raramente. Vediamo però come scoprire le pagine del nostro sito che Google non ha ancora indicizzato ma che ha rilevato. Nella vecchia versione di Search Console non c'è un vero sistema per poter scoprire quali siano queste pagine, ma nella versione più recente c'è invece una sezione specifica dedicata proprio a questa tipologia di pagine.

Si accede a Search Console, versione classica, con il nostro account Google, quindi si sceglie il sito che vogliamo monitorare tra tutte le proprietà che abbiamo aggiunto. In alto nella colonna di sinistra, si va sul link Prova la nuova Search Console per accedere alle nuove funzionalità e alla nuova grafica.






Ricordo che con la nuova grafica, si può monitorare lo stato di indicizzazione di un singolo post, semplicemente incollandone l'URL nella barra posta in alto. Nella versione Beta di Search Console, si va su Stato -> Copertura indice. Si può passare anche a un'altra proprietà agendo sul menù posto sempre sulla sinistra.

copertura-indice-search-console 

È particolarmente utile monitorare le pagine con Errori e le Pagine Escluse. Sono visibili anche i numeri delle pagine Valide e delle pagine Valide con Avvisi. Nei siti di Blogger, le pagine Valide con Avvisi sono le pagine delle etichette, di cui viene bloccata l'indicizzazione di default con il file robots.txt.

Le pagine con Errori possono dipendere da dei problemi temporanei del crawler di Google. In ogni caso si controllano gli indirizzi delle pagine con Errori, e i loro URL, si incollano nella barra in alto, per poi andare sulla icona della lente. Il risultato della scansione sarà visualizzato nella sezione Controllo URL. Se la ragione per cui non è stata indicizzata dipende da noi, possiamo provare a modificarla rimuovendone le cause.






Le Pagine Escluse sono quelle su cui prestare la maggiore attenzione. 

pagine-escluse

Le Pagine Escluse sono suddivise in varie categorie e per ciascuna di esse ci sono le indicazioni di Google.
  1. Esclusa in base al tag no-index - Quando Google ha provato a indicizzare la pagina ha trovato un'istruzione "noindex", pertanto non ha indicizzato la pagina. Se non vuoi che la pagina venga indicizzata, lascia tutto così. Se invece vuoi che la pagina venga indicizzata, dovresti rimuovere l'istruzione "noindex". Nel mio sito tali pagine sono quelle della sitemap quindi correttamente non indicizzate.
  2. Bloccata da robots.txt -   L'accesso alla pagina è stato bloccato per Googlebot, usando un file robots.txt. I siti su Blogger bloccano le pagine di etichette anche se poi Google le indicizza lo stesso.
  3. Anomalia durante la scansione - Durante il recupero dell'URL si è verificata un'anomalia imprecisata, che potrebbe restituire un codice di risposta di tipo 4xx o 5xx. Occorre provare a recuperare la pagina usando lo strumento Visualizza come Google per verificare se vengono riscontrati errori di recupero. La pagina non è stata indicizzata. Vedremo in seguito come procedere.
  4. Pagina scansionata, ma attualmente non indicizzata - Google ha eseguito correttamente la scansione della pagina, ma non l'ha indicizzata. In futuro la pagina potrebbe essere indicizzata o meno, ma non è necessario inviare di nuovo l'URL da sottoporre a scansione, perché Google la conosce già.
  5. Pagina Rilevata, ma attualmente non indicizzata - Google ha rilevato la pagina, ma non l'ha ancora sottoposta a scansione. Google ha cercato di eseguire la scansione della pagina, ma il sito era sovraccarico quindi ha dovuto riprogrammare la scansione. Ecco perché la data dell'ultima scansione non è indicata nel rapporto. Si può però rinfrescare la memoria a Google come vedremo in seguito.
  6. Pagina alternativa con tag canonical appropriato. - La pagina è considerata un duplicato di una pagina che Google riconosce come canonica e rimanda correttamente a questa pagina canonica, quindi non si deve fare nulla. Per gli utenti di Blogger, che non hanno un modello responsive, queste pagine sono quelle visualizzate da mobile con l'aggiunta nell'indirizzo della stringa ?m=1.
  7.  Pagina duplicata senza tag canonical - Questa pagina ha duplicati, nessuno dei quali contrassegnato come canonico. Google ritiene che la pagina in questione non sia quella canonica. Si tratta di un caso non troppo comune per gli utenti di Blogger che in teoria possono esplicitare  la pagina canonica.
  8. Google ha scelto una pagina canonica diversa da quella specificata dall'utente - L'URL è stato contrassegnato come canonico per una serie di pagine, ma Google ritiene che un altro URL possa essere una versione migliore di URL canonico. La pagina viene quindi considerata come duplicato e non è stata indicizzata perché Google lo fa solo con le pagine canoniche.
  9. Non trovata (404) - Questa pagina ha restituito un errore 404 quando è stata richiesta. L'URL è stato rilevato da Google senza alcuna richiesta esplicita di scansione. Gli errori di scansione possono essere sanati utilizzando la vecchia versione di Search Console.
  10. Pagina con reindirizzamento - L'URL è un reindirizzamento, pertanto non è stato aggiunto all'indice. Per gli utenti di Blogger sono comprese in queste pagine, quelle con l'aggiunta finale di #comment-form, cioè con la pagina canonica in cui è stato cliccato sul link Aggiungi un commento o Rispondi.
  11. Soft 404 - La richiesta della pagina restituisce una presunta risposta soft 404. Ciò significa che restituisce un semplice messaggio "non trovata" senza un codice di risposta 404 corrispondente. Nelle pagine con questa caratteristica ho trovato quella della favicon e quella dell'archivio.





Le pagine che riteniamo debbano essere indicizzate da Google, che però non lo sono state, né rilevate, possono essere indicizzate manualmente. Si va su Search Console, versione classica. Si sceglie Scansione -> Visualizza come Google, quindi si incolla la parte finale dell'URL dopo il dominio.

recuoerare-url


Si clicca quindi su Recupera. Dopo che viene visualizzato il baffo verde, si va su Richiesta di indicizzazione.

richiesta-indicizzazione

Si aprirà una pagina popup in cui superare il controllo visivo e inviare la pagina all'indice di Google.

indicizzazione-google

Questa operazione si ripete per tutte le pagine che riteniamo debbano essere indicizzate da Google, e che al momento non lo sono, per una delle ragioni elencate sopra. Su Search Console c'è anche l'opzione per recuperare l'URL da smartphone, oltre che quello da desktop. Inoltre si può richiedere la scansione solo dell'URL incollato o anche dei relativi link diretti. Google ha però un limite massimo mensile di richieste di indicizzazioni.


2 commenti :

  1. Ciao Ernesto,

    la mia search console mi dice che ho 2 pagine che ''L'URL inviato contiene un tag "noindex"

    Stando a questa tua guida, tu al punto 1 suggerisci di rimuovere l'ostruzione noindex. Ma come devo fare per rimuoverla?

    Le mie impostazioni sono tutte corrette, tutte le mie pagine hanno tag robot personalizzati default/all (quindi non c'è nessuna ostruzione credo).

    Grazie mille,

    Lizzy

    RispondiElimina
    Risposte
    1. Lascia perdere. Google non è perfetto. Ogni tanto prende delle cantonate. Poi in genere si ravvede :)

      P.S. Purtroppo tra un giorno sarò costretto a rimuovere alcuni tuoi commenti in questa pagina
      https://www.ideepercomputeredinternet.com/2014/04/blogger-rel-canonical-link-contenuti-duplicati.html
      dopo che tu avrai letto le mie risposte perché a Google non piace che vengano incollati indirizzi di pagine per adulti. Magari aspetto anche un paio di giorni prima di rimuoverli.
      @#

      Elimina

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy