Problemi di indicizzazione: cosa controllare e come risolverli

Valentina D'Antonio
12 Febbraio 2021
Articoli
Indicizzazione

Quando un sito non compare sui motori di ricerca, si tende a credere che il problema sia sicuramente legato alla SEO. In realtà può trattarsi di un malfunzionamento legato all’indicizzazione.

Attenzione a non confondere le due cose: mentre un sito posizionato in modo scorretto è comunque indicizzato e reperibile sui motori di ricerca, uno indicizzato non è proprio presente negli archivi di Google.

 

INDICE:

Indicizzazione: un po’ di termini da conoscere

Prima di addentrarci nel mondo dell’indicizzazione, ecco un po’ di termini da conoscere per capire meglio il tema.

  • Crawler: è un software automatizzato che analizza i contenuti di una rete in un modo preciso e metodico per un motore di ricerca.
  • Posizionamento/ranking: i motori di ricerca effettuano un’analisi puntuale e dettagliata dei contenuti sia testuali che visivi del sito e ne determinano la posizione nella SERP.
  • Google Search Console: è un servizio gratuito offerto da Google che permette di monitorare e gestire la presenza di un sito nella SERP e risolvere quindi eventuali problemi in termini di posizionamento. In particolare, il “Rapporto di Copertura dell’indice” mostra quante e quali pagine sono state indicizzate.
  • Sitemap: è “una mappa” che contiene tutti gli URL di un sito in maniera gerarchica. Per i crawler, rappresenta una risorsa preziosa al fine di capire e valutare la struttura del sito. Una precisazione: Google ha spiegato che questo file non influisce sul ranking, ma la priorità che assegnata a una certa pagina sì.
    Esistono varie tipologie di Sitemap:
    Sitemap XML: aiutano crawler come GoogleBot a indicizzare i tuoi contenuti visualizzando la struttura del sito. Tieni però a mente che ogni mappa non può contenere più di 50.000 URL e la dimensione del file al suo interno non deve superare i 50 MB quando non è compressa e i 10 MB quando è compressa.
    Sitemap HTML: raccoglie tutti gli URL di un sito e rende più semplice per l’utente perché mette a disposizione una vera e propria mappa della struttura del sito.
    Sitemap per immagini: concepita per aiutare il posizionamento nella sezione ricerca Immagini di Google e per aggiungere informazioni cruciali come URL, titolo, didascalia. Per ogni pagina puoi elencare fino a 1000 immagini.
    Sitemap per video: funziona in maniera simile alla precedente.
    Sitemap per news: se sul tuo sito è presente una sezione dedicata alle news, può esserti molto utile per renderle visibili a Google News.

Il tuo sito non appare su Google: cosa controllare

Innanzitutto, accertati che la pagina o il sito siano realmente assenti da Google. Potrebbero essere presenti, ma trovarsi molto in basso nei risultati della Ricerca.

Il motore di ricerca potrebbe impiegare fino a una settimana per indicizzare la pagina. Inoltre, se effettui delle modifiche, per esempio all’url, potrebbe esserci nuovamente bisogno di attendere fino a sette giorni prima di trovare il proprio contenuto nella SERP. Per velocizzare questo processo, utilizza i reindirizzamenti 301 (“RedirectPermanent”) per reindirizzare gli utenti, Googlebot e altri crawler.

Per verificare la tua presenza su Google:

  • Prima di tutto devi disattivare SafeSearch. Questa funzionalità filtra i contenuti espliciti nei risultati di ricerca di Google per tutte le query di immagini, video e siti.
  • Effettua la ricerca del sito utilizzando la sintassi tuo_nome_dominio.

Ad esempio: site:lapennadelweb.com.

Problemi indicizzazione_ricerca sintassi

Se cercando un sito ottieni risultati, considera che potrebbero esserci problemi di indicizzazione solo su alcune pagine. In questo caso, inserire una Sitemap aiuterebbe Google a trovarle tutte.
Se una pagina si trova nell’indice, ma in una posizione bassa, significa che devi rivedere i fattori di ranking e verificare che siano ottimizzati. Può esserti utile ripassare i 10 SEO Trend da considerare per la tua strategia nel 2021.

Inoltre, un altro passo da compiere è scoprire il valore dell’index ratio, che rappresenta il rapporto pagine indicizzate / pagine totali del sito web.

Per calcolarlo:

  • ottieni approssimativamente il numero di pagine indicizzate utilizzando il comando site o sommando le pagine valide + valide con avvisi nella sezione “Copertura” di Google Search Console.
  • Ricava il numero di pagine indicizzabili, servendoti della scansione Screaming Frog, dotato di uno spider che simula quello dei motori di ricerca e scansiona (fa crawling) un sito.
    • Valori tra il 90% e il 110% rappresentano la situazione ideale.
    • Valori inferiori al 90% iniziano a indicare problemi di indicizzazione. I contenuti potrebbero essere riconosciuti come spam o magari di scarso valore.
    • Valori superiori al 110% possono indicare problemi piuttosto gravi.

Cosa fare se il tuo sito non è presente nell’indice

Se hai atteso il tempo di una settimana come ti abbiamo indicato in precedenza, devi effettuare una vera e propria diagnosi dei problemi.

In questo caso è necessario studiare il rapporto sulla Copertura ottenuto con Google Search Console.
Questi sono i valori che potrai ottenere:

  • Valide: le pagine sono tutte indicizzate.
  • Valide con avvisi: sebbene le pagine siano state indicizzate, riportano un problema, per esempio il blocco robots.txt.
  • Escluse: le pagine non sono state volutamente indicizzate.
  • Errore: le pagine non sono state indicizzate per problemi non desiderati, come l’Errore 404 (“Pagina non trovata”).

Il sito è presente nell’indice, ma ha dei problemi: 8 elementi da verificare

1.Verifica la spunta “Visibilità dei motori di ricerca” su WordPress

Quando crei un sito con WordPress, devi verificare che non sia spuntata l’opzione, presente tra le impostazioni, che scoraggia l’indicizzazione sui motori di ricerca.
Vai su Impostazioni > Lettura > Visibilità dei motori di ricerca.

Problemi indicizzazione_Screenshot spunta WordPress

2.Configura in maniera corretta robots.txt

Il file robots.txt è un file di testo codificato (con caratteri UTF-8) che è salvato nella directory principale del sito. Al suo interno contiene le istruzioni per i bot dei motori di ricerca.

Generalmente il file può essere verificato digitando la frase “www.miodominio.it/robots.txt”, dove al posto di “miodominio.it”, deve esserci il nome del proprio sito web.

Successivamente devi valutare che il file sia scritto in maniera corretta e un esempio classico è il seguente:

User-agent: *
Disallow:

In corrispondenza di “User Agent” devi indicare il nome specifico del crawler o spider che deve tenere in considerazione il tuo sito.
Disallow”, invece, ha la funzione di impedire al bot del motore di ricerca di accedere a parti del sito riservate, che non si vuole rendere visibili.

Fai attenzione perché se vedi una riga come questa:
User-agent: * Disallow: /
significa che i motori di ricerca sono scoraggiati ad effettuare la scansione dell’intero sito.

4. Controlla i file .htaccess

L’.htaccess è un file di testo da modificare che si trova nella cartella WWW o public_html e definisce in maniera precisa le regole di funzionamento del sito. Può trattarsi per esempio della durata della cache, del traffico redirect o anche dell’impedimento dell’indicizzazione.

Ti consigliamo di rivolgerti quindi a un webmaster esperto per mettere mano a questo elemento. Se invece hai dimestichezza con .htaccess, e vuoi compiere questa operazione in autonomia, copia il file sul tuo computer in modo da poterlo ripristinare in caso di errore.

5. Gestisci correttamente i parametri URL

I parametri URL sono porzioni che seguono un punto interrogativo ed esplicitano il percorso per raggiungere la directory in cui la risorsa è presente. Vengono generati per esempio quando si creano gli UTM per tracciare le fonti da cui arriva il traffico.

Se non li gestisci correttamente, possono causare la creazione di migliaia di duplicati della pagina. Ciò che si ottiene sono molteplici URL differenti, ma con lo stesso contenuto. Lo spider, quando effettua l’analisi per definire il ranking, potrebbe non capire quale pagina selezionare e quindi indicizzare tutte. Inoltre Google seleziona un unico URL come versione canonica (più rappresentativa), mentre gli altri vengono identificati come duplicati e pertanto vengono scansionati con minore frequenza.

Per mostrare a Google quale pagina deve essere riconosciuta come canonica, devi utilizzare questo codice:
<link rel =”canonical” href=”https://www.example.com/url-canonico/” />

Gli URL canonici devono essere inseriti nella sitemap.xml.

6. Assicurati che avvenga il redirect automatico sulla lingua del browser

Se il tuo sito è multilingua, devi accertarti che agli utenti venga mostrata la versione corretta secondo le informazioni dell’indirizzo IP o la lingua impostata.

Se questo non accade, tutte le pagine che differiscono dalla lingua di default, saranno considerate duplicate, causando problemi in termini di indicizzazione.
Per capire se anche il tuo sito ha questo problema, avvaliti della funzione Copertura della Google Search Console. In caso positivo, dovrai disabilitare il reindirizzamento in base alla lingua del browser o dell’IP e velocizzare la scansione inviando il sito alla Google Search Console.

7. Controlla che non siano state applicate azioni manuali sul tuo sito

Come spiegato nella guida di Search Console, “Google applica un’azione manuale a un sito se un suo revisore (Quality Rater) ha stabilito che le pagine del sito non sono conformi alle norme sulla qualità per i webmaster“.
Se al tuo sito è associata un’azione manuale, non solo potrebbe determinarsi un calo considerevole nel ranking, ma addirittura il sito potrebbe non essere mostrato nei risultati di ricerca di Google, alcune volte solo per alcune parti, altre in toto. Questo avviene soprattutto quando Big G avverte che ci sono dei tentativi di porre mano all’indice di ricerca.

Attraverso il rapporto di Google Search Console, puoi verificare se e quante azioni manuali sono state effettuate nei confronti del sito. Se è tutto ok, visualizzerai una spunta verde.

Alcuni elementi che più comunemente determinano questa operazione da parte di Google

  • Rilevazione di contenuti spam: avviene soprattutto quando siti o profili sembrano annunci, contengono link fuori tema, o ancora sembrano generati automaticamente, quindi non da un utente reale.
  • Host gratuito contenente spam: in questo caso Google si riserva il diritto di avviare un’azione manuale sul servizio intero.
  • Contenuti scarni con poco o nessun valore aggiunto: non smetteremo mai di ripeterlo,  Google penalizza i contenuti non di qualità!
  • Problema relativo ai dati strutturati: rappresentano un formato standardizzato per fornire informazioni su una pagina e rendere il contenuto comprensibile e classificabile. Per esempio, nella pagina di una ricetta sono indicati ingredienti, calore, tempo di cottura, ecc. Se non vengono seguite le linee guida fornite da Google, il sito non viene più mostrato nei risultati di ricerca.
  • Testo nascosto e/o utilizzo di parole chiave in eccesso: verifica la presenza di testo nascosto usando gli stili CSS o il posizionamento e modificalo in modo tale che sia ben visibile a qualsiasi crawler. Ricordati poi, che il keyword stuffing, ovvero l’aggiunta di parole chiave senza una reale utilità, viene considerato penalizzante in termini di ranking dai motori di ricerca!
  • Violazioni delle norme di News e Discover: Google nasconde i contenuti che sembrano mostrare nudità, violenza, blasfemie e incitamento all’odio. Studia bene tutte le regole e fai attenzione a cosa pubblichi!
  • Link non naturali che rimandano al tuo sito o che partono da esso: quando Google rileva un pattern di link artificiali e potenzialmente ingannevoli, è necessario rimuoverli per evitare l’applicazione di un’azione manuale.
  • Comandi di reindirizzamento non ammessi: quando gli utenti vengono reindirizzati a pagine diverse rispetto a quelle che Google ritiene corrette, viene rilevata una violazione delle Istruzioni per i webmaster. Utilizza Search Console per confrontare i contenuti recuperati da Google con quelli mostrati ai visitatori e, se appaiono diversi, correggili.

Alcuni consigli per risolvere il problema:

  1. Espandi il riquadro della descrizione dell’azione manuale nel rapporto: in questo modo potrai conoscere di più sul malfunzionamento in questione e capirne i dettagli.
  2. Verifica quali pagine sono interessate.
  3. Preoccupati di risolvere il problema in tutte le pagine interessate, altrimenti continuerai ad avere difficoltà nell’ottenimento di un punteggio di ranking elevato.
  4. Controlla che Google riesca a raggiungere tutte le pagine utilizzando lo strumento Controllo URL
  5. Concluse queste operazioni, seleziona Richiedi esame nel rapporto e spiega in maniera accurata tutte le correzioni che hai apportato e la procedura seguita.
  6. Quando invii una richiesta, ti verrà inviato un messaggio di conferma dell’avvio della pratica.

8. Carica correttamente le risorse Javascript

Il linguaggio JavaScript serve per inserire contenuti interattivi in un sito. Potremmo dire che il suo rapporto con Google è di “amore e odio”.
Se un utente o uno spider accedono a una pagina di un sito, il browser richiede delle informazioni al server, ovvero l’HTML base e risorse esterne tra cui quelle che utilizzano appunto JavaScript. L’analisi di questi contenuti richiede moltissimo tempo e avviene in due momenti. Per questo c’è il rischio che durante questo processo Googlebot perda alcuni elementi. Questo si traduce in problemi di indicizzazione e dunque sul ranking.

Alcune criticità che potrebbero emergere:

  • Se fai un utilizzo eccessivo di Javascript, Google effettua una prima scansione del sito, ma poi non effettua il render in HTML. Questo determina problemi perché il sito appare incompleto agli occhi degli spider.
  • Se gli elementi più importanti del sito vengono renderizzati durante la seconda ondata di indicizzazione, il rischio che Google non li legga correttamente, o addirittura non lo faccia per niente.
  • HTML di base differente rispetto al codice HTML finale con JavaScript. Questa difformità crea confusione nel bot.

Quindi cosa devi fare?
Tenta di disattivare JavaScript dal tuo browser e verifica come vengono visualizzati i contenuti del sito durante la visita.
Cerca di inserire i contenuti più significativi dal punto di vista della SEO nel codice sorgente e non in JavaScript. Quest’ultimo inoltre non dev’essere bloccato nel file Robots.txt.
Infine fai in modo che JavaScript non rallenti il caricamento della tua piattaforma. Puoi per esempio scegliere di farli caricare attraverso azioni specifiche dei visitatori anziché in modo automatico. Per assicurarti che il bot di Google possa visualizzare correttamente tutti i contenuti di questo tipo, fai un controllo attraverso il Test Mobile di Google.

Valentina D'Antonio
Smartphone e social media addicted, ma amo il profumo della carta stampata. Appassionata di moda e beauty. Credo nel binomio conoscenza e creatività. Visita il mio profilo LinkedIn.