Crawl budget è un termine comune all’interno della SEO.
Per chi si occupa di ottimizzazione di siti web per i motori di ricerca (come Google) è un aspetto tecnico estremamente importante.
Il Crawl Budget è il numero di pagine che i motori di ricerca scansionano su un sito web all’interno di un determinato periodo di tempo. In pratica, è l’insieme di risorse che il motore di ricerca decide di dedicare all’analisi dei contenuti pubblicati su un sito.
Perché i motori di ricerca assegnano un crawl budget ai siti web?
Devi sapere che i motori di ricerca (per comodità mi riferisco a Google) hanno un budget di tempo entro il quale scansionare un sito internet.
I robot dei motori di ricerca non hanno a disposizione risorse illimitate. Sono quindi costretti a suddividere la loro attenzione su centinaia di milioni di siti web sparsi per il mondo.
Ogni giorno vengono messi online milioni di nuovi siti web e il crawl budget permette ai motori di ricerca di ottimizzare il tempo a disposizione per conoscere, esaminare e catalogare le informazioni dei suoi database in maniera efficiente.
Perciò hanno bisogno di una regola per dare priorità al loro sistema di scansione del web. Assegnare un budget di scansione a ciascun sito web aiuta i robot a massimizzare la loro attività quotidiana.
Questo budget è calcolato in base a:
- crawl rate limit (limite di capacità): il numero massimo di connessioni simultanee che il motore di ricerca utilizza per eseguire la scansione di un sito senza causare problemi;
- crawl demand (domanda di scansione): quanto spesso il motore di ricerca richiede la scansione del sito.
Cos’è tecnicamente il Crawl Budget?
Il crawl budget è a tutti gli effetti un valore che Google assegna al nostro sito. Un vero e proprio budget che Googlebot (il crawler del motore di ricerca) ha a disposizione per scansionare le pagine pubblicate nel nostro dominio.
Martin Splitt (Developer Advocate di Google) e Alexis Sanders (Senior Account Manager di Merkle) svelano miti e leggende relativi al crawl budget.
Come viene assegnato il Crawl Budget?
Come anticipato, il calcolo del crawl budget si basa su due fattori:
- limite di capacità
- domanda di scansione
Il primo è relativo al rapporto tra limite di scansione e carico dell’host. Ovvero quante scansioni da robot può gestire un sito web e quali sono le preferenze indicate dal proprietario del dominio.
Il secondo è relativo alla domanda di scansione in rapporto alla pianificazione della stessa. In pratica si stabilisce quali URL vale la pena sottoporre a scansione (anche più di una volta) in base alla popolarità della pagina e alla frequenza con cui viene aggiornata.
Il crawl budget è relativo solo alle pagine di un sito?
Non esattamente.
Il valore del crawl budget è determinato da qualsiasi documento o URL scansionati dai motori di ricerca. Solo per semplicità ci si riferisce al crawl budget in termini di pagine.
Cos’altro può essere analizzato dai robot dei motori di ricerca come Google?
- file JavaScript e CSS
- varianti di pagine mobili
- varianti hreflang
- file PDF
Perché dovresti preoccuparti del Crawl Budget del tuo sito web?
Se vuoi attuare una strategia SEO per il tuo sito web, il crawl budget è un parametro di riferimento molto importante. Sprecare le risorse di crawl budget danneggia le prestazioni SEO del tuo sito web.
Affinché i motori di ricerca possano trovare, scansionare e classificare il maggior numero possibile di pagine del tuo sito internet, è necessario semplificare le operazioni ai robot dei motori di ricerca.
Per farla molto breve,
meno tempo occorre per analizzare le tue pagine, prima potrai comparire sui risultati di ricerca.
Se stai sprecando budget per la scansione, i motori di ricerca non saranno in grado di eseguire una scansione completa del tuo sito web. Molto probabilmente trascorreranno del tempo su parti del tuo sito che non sono rilevanti ai fini di una corretta classificazione.
Tutto questo a scapito di pagine e documenti più importanti che resteranno ignorate o totalmente nascoste. Se i motori di ricerca non riescono a trovare le pagine del tuo sito web, non potranno scansionarle. Di conseguenza, non saranno indicizzate e il tuo sito non sarà in grado di attirare visitatori dalla ricerca web.
Crawl Budget: chi non può fare a meno di monitorarlo?
Senza dubbio quei siti che producono decine o centinaia di nuove pagine web al giorno.
- Portali redazionali
- Testate giornalistiche
- E-commerce
Sono tutte piattaforme web che per natura generano nuovi URL da posizionare sui motori di ricerca. Insomma, se non sei un piccolo sito internet da poche pagine, occorre fare attenzione al tuo crawl budget.
Come ottimizzare il tuo Crawl Budget?
Per sfruttare al massimo il crawl budget che i motori di ricerca dedicano al tuo sito la cosa più intelligente che puoi fare è assicurarti di non sprecare risorse preziose in fase di scansione.
In pratica, dovrai risolvere tutti quegli errori (tecnici e strutturali) che portano a sperperare budget di tempo e download utilizzato dai robot dei motori di ricerca.
Quali sono i motivi più comuni che portano allo spreco del crawl budget?
- Contenuti duplicati: sono pagine molto simili, talvolta esattamente uguali, Google stesso li identifica come “duplicate content”. Per fare qualche esempio, si tratta di pagine copiate, pagine di risultati di ricerca interni e pagine create da tag.
- Collegamenti interrotti e di reindirizzamento: i collegamenti interrotti (broken links) sono collegamenti che fanno riferimento a pagine che non esistono più. La classica pagina 404, per intenderci. I collegamenti di reindirizzamento sono invece vecchi URL a cui è stato impostato un rimando a nuovi URL. Questi non sono propriamente errori, ma è sempre meglio farne un uso parsimonioso in termini di crawl budget.
- Inclusione di URL errati nelle sitemap XML: significa prevedere pagine non indicizzabili e pagine con URL che iniziano per 3xx, 4xx e 5xx che è preferibile escludere dalla sitemap XML del sito.
- Pagine con tempi di caricamento o timeout elevati: sono pagine web che impiegano molto tempo per essere caricate. Oppure che non si caricano affatto. Questi URL hanno un impatto decisamente negativo sul tuo crawl budget. Questo comporta che i motori di ricerca identificano il tuo sito web come uno spazio non in grado di gestire la richiesta e quindi possono modificare il limite di scansione.
- Errata struttura dei link interni: se l’organizzazione dei link interni non è impostata correttamente, i motori di ricerca potrebbero non prestare sufficiente attenzione ad alcune delle tue pagine. Rischi di dedicare poco budget ai contenuti più importanti e far perdere tempo ai robot nella scansione di pagine totalmente superflue.
- Elevato numero di pagine non indicizzabili: se il sito presenta molte pagine non indicizzabili i robot perderanno tempo ad analizzare quali URL devono prendere in considerazione. Per poi scoprire che la maggior parte è segnalata come non indicizzabile: una grande perdita di tempo!
Un esempio di sitemap priva di errori rilevati dal crawler.
In generale, la maggior parte dei siti web soffre della stessa tipologia di problemi. Questi causano una cattiva gestione del crawl budget e, di conseguenza, una indicizzazione delle pagine inefficace o inesistente.
Dove puoi controllare il Crawl Budget?
Per tenere sotto controllo il lavoro dei robot di Google sul tuo sito, lo strumento principale è senz’altro la Search Console che ti mette a disposizione Google.
Uno strumento gratuito che ti permette di scoprire quale tipo di crawler lavora all’indicizzazione del tuo sito, quante richieste di scansione ricevi al giorno, quanto tempo passa tra una scansione e l’altra e la quantità di errori rilevati.
Per monitorare le statistiche del crawl budget:
- Accedi alla Google Search Console
- Clicca sulla voce “Impostazioni” in basso a sinistra
- Vai sulla voce “Statistiche di scansione” e clicca su “Apri rapporto”
Qui vedrai 3 valori:
- Richieste di scansione totali: la linea blu indica le richieste di scansione del sito nell’intervallo di tempo selezionato;
- Dimensioni totali di download (byte): la linea viola indica le dimensioni delle risorse e i file scaricati durante la scansione nell’intervallo di tempo selezionato;
- Tempo medio di risposta (ms): la linea arancione indica il tempo medio di risposta della pagina per recuperare i contenuti della pagina per una richiesta di scansione.
Schermata delle statistiche di scansione di Google Search Console.
Per quanto riguarda le richieste di scansione, più grande è il valore, meglio è per il sito. Per gli altri due valori, vale il contrario: ridurre il peso delle pagine permette al crawler (e in generale agli utenti) di navigare più velocemente sul sito.
Inoltre, un download più veloce significa più pagine che possono essere scansionate con il crawl budget a disposizione.
Il segreto per migliorare il Crawl Budget
Questo è il vero segreto di Pulcinella!
Se vuoi migliorare il crawl budget del tuo sito, al netto degli errori tecnici visti sopra, ciò che davvero ti aiuta a fare un salto di qualità è pubblicare pagine di valore. Si tratta di contenuti facili da leggere e fruire, dal layout semplice ed efficace e che il lettore apprezza e consiglia ai suoi amici.
Evita di saturare il tuo dominio con URL inutili e massimizza la pubblicazione delle informazioni e il percorso di navigazione dell’utente.
Google afferma che esiste una forte relazione tra l’autorità della pagina e il crawl budget: maggiore è l’autorità di una pagina, maggiore sarà il budget di scansione dedicato. In poche parole, per aumentare il tuo crawl budget devi rafforzare l’autorità delle tue pagine web.
Un altro modo per aumentare il crawl budget è sicuramente la velocità del sito web, ovvero la risposta del server nel rispondere alle richieste di scansione del Googlebot.
Devi essere connesso per inviare un commento.