Google pubblica regolarmente video e podcast in cui spiega come funzionano le diverse componenti del suo motore di ricerca. Tra i format più noti c’è Mythbusting, una serie in cui i membri del team chiariscono i fraintendimenti più comuni tra gli utenti. Questa volta il tema è stato il crawl budget.
I conduttori hanno spiegato che Google, pur avendo a disposizione grandi risorse e molti algoritmi avanzati, deve comunque usarle con criterio quando esegue la scansione dei contenuti. Il web è enorme, quindi per costruire un indice utile il motore di ricerca deve scegliere con attenzione quali pagine analizzare.
Per rilevare le modifiche sui siti, ad esempio, Google considera i dati strutturati e gli elementi legati alle date, oltre a conservare un fingerprint della pagina per individuare gli aggiornamenti dei contenuti. In questo modo gli algoritmi capiscono se un sito va scansionato spesso, come accade per le testate giornalistiche, oppure se basta controllarlo di tanto in tanto.
Secondo gli specialisti, il crawl budget dovrebbe preoccupare soprattutto i siti di grandi dimensioni, con un milione o più URL, come ecommerce o portali di notizie. In questi casi il problema reale è spesso la mancata indicizzazione. Di solito dipende dalla qualità dei contenuti: se il motore di ricerca non considera utile una risorsa, tende a ignorarla, e i siti di autosurf non possono spingerla oltre una certa soglia.
Non è nemmeno possibile costringere Google a scansionare più spesso un singolo sito. La frequenza degli aggiornamenti viene decisa dagli algoritmi, che valutano quanti URL nella Sitemap contengono contenuti validi. In pratica, è la qualità dei contenuti a incidere davvero sull’ampiezza del crawl budget.
LIVEsurf
IT
RU


.bf739e4e9fd1c7bfdfa4.png)







