Web Crawling: Non È Solo “Roba Da SEO”

29 Ago

L’importanza del web crawling per ADS e conversioni

La scansione di una risorsa web (o web crawling) sta alla base dei moderni search engine, Google ovviamente in primis. Senza di essa non può esserci alcun posizionamento, alcuna visibilità in SERP.

Ma in realtà non è solo la SEO ad esserne interessata: anche l’efficacia delle campagne Google Ads si basa sull’accessibilità delle risorse e delle pagine del sito da parte di Google(bot).

Si ritiene pertanto opportuno esaminare in dettaglio la natura della scansione, i criteri secondo i quali essa opera, le modalità per agevolarla e, soprattutto, le ragioni sottese a tale processo.

Breve panoramica di come Google gestisce la scansione

Come ormai tutti sappiamo, la scansione è il primo dei tre macro-processi del motore di ricerca:

Scansione
Indicizzazione
Ranking

Ne consegue che senza scansione non può esserci indicizzazione e senza queste due non può esserci posizionamento.

È noto che Google effettua la scansione delle risorse e delle pagine web attraverso l’utilizzo di programmi automatizzati noti come bot (o spider, o robot). Tuttavia, è importante chiarire che tali spider non operano casualmente nell’ambito di Internet, procedendo ad una scansione completa e “cieca” di una pagina web.

Le attività di scansione sono regolate algoritmicamente da Google stesso che, attingendo dal proprio indice un URL di cui è già a conoscenza, di volta in volta manda in missione un singolo bot per eseguirne la scansione.

Un aspetto da tenere presente è che i bot, per loro natura, sono cookieless e sessionless: si attivano e si spengono ad ogni crawl, per ognuno di loro sarà sempre la “prima e ultima visita alla pagina. Ciò significa che non accumulano cache o informazioni relative a scansioni precedenti.

Dopo che avrà svolto il proprio compito, lo spider in questione viene terminato, ma non senza prima aver “restituito” a Google il codice HTML di cui è costituita la pagina.

Utilizzando queste preziose informazioni, Google espande il proprio indice attraverso l’aggiunta di nuovi URL da esaminare in scansioni future. In parallelo, avvia un procedimento di analisi, elaborazione e valutazione dei contenuti e delle istruzioni dedotte dal codice HTML al fine di:

Decidere se può (direttive robots) e se vuole (rilevanza e originalità) indicizzare la pagina
Misurare la qualità, la completezza, l’attendibilità delle informazioni in essa presenti

Breve nota: nel caso le pagine utilizzino javascript per riprodurre contenuto, bisogna sempre considerare il second wave (of indexing). Se vi interessa approfondire, qui e qui trovate ottimi articoli a riguardo.

Ma ora arriva la parte migliore.

Soprattutto nell’ambito delle operazioni di scansione, Google si caratterizza per la sua marcata efficienza: è intollerante verso qualsiasi spreco di tempo e reattivo all’attesa prolungata per l’ottenimento del codice HTML richiesto.

Inoltre, evita in modo deciso l’impiego inutile di risorse per pagine e sezioni prive di rilevanza. Pertanto, è essenziale rivolgere un’adeguata attenzione a tale aspetto. Questa prudenza risulta particolarmente significativa per i siti di ampie dimensioni, al fine di allinearsi con le direttive ufficiali e agevolare così il processo di scansione.

È importante sottolineare tutto ciò perché eventuali problematiche, più o meno “invisibili”, che affliggono la scansione rischiano di ripercuotersi sui processi successivi.

Come e perché la scansione produce effetti anche sulle campagne Google Ads

E a questo punto, considerando l’inclusione di due piccoli elementi, emergono ulteriori dettagli meritevoli di approfondimento sul perché il Web Crawling non è solo “roba da SEO“.

1. Anche il circuito Google Shopping sfrutta Googlebot

Il circuito Google Shopping utilizza il medesimo bot del canale organico, ne consegue che eventuali problemi di accessibilità, di recupero delle informazioni (e dei contenuti) delle product pages da sponsorizzare impediscono l’approvazione da parte del GMC dei prodotti coinvolti.

URL non accessibile a Googlebot? Prodotto disapprovato.
Tempi di scansione troppo alti e più in generale pagina lenta? Ranking della scheda più basso e rischio di disapprovazione.
Informazioni non coerenti o risorse di pagina (ad es. immagini) non correttamente accessibili a Googlebot? Disapprovazione.

2. Le DSA funzionano basandosi sull’indice di dominio

Nel caso in cui Google e i suoi elementi quali il Googlebot riscontrino problematiche durante la scansione delle pagine del sito, come ad esempio questioni legate all’accessibilità o ai tempi di risposta, ciò ostacola il processo di indicizzazione. Di conseguenza, potrebbe non essere possibile attuare le Dynamic Search Ads (DSA).

È essenziale che il funzionamento del targeting dinamico tra query e pagine di destinazione, che costituisce la base delle DSA, sia garantito da una corretta esecuzione del crawl del sito web da parte di Google. In assenza di tale condizione, le pagine potrebbero non essere indicizzate, il contenuto potrebbe non essere compreso e le informazioni necessarie per definire il targeting potrebbero non essere utilizzate.

Alcune considerazioni e qualche appunto finale

Ora che abbiamo capito come la scansione possa avere impattanti devastanti anche lato Ads, penso sia naturale domandarsi: come individuiamo eventuali blocchi, eventuali problematiche che stanno causando intoppi anche lato funzionamento e performance delle campagne Google Ads?

Le cause alla base di questo problema possono essere le più svariate, tra queste:

Tempi di risposta alle richieste di scansione e/o successivi tempi di caricamento / rendering lato client
Problematiche di accessibilità alle risorse, ad esempio: istruzioni robots.txt del dominio (o della CDN), geolocalizzazione e reindirizzamento automatico basato su IP o sulla lingua del device, asset CSS e JS funzionali al rendering ma bloccati lato robots.txt
Direttive meta robots o X-Robots tags che bloccano l’indicizzazione (problematica relativa all’indicizzazione)
Contenuti poco o per nulla rilevanti / qualitativi che hanno portato Google a decidere di non indicizzare la pagina (problematica relativa all’indicizzazione)

Solo conoscendo cosa avviene tecnicamente durante le interazioni che Google ha con la pagina e il sito web, ponendosi poi doverose domande per indagare e individuare eventuali blocchi, potremo districarci nel raggiungimento di una soluzione.

In linea generale però questi strumenti possono darci una gran bella mano: