Capita di leggere in rete post scritti da parte di utenti alle prime armi che chiedono ad utenti più esperti come mai i dati raccolti utilizzando diversi strumenti di web analytics non coincidano o anche quale sia il sistema migliore per quantificare il traffico generato dal proprio sito Internet.
Il più delle volte le risposte vengono date in base alla propria personale esperienza o preferenza, più che a fronte di una reale conoscenza dei vari strumenti disponibili.
Vale allora la pena sgombrare il campo da equivoci e fare brevemente il punto della situazione.

Confronto tra sistemi di misurazione browser-based e log analyzer

I dati raccolti attraverso strumenti di misurazione browser-based non potranno mai coincidere con quelli raccolti attraverso log analyzer, in quanto i primi rilevano l’attività degli utenti (contano, cioè, quante volte un sito web è stato visitato da uno o più browser), mentre i secondi rilevano l’attività del server su cui il sito risiede (contano cioè quante richieste ha ricevuto il server).
Se, ad esempio, un utente interrompe il caricamento del sito dopo averne fatto richiesta (perché ha cambiato idea, perché ha chiuso il browser, perché è andata via la corrente, perché i tempi di attesa sono troppo lunghi e simili), succede che il log analyzer conta la richiesta, mentre il sistema basato su browser NON conta la visita.
In generale, i sistemi di misurazione browser-centrica consentono di:
1. misurare le pagine effettivamente aperte dal browser dell’utente
2. quantificare le pagine viste in cache
3. eliminare automaticamente le richieste di robot
4. rilevare in maniera più accurata le pagine dinamiche, con flash, con frame
5. misurare l’effettiva quantità di tempo speso sulle pagine
6. raggruppare le pagine per canali tematici
7. certificare i dati, in quanto rilevati da parte di istituti terzi
8. standardizzare le metriche e le operazioni.

 

Confronto tra sistemi browser-based diversi
Anche i dati raccolti attraverso sistemi di web analytics browser-based diversi possono differire in funzione di vari fattori, come ad esempio:
1. Configurazione. I valori possono risultare difformi nel caso in cui i vari sistemi di rilevazione adottati siano stati configurati in maniera diversa: ad esempio, nel caso in cui uno o più browser o indirizzi IP siano stati esclusi dalla rilevazione soltanto per uno dei sistemi invece che per tutti.
2. Installazione. I dati possono differire anche in funzione del modo in cui i vari codici di instrumentazione sono stati inseriti nel sito: ad esempio, nel caso in cui il codice di un sistema sia stato inserito solo in alcune delle pagine su cui sono stati inseriti i codici relativi agli altri sistemi.
3. Posizione del codice nelle pagine. I valori possono variare anche a seconda della posizione in cui si trovano i vari codici all’interno della pagina, in quanto il sistema a cui appartiene il codice inserito per primo rileverà un maggior numero di visite/pagine viste rispetto a quello inserito in posizione finale. La differenza dipende dal fatto che il navigatore potrebbe interrompere l’apertura della pagina dopo aver caricato il primo codice, ma prima ancora di aver caricato l’ultimo, il cui sistema non potrà quindi conteggiare quella come una visita/pagina vista.
4. Metriche di riferimento. I dati possono risultare diversi anche a seconda degli standard seguiti, cioè dei valori di riferimento adottati da ciascun sistema per le metriche in esame. Ad esempio, per ShinyStat il termine “visita” o “sessione” indica la richiesta di accesso fatta da un determinato browser ad un sito all’interno di un intervallo temporale di 30 minuti* (*durata sessione conforme ai parametri dettati da Audiweb, l’organismo preposto alla certificazione del traffico Internet). La ripresa dell’attività dopo 30 minuti viene quindi conteggiata come una seconda visita. La “visita” viene nuovamente conteggiata anche nel caso in cui si chiuda e si riapra il browser oppure ci si colleghi al sito attraverso un browser diverso. Se il navigatore entra nuovamente nel sito entro 30 minuti dal primo ingresso, il sistema non conteggia quel ritorno come una nuova visita, ignorando quindi le fonti di traffico da cui è arrivato tutte le volte successive alla prima. Ciò come stabiliscono le linee guida della rilevazione ufficiale del traffico.
Alcuni sistemi di web analytics conteggiano le visite partendo da parametri diversi, restituendo così dati disomogenei rispetto alle metriche standard appena descritte.

Limiti tecnici dei sistemi di web analytics
Oltre a tutto ciò, esistono limiti tecnici che rendono impossibile una rilevazione puntuale del dato, a prescindere dal sistema di web analytics utilizzato.
Succede, ad esempio, nei seguenti casi:
1. Cookies disattivati. I sistemi browser-based si servono dei “cookie” per individuare visitatori unici, nuovi visitatori, frequenza di visita, etc. Se il navigatore disattiva i cookies, il sistema di web analytics lo considera sempre come un nuovo visitatore.
2. Codice privo di javascript. Se il codice presente nel sito risulta privo di javascript, non è possibile rilevare le fonti di traffico da cui provengono i navigatori che visitano quel sito.
3. Siti dentro Frames. Capita spesso che, per ottimizzare il posizionamento di un sito sui motori di ricerca, si creino domini diversi associati allo stesso sito web. A volte questi domini alternativi vengono associati al sito in maniera anomala, determinando l’apertura del sito all’interno di un frame, invece che attraverso un opportuno reindirizzamento. Ne consegue la perdita del referrer.
La struttura con iframe, infatti, crea un conflitto all’interno del javascript ovvero una sorta di “procedura di sicurezza” che impedisce al browser di recuperare il referrer proprio perchè il javascript è contenuto in un frame che risiede su un dominio differente da quello della pagina in cui esso è contenuto.
La struttura a frame dunque impedisce la rilevazione della provenienza di coloro che accedono al sito attraverso i domini alternativi.
Si tratta di un limite tecnico che può essere facilmente superato effettuando un redirect lato server e, nello specifico, inserendo un comando di reindirizzamento permanente con codice “301” nelle intestazioni http.
4. Provenienze da Social Network. Per le visite provenienti da alcuni Social Network, l’url di provenienza risulta tagliato. In tali casi, i sistemi di web analytics possono rilevare solo il dominio di provenienza, ma non il dettaglio relativo all’url (che di fatto non viene passato). È quindi possibile sapere da quale sito arrivano le visite, ma non da quale specifica pagina.

Nella speranza di aver fatto chiarezza su temi che generano spesso confusione, vi invitiamo a sollevare eventuali altri dubbi nell’ottica di sfruttare questo spazio per dare chiarimenti utili in materia di web analytics.