Google leak: cosa ho “forse” capito?

Google leak

Una presunta -ma lo è davvero?- divulgazione di più di 2500 pagine di documentazione interna di Google ha reso possibile comprendere in parte come funziona il motore di ricerca più usato al mondo. Vediamo alcune considerazione interessanti.

punti chiave
Ricerca neurale

La ricerca neurale ha modificato in modo profondo il PageRank. L’algoritmo in questione si chiama pageRank_NS ed è associato alla lettura e comprensione dei documenti.

Il ritorno del Pagerank?

Google ha menzionato 7 diversi tipi di Pagerank, quello più noto è ToolBarPageRank.

Catalogazione delle pagine

Google ha un suo metodo specifico per identificare e catalogare le seguenti tipologie di sito: siti web di notizie, YMYL, blog personali (penso si riferisca ai blog di piccole dimensioni), e-commerce e siti di contenuti video. Non ho ben capito il motivo del perché categorizza in modo specifico i blog personali. Forse per valorizzare sito molto verticali ma di poche pagine.

NavBoost, NSR e ChardScores

I componenti più importanti dell’algoritmo di Google –se lo sono ancora- sembrano essere NavBoost, NSR e ChardScores.

Questi tre componenti, che sembrano andare ad influire direttamente sui risultati organici negli indici di Google, sono in netto contrasto con quanto Google ha detto negli ultimi tempi.

1: Google utilizza una serie di metriche di riferimento per valutare l’autorità di un sito. Tra le più rivelanti, così ho capito, sembra esserci il traffico proveniente dagli utenti che utilizzano il browser Chrome. Un segnale importante per determinare l’autorità a livello sito per Google.

2: Nelle sue valutazioni di un sito, Google valuta alcuni embeddings -a livello pagina e sito- e di proximity targeting per l’associazione ad un punteggio di qualità. Gli embedding sono un modo per rappresentare oggetti come parole, immagini o video in un formato che i computer possono capire e utilizzare. Grazie agli embedding, è possibile cercare elementi simili tra loro e sono molto importanti per l’intelligenza artificiale.

3: Google sembra misurare le interazioni dell’utente in una determinata pagina o sito. I rimbalzi, la durata della visita e il numero di pagine in un sito sembrano venir calcolate.

La fonte originale la trovi a questo link: https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html

Le cose che ritengo più interessanti (a mio avviso)

Google utilizza un punteggio di qualità chiamato pageQuality (PQ). Uno dei particolari che ritengono più interessanti di questo punteggio di qualità è il fatto che Google utilizza un LLM per stimare quando “impegno” ha richiesto una determinata pagina/articolo. La possibilità o meno che una pagina sia facilmente replicabile sembra essere un valore importante nelle valutazioni dell’algoritmo.

Si può dire che: la presenza di tool, immagini personalizzate, video e informazioni uniche -che permettono quindi di approfondire al meglio un contenuto- possano portare ad un punteggio migliore in fase di valutazione. Questo parametro di “impegno” coincide, come se non fosse ovvio, con l’apprezzamento da parte degli utenti nei contenuti ben scritti.


Correlazione tra argomenti e autorità tematica: due fattori importanti

Con il termine autorità tematica si definisce un concetto basato sul reverse engineering dei brevetti di Google. Con autorità tematica Google cerca di capire quale sia il livello di credibilità di un sito web in relazione ai contenuti pubblicati su specifici argomenti. L’autorità tematica e EEAT sono concetti strettamente correlati. Nelle informazioni presenti in questi leak, SiteFocusScore, SiteRadius, SiteEmbeddings, e PageEmbeddings vengono utilizzati per determinare il posizionamento di un sito.

A che cosa si riferiscono questi termini?

SiteFocusScore
questo parametro identifica quanto un sito è focalizzato su un determinato e specifico argomento.
SiteRadius
questo parametro misura quanto i PageEmbeddings discostano o meno dal SiteEmbeddings. In poche parole, Google crea una identità tematica per ogni sito e ogni pagina contenuta al suo interno viene valutata in base alla sua “distanza” dal SiteEmbeddings.
SiteEmbeddings e PageEmbeddings
sono due termini già noti e sappiamo quale è il loro peso nella valutazione dell’ottimizzazione di una pagina.

Qualità dell’hosting che ospita il sito

nsr, site_pr e new_nsr: queste metriche dovrebbero rappresentare lo stato di ottimizzazione del servizio hosting dove è ospitato il sito web preso in esame. È interessante notare che si parla anche di nsr_data_proto, ma al momento non ho trovato informazioni che spieghino al meglio a cosa si riferisce questa metrica.

Quando si prende in esame le performance di un sito internet in blocchi, queste metriche servono a determinare il grado di ottimizzazione di ogni singolo blocco.

Come si può notare con il servizio PageSpeed Insights di Google, esistono più metriche per valutare il grado di ottimizzazione di un hosting e delle pagine che vanno a comporre il sito web preso in esame.

Siti con una autorità indiscussa

IsElectionAuthority: sembra indicare la presenza di siti o progetti che possono beneficiare di una autorità indiscussa. Questo parametro è particolarmente interessante perché potrebbe essere utile per identificare qui siti/progetti che si possono dire “identificativi” in un determinato settore. Cosa molto interessante per sviluppare strategie SEO efficaci o campagne di link building rivelanti.

Che cosa si può dedurre da questi punti?

  • navboost è una metrica incentrata sull’architettura del sito e sulla intuitività con cui si possono raggiungere i contenuti. Un sito ben organizzato, può beneficare di una spinta significativa sui risultati di ricerca.
  • Se la percentuale di traffico proveniente dai motori di ricerca sul vostro sito è rivelante, dovreste rimuovere/bloccare le pagine che sono poco rivelanti dal punto di vista di autorità tematica. Potete creare un collegamento contestuale tra due argomenti simili per fare capire a Google la loro vicinanza. Questo, solo se l’azione ha senso logico e può portare dei benefici all’utente finale.

    Creare un collegamento tra due autorità tematiche, scollegate tra loro, non ha un senso logico in questo caso.
  • I clic e le impression sono dati aggregati e calcolati in base ad un argomento, quindi è bene andare a scrivere più contenuti se esiste la possibilità di ottenere una maggior riscontro dagli utenti. Anche se questa azione porta a diminuire i clic e le impression su una singola pagina, se si è coerenti e affini con la tematica presa in esame, si potrà ottenere una maggiore visibilità. Questo in base a quello che è emerso dai documenti trapelati.
  • I contenuti che non sono aggiornati non ricevono una visibilità dal punto di freschezza del contenuto agli occhi di Google. Quindi, è molto importante andare ad investire del tempo per aggiornare i contenuti dove questa azione ha un senso logico. Quando si andrò ad aggiornare un contenuto di devono inserire informazioni utili all’utente, nuove immagini, contenuti video di qualità. Questa azione, oltre a rafforzare il contenuto dal punto di vista della freschezza dello stesso, deve anche rientrare nel punteggio “impegno” descritto poco sopra.
  • Sebbene è difficile mantenere dei contenuti di alta qualità e allo stesso tempo avere una frequenza di pubblicazione considerevole, questo sforzo può portare un progetto ad avere una ottima visibilità sui motori di ricerca. Google ha deciso di applicare una serie di punteggi a livello sito che prendono in considerazione il rapporto qualità del sito/pagina in base ai contenuti. La coerenza diventerà sempre più un fattore importante.
  • Le impressioni di un sito andranno a diventare parte fondamentale dei Quality NSR data. Diventa sempre più importante prendere in considerazione questo dato.
  • Le entità e le loro relazioni diventato sempre più importanti quando si prende in esame la qualità di un progetto web. La loro correlazione e la presenza o meno di pagine poco rivelanti può essere un fattore determinante per il traffico organico del sito.
  • Le metriche collegate all’esperienza dell’utente diventeranno sempre più importanti. Pagine con contenuti di scarso valore, mal organizzati e/o senza aggiornamenti dovrebbero essere accorpate o aggiornate. Sembra che l’eliminazione di contenuti poco ottimizzati abbia lo stesso peso dell’ottimizzazione o scrittura di nuovi contenuti.

2 risposte a “Google leak: cosa ho “forse” capito?”

Rispondi a Valerio Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *