Browsing articles tagged with " spider"
feb
28
2011

Un emulatore di spider in aiuto ai Seo

Categoria: Seo  //  Nessun Commento

Analizzare un sito di grosse dimensioni dal punto di vista Seo può non essere un problema banale (fin’ora)..

Controllare che gli elementi Seo-On-Page (title, description, h1, …) siano quelli desiderati può diventare molto più complesso di quello che sembra, soprattutto se si tratta di siti in continuo cambiamento (ed i grossi siti lo sono sempre).

Per estrarre la profondità di navigazione, gli status code di risposta e gli errori di spiderizzazione, esistono molti emulatori di spider che funzionano egregiamente (come Xenu per PC o Integrity per Mac), ma nessuno di loro è in grado di recuperare pefettamente gli elementi Seo-On-Page.

Grazie ad un tweet di Piersante ho trovato Seo Spider di screamingfrog, un bellissimo emulatore di spider con un occhio alla Seo.
Durante la spiderizzazione estrae e analizza informazioni su:

  • title (e relativa lunghezza)
  • metatag description (e relativa lunghezza)
  • metatag keywords (e relativa lunghezza)
  • metatag robots
  • metatag refresh
  • canonical
  • tag h1..h6
  • ecc…

Inoltre Seo Spider riconosce eventuali duplicazioni del codice all’interno della stessa pagina, come ad esempio title o description replicati, e permette di customizzare le ricerche di spezzoni di codice all’interno del sito.
Anche l’esportazione è ottima e ci evita di passare troppo tempo sui filtri di Excel.

A questo indirizzo potete trovare maggiori informazioni sulle funzionalità di questo ottimo software: http://seo-hacker.com/screaming-frog-seo-spider/

Purtroppo non è free, costa 99 sterline, ma IMHO le vale tutte.

dic
26
2010

Recuperare i link esterni che generano 404 con lo Script di Google Analytics

Categoria: Seo  //  Nessun Commento

Link popularity e pagine 404La link popularity assume un ruolo fondamentale in ogni buona strategia Seo.
Ottenere buoni link in ingresso non è facile, e spesso costa tempo e fatica.

Chi si è occupato almeno un volta di Link Building / Article Marketing / Link Baiting / ecc.. sa che un buon link esterno verso il proprio sito non si ottiene facilmente e di conseguenza va mantenuto il più a lungo possibile. Per evitare che nel tempo si vadano a perdere i link (se cambio il sito devo anche aggiornare i link esterni, altrimenti punteranno ad una pagina 404) è necessario tenerne traccia e aggiornarli (ove possibile) oppure effettuare delle redirezioni 301 delle vecchie url a cui puntavano.

Ma come fare a recuperare i link che si sono persi?

1) Utilizzare i log del server, ed estrarre tutti i referrer esterni che terminano in pagine 404 del vostro sito.
Questa soluzione è la più efficace perché permette di ottenere tutti i link in ingresso, però dovete avere accesso ai log del server ed avere un minimo di capacità nella loro elaborazione.

2) Inserire nella pagina 404 un codice di tracciamento a tag leggermente modificato.
Questo metodo è meno completo rispetto all’utilizzo dei tag, in quanto pemette di ottenere esclusivamente i link  che hanno generato degli accessi da parte degli utenti (i sistemi di Analytics a tag non tengono traccia degli spider dei motori di ricerca).

Ecco un esempio per Google Analytics (per lo script sincrono):

<script type=”text/javascript”>
var pageTracker = _gat._getTracker(“UA-XXXXXX-X”);
pageTracker._initData();
pageTracker._trackPageview(“/404.html?page=”+document.location.pathname+” “+document.location.search+document.referrer);
</script>

In questo modo se in Google Analytics cercherete le pagine che contengono la stringa 404.html all’interno di “contenuti –> dettaglio contenuti”  troverete tutte le pagine che hanno generato un errore 404 ed i relativi referrer (che DOVRETE assolutamente correggere tramite un redirect 301)

nov
26
2010

Google Crawling: robots.txt, metatag robots e x-robots-tag

Categoria: Seo  //  1 Commento

Spider di Google

Google ha pubblicato una mini guida per aiutare a comprendere il funzionamento del Crawling (ben diverso dall’indexing).
Non vi è nulla di nuovo, chi si occupa di Seo sicuramente conosce già a perfezione i 3 metodi indicati:

  • File Robots.txt
    • il primo file richiesto dai motori di ricerca, un vigile che aiuta lo spider a capire quali contenuti può recuperare e quali invece no;
    • funziona in modalità wide site.
  • Metatag robots
    • un metatag da inserire nell’header html delle pagine;
    • funziona solo sulla singola pagina;
    • utilissimo nelle paginazioni delle categorie per evitare pagine duplicate: <meta name=”robots” content=”noindex, follow”>.
  • X-Robots-tag
    • il meno conosciuto, va inserito nell’http header delle pagine;
    • utile per togliere le duplicazioni causate da alcuni parametri nell’url, ad esempio in combinazione con le espressioni regolari:
    • da utilizzare solo se seguiti da un Seo esperto.

Ecco la spiegazione dettagliata fornita da Google:  il crawling di Google.

E qui potete trovare un esempio pratico all’uso dell’x-tag-robots.

Buona lettura