Guía de Screaming Frog

por Jun 25, 2022SEO0 Comentarios

Hola a todos, a continuación encontrarán la guía más completa en español de  Screaming Frog SEO Spider.

Tabla de contenidos

✔️ Rastreo básico

  • Cómo rastrear toda mi web
  • Cómo rastrear una subcarpeta
  • Cómo rastrear un subdominio
  • Cómo rastrear sitios webs enormes
  • Cómo rastrear cambiando el user agents 
  • Cómo rastrear urls sin parámetros
  • Cómo guardar una configuración

✔️ Enlaces internos 

  • Cómo sacar información de los enlaces internos (texto ancla, directiva, enlaces por página, etc.)
  • Cómo encontrar enlaces internos hacia urls 4xx
  • Cómo encontrar enlaces internos hacia urls con redirecciones
  • Cómo activar el Link Score
  • Cómo encontrar enlaces internos hacia urls no canonical
  • Cómo encontrar enlaces a urls externas rotas

✔️ Contenidos del sitio web

  • Cómo encontrar urls con poco contenido
  • Cómo encontrar imágenes que les haga falta el texto alternativo
  • Cómo encontrar todas las imágenes presentes en una url
  • Cómo rastrear todos los archivos CSS
  • Cómo rastrear todos los archivos JavaScript
  • Cómo encontrar todos los archivos PDF
  • Cómo encontrar páginas que tengan botones para compartir en redes sociales
  • Cómo encontrar urls que usen un iframe
  • Cómo encontrar urls que contengan un vídeo o audio incrustado
  • Cómo encontrar cualquier parámetro que deseemos en una url

✔️ Metadatos y directivas

  • Cómo encontrar urls con meta títulos muy largos
  • Cómo encontrar urls con meta títulos muy cortos
  • Cómo encontrar urls con meta títulos duplicados
  • Cómo encontrar meta descripciones muy largas
  • Cómo encontrar meta descripciones muy cortas
  • Cómo encontrar meta descripciones duplicadas
  • Cómo encontrar urls con contenido duplicado
  • Cómo encontrar urls con directivas: nofollow, noindex, canonical, etc
  • Cómo verificar que el archivo robots.txt este funcionando correctamente
  • Cómo encontrar qué datos estructurados está usando un sitio web

✔️ Sitemap XML

  • Cómo crear un sitemap xml
  • Cómo comprobar el sitemap xml existente en la web
  • Cómo incluir el sitemap xml en el rastreo

✔️ Problemas generales

  • Cómo verificar si la migración de un sitio web quedó correcta
  • Cómo encontrar urls que cargan lento
  • Cómo encontrar malware o spam en un sitio web
  • Cómo encontrar urls que no están indexadas

✔️ Scrapear contenido

  • Como scrapear contenidos específicos de un sitio web

✔️ Reescritura de URL

  • Cómo encontrar y eliminar parámetros en urls
  • Cómo volver a escribir las urls rastreada

✔️ Búsqueda avanzada en la tabla

  • Cómo filtrar todas las urls con 4xx
  • Cómo filtrar todas las urls con 3xx
  • Cómo filtrar todas las urls con un no index
  • Cómo filtrar todas las urls 200
  • Cómo excluir urls del listado principal 

✔️ Investigación de palabras clave

  • Cómo saber qué urls valoran más los competidores
  • Cómo saber qué anchor text estan usando mis competidores en los enlaces internos

Rastreo básico

Cuando vamos a iniciar un rastreo, es muy importante que nos paremos a pensar que datos necesitamos extraer del sitio web, de esta manera podemos excluir algunas partes de la web y realizar rastreos más ágiles. A veces, con sitios que son muy grandes, tener claro lo que deseamos rastrear es muy valioso.

De forma predeterminada,  Screaming Frog solo rastrea el dominio que le ingresamos. Cualquier subdominio adicional que se encuentre en el camino se verá en los enlaces externos. Para poder rastrear todos los subdominios de una web debemos cambiar la configuración del spider. Configuración – spider – clic en el check de rastrear subdominios y luego en aceptar.
Rastrear subdominios con Screaming Frog

Además, si vamos a realizar el rastreo desde una subcarpeta o subdirectorio en específico y deseamos que  Screaming Frog rastree todo el sito web, marcamos el check de “rastrear fuera de la carpeta de inicio”.

Consejo:

Para ahorrar tiempo en el rastreo, podemos desmarcar los check de: imágenes, CSS, JavaScript y SWF. En caso dado de que no necesitemos esa información.

No rastrear imagenes en screaming frog

Cómo rastrear toda mi web

Para rastrear todas las urls que componen un sitio web, en configuraciones – spider te recomiendo que tenga el check en estas opciones: rastrear fuera de la carpeta de inicio, rastrear todos los subdominios y rastrear sitamps xml enlazados en el robots, si no está el sitemap xml en el robots le puede indicar la ruta.

Como rastrear todas las urls de un sitio web con screaming frog

Cómo rastrear una subcarpeta

 Sí, queremos limitar un rastreo a una sola carpeta, solo es colocar la url y darle a empezar sin realizar cambios a las configuraciones predeterminadas. Si hemos efectuado cambios en la configuración original de la rana, podemos restablecer la configuración predeterminada. Archivo – configuración – borrar configuración predeterminada.

Rastrear subcarpeta con screaming frog
Restablecer configuración inicial

Una segunda opción, si no quieres borrar la configuración que tienes predeterminada, es ir a: configuración – incluir. Colocas la carpeta que deseas rastrear ejemplo: /marketing/ y al final colocas .* quedaría /marketing/.*

Cómo incluir solo una carpeta con Screaming Frog

Resultado  ?

Resultado del rastreo de una sola carpeta

Cómo rastrear un subdominio

Para rastrear un subdominio, colocamos la dirección del subdominio y le damos a: configuración – incluir y quedaría así subdominio.laweb.com/.*

Cómo rastrear un subdominio con screaming frog

Se pueden ir a realizar una prueba para que estén seguros de lo que les va a tomar el rastreo.

Prueba del rastreo de subdominio

Cómo rastrear sitios webs enormes

Una buena manera de rastrear sitios webs grandes es por partes, puedes dividir el sitio por subcarpetas como te enseñe más arriba, de hecho es una de las maneras que la misma herramienta lo recomienda: cómo rastrear sitios web grandes usando SEO Spider.

1) cambiar el modo de almacenamiento (debes tener un SSD) configuración – sistema – modo de almacenamiento. Y seleccionamos almacenamiento en base de datos.

Almacenamiento en base de datos screaming frog

2) Asignar memoria RAM, configuración – sistema – asignación de memoria. Con 4gb de RAM es capaz de rastrear aproximadamente 2 millones de urls. Con 8gb de RAM se pueden rastrear aproximadamente 5 millones de urls.

Cómo asignar memoria ram en screaming frog

Cómo rastrear cambiando el User-Agent

Cambiar el User-Agent es una movida inteligente, ya que muchos servidores puede que bloqueen el agente que trae la rana por defecto: configuración –  User-Agent.

Cambiar el user agent en screaming frog

Te recomiendo que priorices un User-Agent de  Smartphones. Sí tienes el Google Search Console puedes ir a cobertura y ver cuál es el rastreador principal de esa web y seleccionas ese.

Rastreador principal Google search Console

Cómo rastrear urls sin parámetros

Algunos parámetros son molestos e incluso ralentizan nuestros rastreos. Ejemplos de parámetros: /page/, ?p, ?*, etc. Todos estos parámetros los podemos omitir del rastreo, nos vamos a configuración –  excluir (.*)colocamos el parámetro(.*) 

Cómo excluir parámetros con Screaming Frog

Cómo guardar una configuración

 Muy bien, puede que ya tengas una configuración que tu mismo diseñaste a tu gusto para guardarla: archivo – configuración – guardar como y guardas el archivo .seospiderconfig.
Nota: este archivo se lo puedes enviar a un colega y el puede cargar esa misma configuración en su Screaming Frog ;).

Guardar configuración en scraming frog

Nota 2: Si le das en guardar configuración actual como predeterminada, siempre que habrás la rana esta será la configuración que cargue.

Enlaces internos

Los enlaces internos son lo que nos permiten ir de una url a otra en el mismo dominio. Los enlaces internos son importantes por dos razones:
1. Ellos ayudan a que los lectores se mantengan más tiempo en nuestra web y ayudan a la experiencia del usuario, ampliándole información con temáticas relacionadas con la que ya está consumiendo.
2. Facilita las tres fases del trabajo del Googlebot (el robot de rastreo web de Google). Estas tres fases consisten en: crawling, indexación y ranking.

Cómo sacar información de los enlaces internos (texto ancla, directiva, enlaces por página, etc.)

Para sacar información de los enlaces internos de un sitio web. Debes esperar que el rastreo llegue al 100% – exportación en bloque – enlaces – enlaces internos todo.

Enlaces internos todo

Podemos ver información como: 
Fuente: url de donde sale el enlace interno
Destino: la url de destino donde va el enlace
Ancla: es el texto del enlace

Cómo encontrar enlaces internos hacia urls 4xx

Julián Durango

Julián Durango

Consultor SEO

Hola, mi nombre es Julián Durango Gallego, con más de 7 años de experiencia en la industria del SEO. Consultor SEO?| Screaming Frog?|Link Building⛓️|Web scraping⛏️

Post Recomendados:

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¿Necesitas Ayuda?
Hola soy Julián
Diseñador Web y SEO
¿En que te puedo ayudar?