Hola a todos, a continuación encontrarán la guía más completa en español de Screaming Frog SEO Spider.
Tabla de contenidos
✔️ Rastreo básico
- Cómo rastrear toda mi web
- Cómo rastrear una subcarpeta
- Cómo rastrear un subdominio
- Cómo rastrear sitios webs enormes
- Cómo rastrear cambiando el user agents
- Cómo rastrear urls sin parámetros
- Cómo guardar una configuración
✔️ Enlaces internos
- Cómo sacar información de los enlaces internos (texto ancla, directiva, enlaces por página, etc.)
- Cómo encontrar enlaces internos hacia urls 4xx
- Cómo encontrar enlaces internos hacia urls con redirecciones
- Cómo activar el Link Score
- Cómo encontrar enlaces internos hacia urls no canonical
- Cómo encontrar enlaces a urls externas rotas
✔️ Contenidos del sitio web
- Cómo encontrar urls con poco contenido
- Cómo encontrar imágenes que les haga falta el texto alternativo
- Cómo encontrar todas las imágenes presentes en una url
- Cómo rastrear todos los archivos CSS
- Cómo rastrear todos los archivos JavaScript
- Cómo encontrar todos los archivos PDF
- Cómo encontrar páginas que tengan botones para compartir en redes sociales
- Cómo encontrar urls que usen un iframe
- Cómo encontrar urls que contengan un vídeo o audio incrustado
- Cómo encontrar cualquier parámetro que deseemos en una url
✔️ Metadatos y directivas
- Cómo encontrar urls con meta títulos muy largos
- Cómo encontrar urls con meta títulos muy cortos
- Cómo encontrar urls con meta títulos duplicados
- Cómo encontrar meta descripciones muy largas
- Cómo encontrar meta descripciones muy cortas
- Cómo encontrar meta descripciones duplicadas
- Cómo encontrar urls con contenido duplicado
- Cómo encontrar urls con directivas: nofollow, noindex, canonical, etc
- Cómo verificar que el archivo robots.txt este funcionando correctamente
- Cómo encontrar qué datos estructurados está usando un sitio web
✔️ Sitemap XML
- Cómo crear un sitemap xml
- Cómo comprobar el sitemap xml existente en la web
- Cómo incluir el sitemap xml en el rastreo
✔️ Problemas generales
- Cómo verificar si la migración de un sitio web quedó correcta
- Cómo encontrar urls que cargan lento
- Cómo encontrar malware o spam en un sitio web
- Cómo encontrar urls que no están indexadas
✔️ Scrapear contenido
- Como scrapear contenidos específicos de un sitio web
✔️ Reescritura de URL
- Cómo encontrar y eliminar parámetros en urls
- Cómo volver a escribir las urls rastreada
✔️ Búsqueda avanzada en la tabla
- Cómo filtrar todas las urls con 4xx
- Cómo filtrar todas las urls con 3xx
- Cómo filtrar todas las urls con un no index
- Cómo filtrar todas las urls 200
- Cómo excluir urls del listado principal
✔️ Investigación de palabras clave
- Cómo saber qué urls valoran más los competidores
- Cómo saber qué anchor text estan usando mis competidores en los enlaces internos
Rastreo básico
Cuando vamos a iniciar un rastreo, es muy importante que nos paremos a pensar que datos necesitamos extraer del sitio web, de esta manera podemos excluir algunas partes de la web y realizar rastreos más ágiles. A veces, con sitios que son muy grandes, tener claro lo que deseamos rastrear es muy valioso.

Además, si vamos a realizar el rastreo desde una subcarpeta o subdirectorio en específico y deseamos que Screaming Frog rastree todo el sito web, marcamos el check de “rastrear fuera de la carpeta de inicio”.
Consejo:
Para ahorrar tiempo en el rastreo, podemos desmarcar los check de: imágenes, CSS, JavaScript y SWF. En caso dado de que no necesitemos esa información.

Cómo rastrear toda mi web
Para rastrear todas las urls que componen un sitio web, en configuraciones – spider te recomiendo que tenga el check en estas opciones: rastrear fuera de la carpeta de inicio, rastrear todos los subdominios y rastrear sitamps xml enlazados en el robots, si no está el sitemap xml en el robots le puede indicar la ruta.

Cómo rastrear una subcarpeta
Sí, queremos limitar un rastreo a una sola carpeta, solo es colocar la url y darle a empezar sin realizar cambios a las configuraciones predeterminadas. Si hemos efectuado cambios en la configuración original de la rana, podemos restablecer la configuración predeterminada. Archivo – configuración – borrar configuración predeterminada.


Una segunda opción, si no quieres borrar la configuración que tienes predeterminada, es ir a: configuración – incluir. Colocas la carpeta que deseas rastrear ejemplo: /marketing/ y al final colocas .* quedaría /marketing/.*

Resultado ?

Cómo rastrear un subdominio
Para rastrear un subdominio, colocamos la dirección del subdominio y le damos a: configuración – incluir y quedaría así subdominio.laweb.com/.*

Se pueden ir a realizar una prueba para que estén seguros de lo que les va a tomar el rastreo.

Cómo rastrear sitios webs enormes
Una buena manera de rastrear sitios webs grandes es por partes, puedes dividir el sitio por subcarpetas como te enseñe más arriba, de hecho es una de las maneras que la misma herramienta lo recomienda: cómo rastrear sitios web grandes usando SEO Spider.
1) cambiar el modo de almacenamiento (debes tener un SSD) configuración – sistema – modo de almacenamiento. Y seleccionamos almacenamiento en base de datos.

2) Asignar memoria RAM, configuración – sistema – asignación de memoria. Con 4gb de RAM es capaz de rastrear aproximadamente 2 millones de urls. Con 8gb de RAM se pueden rastrear aproximadamente 5 millones de urls.

Cómo rastrear cambiando el User-Agent
Cambiar el User-Agent es una movida inteligente, ya que muchos servidores puede que bloqueen el agente que trae la rana por defecto: configuración – User-Agent.

Te recomiendo que priorices un User-Agent de Smartphones. Sí tienes el Google Search Console puedes ir a cobertura y ver cuál es el rastreador principal de esa web y seleccionas ese.

Cómo rastrear urls sin parámetros
Algunos parámetros son molestos e incluso ralentizan nuestros rastreos. Ejemplos de parámetros: /page/, ?p, ?*, etc. Todos estos parámetros los podemos omitir del rastreo, nos vamos a configuración – excluir (.*)colocamos el parámetro(.*)

Cómo guardar una configuración
Muy bien, puede que ya tengas una configuración que tu mismo diseñaste a tu gusto para guardarla: archivo – configuración – guardar como y guardas el archivo .seospiderconfig.
Nota: este archivo se lo puedes enviar a un colega y el puede cargar esa misma configuración en su Screaming Frog ;).

Nota 2: Si le das en guardar configuración actual como predeterminada, siempre que habrás la rana esta será la configuración que cargue.
Enlaces internos
Los enlaces internos son lo que nos permiten ir de una url a otra en el mismo dominio. Los enlaces internos son importantes por dos razones:
1. Ellos ayudan a que los lectores se mantengan más tiempo en nuestra web y ayudan a la experiencia del usuario, ampliándole información con temáticas relacionadas con la que ya está consumiendo.
2. Facilita las tres fases del trabajo del Googlebot (el robot de rastreo web de Google). Estas tres fases consisten en: crawling, indexación y ranking.
Cómo sacar información de los enlaces internos (texto ancla, directiva, enlaces por página, etc.)
Para sacar información de los enlaces internos de un sitio web. Debes esperar que el rastreo llegue al 100% – exportación en bloque – enlaces – enlaces internos todo.

Podemos ver información como:
Fuente: url de donde sale el enlace interno
Destino: la url de destino donde va el enlace
Ancla: es el texto del enlace
0 comentarios