E-COMMERCE

Sitemap.xml y Robots.txt: dos archivos imprescindibles para tu página web

14/06/2018

Como bien sabes, trabajar en el SEO de tu página web es importante para que aparezca entre los primeros resultados de los buscadores. Sin embargo, también lo es que los buscadores pueden rastrear e indexar tus contenidos correctamente gracias al uso de archivos Sitemap.xml y Robots.txt de tu página web. En este artículo te contamos en qué consisten y cómo hacer uso de ellos.

Robots.txt: existen distintas formas de comunicarse con los bots o arañas de los buscadores, que son los encargados de rastrear e indexar los contenidos de las páginas web para posicionarlos. Antes de empezar a rastrear nuestra web, los bots pasan por el archivo Robots.txt, un archivo de texto destinado que indica a los motores de búsqueda cómo deben rastrear el sitio web, a qué partes tienen acceso o no (es decir, qué páginas quieres que se indexen y cuáles no) y qué bots pueden acceder a ellas (puedes decidir que ciertas arañas no rastreen ni indexen tu web o parte de ella).

Para que los rastreadores puedan encontrar e identificar el archivo Robots.txt, se debe guardar como archivo de texto, ubicado en la raíz del dominio (ejemplo: www.midominio.es/robots.txt) y con el nombre robots.txt. Además, no debes olvidar conectarlo a Google Search Console.

El lenguaje que se incluye en este archivo de texto contiene tres palabras clave para comunicarse con los bots:

  • User-agent: existen varios bots (por ejemplo, Googlebot para búsquedas de Google), y no siempre interesa que todos accedan a un site, lo cual se indicaría así: User-agent: [nombre del robot]. Contrariamente, al indicar User-agent:*, se permite que lo rastreen todos los bots.
  • Allow y Disallow: estos comandos hacen referencia a las partes del site donde el bot puede acceder o no acceder. Se puede permitir bloquear el acceso a todo el sitio, a un directorio, a una página, a una imagen, a todas las imágenes del sitio web o a ciertos formatos de archivo.

Como norma general, se recomienda configurar el archivo Robots.txt de la siguiente manera:

  • Que esté abierto a todos los robots y que se les dé acceso a toda la web.
  • Solamente se recomienda bloquear, mediante el comando disallow, todas las URLs, directorios, partes de la web o archivos que se consideren irrelevantes tanto para Google como para el usuario. Por ejemplo, se suele bloquear el directorio /admin/ ya que es interno y no es útil ni para Google ni para el usuario.
  • Incluir el archivo Sitemap.xml dentro del Robots.txt, del que te hablaremos a continuación:

Sitemap.xml: este archivo es un mapa del sitio web compuesto por un listado de todas las URLs que lo forman. Permite que los buscadores puedan rastrear e indexar de forma más rápida y eficiente todas las URLs de un site. Debes ponerlo a disposición de Google enviándoselo a través de la herramienta Google Search Console e insertándolo en el archivo Robots.txt, tal y como hemos mencionado antes. Puedes comprobar si tu web dispone de Sitemap a través de Google Search Console y, en general, también debería encontrarse en la raíz de tu dominio (www.midominio.es/sitemap.xml).

Este archivo no puede contener más de 50.000 URLs ni superar los 10 MB (sin comprimir). De ser así, se deben dividir los Sitemaps grandes en Sitemaps más pequeños para evitar que el servidor se sobrecargue. Además, es recomendable crear distintos sitemaps según el tipo de archivo (vídeo, imágenes, noticias o URLs móviles, en el caso de que no se trate de una web mobile responsive) para mejorar la indexación. Finalmente, es aconsejable reunir todos los archivos Sitemaps en un solo archivo de índice de Sitemap para que se envíen todos a la vez con sus etiquetas correspondientes.

Ahora que ya conoces los archivos Robots.txt y Sitemap.xml y su importancia para mejorar el posicionamiento de tu e-commerce, ¿A qué esperas para ponerle más fácil el rastreo e indexación de tu web a Google?