Hosting SEO

Qué es el fichero robots.txt y cuan importante es

Fichero robots.txt

Hoy os quería hablar sobre el fichero robots.txt; su uso y comandos y su importancia.

Todos los buscadores cuentan con unos robots o «arañas» que son las que rastrean la web para indexar y posicionar la mayor información posible del mundo de internet en sus bases de datos.

Qué es el archivo robots.txt

Cuando tenemos un sitio web, es conveniente que Google pueda acceder a nuestra página para rastrear la información, o no. Para ello, es necesario la creación de este fichero de texto en nuestro dominio, para así indicar al buscador de toda la información que nos interesa que sepa (o no) sobre nuestra web. Este fichero debe ir en la raíz de nuestra web; por ejemplo: https://modestocabralweb.com/robots.txt

Según Google: Los archivos robots.txt sirven principalmente para gestionar el tráfico de los rastreadores a tu sitio, aunque también suelen usarse para que Google no rastree determinados archivos

Ejemplo de robots.txt

Ejemplo robots.txt

Ahora qué has visto un ejemplo de este fichero, vamos a descifrar que es lo que significa cada comando.

Tipos de robots: user-agents y robots

  • Los user-agents se utilizan de forma específica para buscar y dar instrucciones. Ejemplo: User-agent: *
  • El resto de robots son Googlebots: por ejemplo el Googlebot-Image para imágenes y Googlebot-Mobile para dispositivos móviles.

El comando disallow

Si deseamos limitar la indexación de ciertos archivos o rutas para los robots debemos usar el comando Disallow.

  • Para bloquear todo el sitio web: Disallow: /
  • Si quiero bloquear un directorio concreto dentro de nuestra web: Disallow: /wp-admin/

Para imágenes

  • Eliminar una imagen: Disallow: /imagenes/prueba.jpg
  • Erradicar todas las imagenes de Google Imágenes:
User-agent: Googlebot-Image
Disallow: /

Bloquear archivos de un determinado tipo:

User-Agent: Googlebot
Disallow: /*.png$

Otros comandos muy útiles

  • Sitemap: Se indica donde está el sitemap en XML del sitio web. En las próximas entradas hablaremos de esto.
  • Allow: Es lo contrario de Disallow. Permite el acceso a directorios y páginas.
  • Crawl-delay: Se usa para controlar que los bots no consuman excesivos recursos de tu alojamiento web. Es muy aplicado en temas de SEO.

Ahora que conoces estos comandos, ¿sabrías explicar el fichero robots.txt de ejemplo anterior?

Como podemos apreciar se trata de una web con WordPress. En ella permitimos el rastreo a todos los buscadores o arañas. Hacemos un ‘disallow’ a aquellas rutas que no nos interesan, como wp-admin. Y además, indicamos donde se encuentra el sitemap de nuestra web, para que así el buscador sepa las URLs que contiene nuestra web.

Cómo crear el fichero robots.txt

Para crear este fichero es tan simple como crear un nuevo documento de texto y subirlo a la raíz de nuestra web. También podemos crearlo con alguna herramienta como Yoast SEO en caso de que estemos haciendo uso de WordPress.

Leave a comment

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad