Hoy os quería hablar sobre el fichero robots.txt; su uso y comandos y su importancia.
Todos los buscadores cuentan con unos robots o «arañas» que son las que rastrean la web para indexar y posicionar la mayor información posible del mundo de internet en sus bases de datos.
Qué es el archivo robots.txt
Cuando tenemos un sitio web, es conveniente que Google pueda acceder a nuestra página para rastrear la información, o no. Para ello, es necesario la creación de este fichero de texto en nuestro dominio, para así indicar al buscador de toda la información que nos interesa que sepa (o no) sobre nuestra web. Este fichero debe ir en la raíz de nuestra web; por ejemplo: https://modestocabralweb.com/robots.txt
¿Para qué sirve un archivo robots. txt?
Según Google: Los archivos robots.txt sirven principalmente para gestionar el tráfico de los rastreadores a tu sitio, aunque también suelen usarse para que Google no rastree determinados archivos
Ejemplo de robots.txt
Ahora qué has visto un ejemplo de este fichero, vamos a descifrar que es lo que significa cada comando.
Tipos de robots: user-agents y robots
- Los user-agents se utilizan de forma específica para buscar y dar instrucciones. Ejemplo: User-agent: *
- El resto de robots son Googlebots: por ejemplo el Googlebot-Image para imágenes y Googlebot-Mobile para dispositivos móviles.
El comando disallow
Si deseamos limitar la indexación de ciertos archivos o rutas para los robots debemos usar el comando Disallow.
- Para bloquear todo el sitio web: Disallow: /
- Si quiero bloquear un directorio concreto dentro de nuestra web: Disallow: /wp-admin/
Para imágenes
- Eliminar una imagen: Disallow: /imagenes/prueba.jpg
- Erradicar todas las imagenes de Google Imágenes:
User-agent: Googlebot-Image Disallow: /
Bloquear archivos de un determinado tipo:
User-Agent: Googlebot Disallow: /*.png$
Otros comandos muy útiles
- Sitemap: Se indica donde está el sitemap en XML del sitio web. En las próximas entradas hablaremos de esto.
- Allow: Es lo contrario de Disallow. Permite el acceso a directorios y páginas.
- Crawl-delay: Se usa para controlar que los bots no consuman excesivos recursos de tu alojamiento web. Es muy aplicado en temas de SEO.
Ahora que conoces estos comandos, ¿sabrías explicar el fichero robots.txt de ejemplo anterior?
Como podemos apreciar se trata de una web con WordPress. En ella permitimos el rastreo a todos los buscadores o arañas. Hacemos un ‘disallow’ a aquellas rutas que no nos interesan, como wp-admin. Y además, indicamos donde se encuentra el sitemap de nuestra web, para que así el buscador sepa las URLs que contiene nuestra web.
Cómo crear el fichero robots.txt
Para crear este fichero es tan simple como crear un nuevo documento de texto y subirlo a la raíz de nuestra web. También podemos crearlo con alguna herramienta como Yoast SEO en caso de que estemos haciendo uso de WordPress.