Robots.txt: qué es y cómo generarlo para posicionar en Google

12min

El archivo robots.txt es uno de los componentes básicos para explicarle a Google y otros motores de búsqueda como deben indexar los sitios web. Este post te vamos a enseñar a utilizarlo y evitar que cometas los errores típicos que pueden afectar negativamente al posicionamiento SEO.

Índice

¿Qué es el archivo robots.txt?

El archivo robots.txt es una herramienta específicamente creada para facilitar información sobre las páginas web a los motores de búsqueda, así como otros tipos de robots que recorren la web.

Se trata de un simple archivo de texto que se debe colocar en la raíz del dominio y que especifica, línea a línea, diversas directrices a los motores de búsqueda. Entre todos los sistemas que recorren Internet consultando el contenido de las páginas el más importante es «Googlebot», el robot de Google que se encarga de indexar el contenido.

La tarea más importante que realizaremos con este archivo consiste en indicar a los motores de búsqueda qué páginas deben indexar y cuáles no, de modo que podamos optimizar el sitio web de cara al SEO y además preservar la privacidad de ciertos contenidos que no queremos que se indexen.

¿Cómo los robots de los motores de búsqueda utilizan el robots.txt?

Los robots de búsqueda, también conocidos como «arañas» o «crawlers» se dedican a recorrer Internet indexando el contenido que encuentran, o procesándolo para realizar cualquier tipo de operación. Cuando llegan a un sitio web lo primero que hacen es acceder al archivo «robots.txt», para obtener información sobre qué pueden o no pueden hacer con el sitio.

Así pues, robots.txt es una especie de guía para indicar a los robots cómo deben procesar el contenido de las páginas que hay en un sitio web. Principalmente se usa para indicarle qué páginas o directorios no deben indexarse, pero podemos indicar varios tipos de directrices en este fichero.

Es importante señalar que este archivo ofrece unas directrices pero no nos asegura que absolutamente todos los motores de búsqueda puedan entenderlo o llevarlo en consideración, ya depende de la araña que recorra nuestro sitio y su funcionamiento.

Beneficios de utilizar un archivo robots.txt

El archivo robots.txt nos permite llevar un control más preciso sobre cómo un motor de búsqueda va a tratar nuestro sitio web y el contenido que hay en él. Algunos de los beneficios más importantes que podemos destacar son los siguientes.

Control preciso sobre la indexación del sitio

Mediante el archivo robots.txt podemos decir qué páginas queremos que se indexen en un sitio web y cuáles no. En principio, podríamos pensar que es positivo que un motor de búsqueda como Google indexe todo el contenido posible, pero en ocasiones no es así.

Por ejemplo, podrían existir partes privadas dentro una web que no deseamos que aparezcan dentro del buscador. Pero a veces no es solo una cuestión de privacidad, sino también de calidad. Por ejemplo, podría existir una parte de un sitio web con un contenido pobre y por tanto no muy adecuado para su posicionamiento. En esos casos también podríamos evitar que se indexasen esas páginas de contenido pobre, para que el buscador se centre más en las partes realmente relevantes del sitio.

Optimización de recursos y carga del servidor

Cuando los motores de búsqueda recorren los sitios web y solicitan el contenido de las páginas están ocupando los recursos de nuestro servidor y por tanto realizando una carga de trabajo adicional.

Mediante el archivo robots.txt podemos limitar la indexación de páginas para no consumir recursos, o bien solicitar que las solicitudes se realicen con un retardo entre una y otra, de modo que se eviten posibles caídas del servidor por realizar accesos simultáneos o muy continuos al contenido.

Prevención de contenido duplicado y penalizaciones

Otro caso en el que podría ser útil el archivo robots.txt es cuando tenemos distintas secciones de un sitio web que tienen un contenido idéntico o muy similar. Mediante este archivo podemos evitar que se indexen páginas muy parecidas, que corran el riesgo de ser consideradas como contenido duplicado.

¿Cómo crear y configurar un archivo robots.txt?

Ahora vamos a ver cómo debemos construir el archivo robots.txt abordando su sintaxis y estructura así como las herramientas que podrías utilizar para generarlo.

Sintaxis básica y estructura del archivo robots.txt

El archivo robots.txt se construye con texto plano, por lo que podremos utilizar cualquier editor siempre y cuando permita guardar archivos simples como «.txt». Podría servir algo tan sencillo como el Bloc de Notas de Windows, pero generalmente será preferible utilizar editores de texto para programadores, que usan juegos de caracteres adecuados, como por ejemplo el conocido Visual Studio Code.

En el archivo colocaremos, línea a línea, instrucciones para los buscadores, usando directivas como «User-agent», «Disallow» y «Allow», las cuales definen cómo los diferentes robots deben tratar el sitio.

Enseguida estudiaremos en detalle estas directivas y los valores que les podemos asignar.

Herramientas y generadores online para facilitar la creación

Además, si lo preferimos, también existen en la web diversas herramientas y generadores online que pueden simplificar la creación y configuración del archivo robots.txt.

Gracias a estas herramientas especializadas conseguimos crear los archivos robots. txt de una manera más sencilla y amigable. De todos modos como la sintaxis y la cantidad de instrucciones que podemos indicar en el archivo es muy limitada, quizás no sean tan necesarias. Si te interesan puedes hacer una búsqueda en Google por «robots.txt generator» para encontrar diversas alternativas.

Directivas clave en el archivo robots.txt

Ahora vamos a especificar las principales directivas que puedes utilizar dentro del archivo robots.txt.

User-agent: especificando el robot de búsqueda

Dentro del archivo robots.txt podemos indicar configuraciones distintas para diversos motores. Para especificar al motor al que nos queremos referir utilizamos la directiva User-agent y a continuación colocamos el nombre del bot.

User-agent: Googlebot

También podemos utilizar un asterisco, s queremos referirnos a todos los motores de búsqueda en general.

User-agent: *

Disallow: restringiendo el acceso a determinadas áreas

Como hemos dicho antes, lo más común que podemos hacer dentro deel archivo robots. txt es informarle que no debe procesar diversas áreas del Sitio. Para eso utilizamos la directiva Disallow.

Con el siguiente código estaríamos diciéndole que no puede indexar ninguna página de este sitio web. Además estaríamos refiriéndonos a todos los motores de búsqueda.

User-agent: * Disallow: /

Hay que tener mucho cuidado con un código como el anterior porque estaríamos evitando que se indexase cualquier página del sitio, incluso para cualquier motor de búsqueda existente. Por supuesto, no es una configuración recomendable, a no ser que pretendas justamente que Google no indexe nada de tu sitio web.

Ahora vamos a ver un ejemplo más lógico que sería evitar la indexación solamente de un área del sitio web.

User-agent: Googlebot Disallow: /wp-admin

Si te fijas en este caso estamos aplicando esta directiva únicamente para Googlebot.

Allow: permitiendo el acceso a áreas específicas

También podemos utilizar la directiva «Allow» cuando queremos permitir que se indexe una parte concreta del sitio. De manera predeterminada cualquier araña indexará cualquier contenido por lo cual esta directiva en principio no requeriría utilizarse, sin embargo podemos utilizarla en combinación con Disallow para conseguir que ciertas partes del sitio, que habíamos dicho que no deberían indexarse, sí que se indexen.

User-agent: * Disallow: /privado Allow: /privado/documentos

En este caso estaríamos evitando que se indexase la carpeta «privado», pero la carpeta «documentos» que está dentro de «privado» sí que estaríamos permitiendo su indexación.

Sitemap: indicando la ubicación del mapa del sitio

Otra de las tareas frecuentes dentro de este archivo es utilizar la directiva «Sitemap» para indicarle a los motores de búsqueda donde se encuentra el archivo sitemap.xml, de modo que pueda utilizarlo para realizar un rastreo más eficiente de la web.

Sitemap: https://example.com/main-sitemap.xml

Crawl-delay: hacer que la indexación se realice con un retraso entre páginas

También es muy importante la directiva Crawl-delay que permite que los buscadores den un descanso a nuestro sitio web entre página y página rastreada.

Crawl-delay: 3

Con el código anterior estaríamos indicando que el robot debe detenerse 3 segundos entre las sucesivas solicitudes a nuestro sitio web.

Errores comunes y malas prácticas en robots.txt

Existen muchas ventajas por las cuales usar el archivo robots.txt es muy recomendable. Sin embargo, si no lo usamos adecuadamente podemos cometer errores que tengan un impacto muy negativo en el sitio.

Bloqueo accidental de páginas críticas

Antes hemos visto como una sencilla directiva Disallow, seguida de una barra, podría hacer que no se indexase ninguna página del sitio. Sin llegar a ponerse tan dramáticos podríamos realizar un uso inadecuado también por evitar la indexación de ciertas páginas especialmente adecuadas para el posicionamiento.

Por ejemplo, podríamos tener una sección de directorio donde se encuentran los enlaces más importantes a las categorías del sitio web. Si la home del directorio la hemos bloqueado accidentalmente para su rastreo, podríamos estar dejándole muy difícil encontrar otras páginas internas del sitio a los motores de búsqueda.

Sintaxis incorrecta y problemas de interpretación

Un error no tan crítico podría ser la sintaxis incorrecta realizada dentro del archivo. Quizás en estos casos no estemos teniendo problemas de indexación, pero probablemente estemos evitando que el robots.txt se procese, y por tanto perdiendo todas las ventajas que nos ofrece su implementación.

En el siguiente punto vamos a ver cómo podemos evitar estos problemas verificando el archivo robots.txt una vez lo hemos publicado en nuestro sitio web.

Verificación y pruebas del archivo robots.txt

Existen herramientas online que podemos utilizar para verificar la sintaxis del archivo robots.txt pero también identificar posibles problemas que hayamos cometido a la hora de especificar las directivas.

Herramientas de Google para la verificación

La herramienta más recomendable para verificar y probar el archivo robots.txt la encontramos en Google Search Console.

Para acceder a este verificador simplemente tenemos que entrar en Google Search Console y verificar la propiedad de nuestro sitio web, si es que no lo hemos hecho ya. Luego tenemos que entrar en la página de ajustes y finalmente en el enlace «Abrir Informe» que hay en la sección de rastreo del archivo robots.txt.

Pruebas de indexación y acceso mediante el archivo robots.txt

Para verificar que el archivo robots.txt está haciendo correctamente su trabajo podemos acceder a la herramienta mencionada anteriormente: Google Search Console. En ella podremos verificar cuáles son las direcciones que han sido indexadas en nuestro sitio web, comprobando si realmente son las que estábamos esperando.

También podemos buscar en Google por «robots.txt validator» y encontraremos diversas herramientas online para validar las direcciones de el sitio web y averiguar si están o no bloqueadas por el archivo robots.txt.

Impacto del robots.txt en el SEO y consideraciones importantes

El archivo robots.txt juega un papel muy importante dentro de la estrategia de SEO de los sitios web.

¿Cómo el archivo robots.txt influye en la indexación y el posicionamiento?

Ya hemos explicado cómo el archivo robots.txt influye en la indexación de los contenidos de los sitios web. Esta circunstancia es muy importante dentro de las actividades de SEO por varios motivos.

  • Permite evitar que se indexen áreas que no resultan relevantes.
  • Evita posibles penalizaciones por indexación de distintas URLs que puedan tener contenido muy parecido o idéntico.
  • Permite optimizar la cantidad de trabajo que realiza el buscador dentro de nuestro sitio web, haciendo que se centre en las secciones que realmente tienen más interés para nosotros. Esto es algo muy importante porque, dependiendo de la relevancia del sitio web, el buscador tendrá más o menos cuota de rastreo asignada.

Estrategias para optimizar la configuración para SEO

Algunas estrategias SEO para optimizar el posicionamiento utilizando el archivo robots.txt son las siguientes:

  • Crear un archivo robots txt como te hemos explicado y verificar siempre su funcionamiento inmediatamente después de modificar su contenido.
  • Hacer el Disallow de todas las páginas con un contenido pobre (por ejemplo páginas con muy poco texto o ninguno, incluso contenido generado por los usuarios que sepamos que no va a tener relevancia dentro del target de nuestro sitio)
  • Indicar los sitemaps que existen dentro del sitio, aunque esta operación también la podemos realizar dentro de Search Console de Google.
  • Evita que se indexen páginas que no tengan relación con el contenido del sitio como la política de cookies, la política de privacidad, etc.

Con todo lo que has aprendido en este artículo estamos seguros que podrás sacarle partido al archivo robots.txt para optimizar un poco más el posicionamiento de tu sitio web. Ahora ya puedes aprovechar las oportunidades que ofrece este archivo, para obtener el mayor rendimiento de la cuota de rastreo que el buscador tiene asignada a tu sitio web.

Fernán García de Zúñiga

Productos relacionados: