Sacando partido a robots.txt
Quién me iba a decir a estas alturas que un estandard casi tan antiguo como la propia red, y que no se ha modificado en más de diez años, podía ser tan útil. Lo cierto es que el protocolo robots.txt es más sencillo que el mecanismo de un cenicero pero puede llegar a ser muy potente si lo utilizamos bien. Nos puede solucionar problemas con los buscadores. Hay partes de nuestro sitio que no son interesantes para los visitantes que vienen de los buscadores ni conviene que se mezclen en los resultados con nuestras páginas de verdadero contenido.
Hace unos días incorporé robots.txt a mi portal principal y estas son las ventajas que veo en este hallazgo tardío:
- Evito que los robots indexen las imágenes que forman el diseño de mi sitio. Ciertamente, no es lo más bonito buscar en Google Images y encontrarse un trozo de rectángulo en chaflán, un borde o una parte de mi logotipo.
- Evito que se indexe repetidamente la página de inicio de sesión, que además tiene una query string diferente por cada página donde aparece.
- También es conveniente bloquear páginas que no tengan contenido verdaderamente interesante para atraer visitas, como por ejemplo el formulario de contacto o la página de registro del portal o de los foros.
Cada web tiene sus propias necesidades y estas que he expuesto, desde luego, no pueden servir para todos los sitios. También existen normas nuevas específicas para el Googlebot, y que no funcionarán para otros buscadores. Pero esto es otro cantar. De momento, con las normas del protocolo original, a mí me ha resultado suficiente.


