Excluir una página web o sitio de los motores de búsqueda utilizando un archivo de texto de robots

Puede usar un archivo de texto de robots para evitar que una araña de un motor de búsqueda rastree su sitio web o una parte de su sitio. Por ejemplo, puede tener una versión de desarrollo de su sitio web donde trabaje sobre cambios y adiciones para probarlos antes de que formen parte de su sitio web activo. No desea que los motores de búsqueda indexen esta copia "en curso" de su sitio web porque podría causar un conflicto de contenido duplicado con su sitio web real. Tampoco querrá que los usuarios encuentren sus páginas en progreso. Por lo tanto, debe evitar que los motores de búsqueda vean esas páginas.

El trabajo del archivo robots de texto es dar instrucciones a los motores de búsqueda sobre qué no arañar dentro de su sitio web. Este es un archivo de texto simple que puede crear usando un programa como el Bloc de notas, y luego guardarlo con el nombre del archivo robots. TXT. Coloque el archivo en la raíz de su sitio web (como www. yourdomain . Com / robots. Txt), que es donde las arañas esperan encontrarlo. De hecho, cada vez que las arañas de los motores de búsqueda ingresan a su sitio, lo primero que buscan es el archivo de texto de su robot. Es por eso que siempre tiene un archivo de texto de robots en su sitio, incluso si está en blanco. No desea que la primera impresión de las arañas de su sitio sea un error 404 (el error que aparece cuando no se puede localizar un archivo).

Con un archivo de texto de robots, puede excluir selectivamente determinadas páginas, directorios o todo el sitio. Tienes que escribir el código HTML, o las arañas lo ignoran. La sintaxis del comando que necesita utilizar proviene del Robots Exclusion Protocol (REP), que es un protocolo estándar para todos los sitios web. Y es muy exacto; solo se permiten comandos específicos, y deben escribirse correctamente con ubicación específica, letras mayúsculas / minúsculas, puntuación y espaciado. Este archivo es un lugar donde no desea que su Webmaster sea creativo.

Un archivo de texto de robots muy simple podría verse así:

User-agent: * Disallow: / personal /

Este archivo de texto de robots le dice a todos los robots de los motores de búsqueda que son bienvenidos rastrear en cualquier lugar de su sitio web excepto para el directorio llamado / personal /.

Antes de escribir una línea de comando (como Disallow: / personal /), primero debe identificar a qué robot (s) se dirige. En este caso, la línea User-agent: * se dirige a todos los robots porque usa un asterisco, que se conoce como el carácter comodín porque representa cualquier carácter. Si desea dar instrucciones diferentes a diferentes motores de búsqueda, como lo hacen muchos sitios, escriba líneas de agente de usuario separadas seguidas por sus líneas de comando específicas.En cada línea de User-agent, debería reemplazar el carácter de asterisco (*) con el nombre de un robot específico:

User-agent: Googlebot llamaría la atención de Google.

User-agent: Slurp abordaría Yahoo!.

User-agent: MSNBot abordaría Microsoft Live Search.

Tenga en cuenta que si el archivo de texto de su robot tiene User-agent: * instrucciones y otro User-agent: línea que especifica un robot específico, el robot específico sigue los comandos que le dio individualmente en vez de del instrucciones más generales.

Puedes escribir solo unos pocos comandos diferentes en un robot. archivo txt:

Excluyendo todo el sitio. Para excluir el robot de todo el servidor, use el comando:
```
No permitir: /
```
Este comando elimina realmente todas las páginas web de su sitio del índice de búsqueda, así que tenga cuidado no > hacer esto a menos que eso sea lo que realmente quieres. Excluyendo un directorio.
(Una advertencia: por lo general, desea ser mucho más selectivo que excluir todo un directorio). Para excluir un directorio (incluidos todos sus contenidos y subdirectorios), póngalo dentro de las barras inclinadas: No permitir: / personal /
```
Excluyendo una página.
```
Puede escribir un comando para excluir solo una página en particular. Solo usa una barra al principio y debe incluir la extensión del archivo al final. Aquí hay un ejemplo: No permitir: / private-file. htm
```
Dirigiendo las arañas a su mapa del sitio.
```
Además de Disallow:, otro comando útil para tus esfuerzos de SEO especifica dónde el robot puede encontrar tu mapa del sitio - la página que contiene enlaces en toda la organización de tu sitio, como una tabla de contenido: Mapa del sitio: // www. Tu dominio. com / sitemap. xml

Debe señalarse que, además de los comandos enumerados anteriormente, Google también reconoce Permitir. Esto solo se aplica a Google y puede confundir a otros motores, por lo que debe evitar usarlo.

Siempre debe incluir al final de su archivo de texto de robots un Sitemap: línea de comando. Esto garantiza que los robots encuentren su mapa del sitio, lo que les ayuda a navegar más completamente a través de su sitio para que más sitios se indexen.

Algunas notas sobre la sintaxis del archivo de texto de robots:

Los comandos distinguen entre mayúsculas y minúsculas, por lo que necesita una D mayúscula en Deshabilitar.

Siempre debe haber un espacio después de los dos puntos después del comando.
Para excluir un directorio completo, coloque una barra inclinada
después de y también antes de el nombre del directorio. Si está ejecutando en una máquina UNIX,
todo distingue entre mayúsculas y minúsculas. Todos los archivos no específicamente excluidos están disponibles para spidering e indexación.
Para ver una lista completa de los comandos, nombres de robots e instrucciones sobre cómo escribir archivos de texto de robots, vaya a las páginas de Web Robot.

Como salvaguarda adicional, hágalo parte del mantenimiento semanal de su sitio para verificar el archivo de texto de su robot. Es un interruptor de encendido / apagado tan poderoso para los esfuerzos de SEO de su sitio que merece una ojeada regular para asegurarse de que todavía esté "encendido" y funcione correctamente.