Conceptos de Marketing - Indexación

Dentro de los aspectos ONPAGE que se deben analisar en una página web se encuentra los archivos: - Sitemap.xml - Robots.txt

Fuente

Estos dos archivos son claves para que los buscadores indexen correctamente las páginas de un sitio. Lo primero que hace un robot cuando visita una página es solicitarle al servidor el archivo robots.txt, y lo analiza para saber qué archivos y directorios pretendemos excluir de la indexación, por ejemplo, son los archivos de administrador y páginas con contenido temporal. Para esto se utiliza el comando "disallow" - "Disallow:/cgi.bin/" y el nombre del archivo, puedes ver lo que contiene este archivo colocando en la barra del navegador la url: www.dominodelsitio/robots.txt, se recomienda que este archivo se encuentre en la raíz del sitio, y sea:

Editable por el administrador para bloquear a algún robot, página o parte del servidor
Permita que los robots indexen todo el sistema de manera predeterminada
siga el standard robotstxt.org
También podemos indicarle al buscador de otra manera que no siga un documento html y sus vínculos, esto se hace ubicando etiquetas meta dentro de la misma página web con las indicaciones "no-index" y "no-follow".
meta name="robots" - content="no index, no follow"

Por otra parte en el otro archivo robots.txt puede ponerse en la última linea del documento la dirección de nuestro site map de la siguiente manera:
sidemap:https://www.dominiodelsitio.com/sitemap.xml

El archivo sitemap es un archivo html alojado en nuestro sitio web que contiene una lista de páginas del sitio y le cuenta al buscador cuales son las páginas más importantes del sitio y si tienen contenido nuevo o actualizado, para esto se utilizan las etiquetas

< LASTMOD >, indica la última fecha en que se actualizó esta URL en el sitemap
< PRIORITY > indica la importancia que tiene la página con respecto a las demás que componen el sitio web, asignando un valor numérico, el rango es de 0,0 a 1,0. La asignación predeterminada por página es de 0,5, en donde 1 es el mayor valor.
< CHANGEFREQ > indica la frecuencia de actualización de la página, por ejemplo, en horas, días o semanas, también de manera dinámica, es decir, que cambian cada vez que se muestra.

Se recomienda que los sitemaps tengan estas características:

Se encuentren en la raíz del sitio
Sean dinámicos para que se actualicen automáticamente según los cambios en la navegación, adición de productos o contenidos.
Sean diseñados dentro de los estándares que se encuentran en el sitio web sitemaps.org

En conclusión cuando un robot entra a una página web lo primero que hace es solicitar al servidor el archivo robots.txt y revisar qué archivos o directorios debe excluir de la navegación, así mismo, en este archivo podrá encontrar la url para acceder al sitemap, el sitemap le permite conocer al robot la estructura de páginas de tu sitio web y entre estas cuales son las que tienen mayor prioridad, cuáles han sido actualizadas recientemente en el sitemap y cuales se actualizan periódicamente. Con esta información buscadores como Google, Yahoo y Bing pueden encontrar rápidamente las páginas que no han sido encontradas en rastreos anteriores e indexarlas o que no están enlazadas con otras y son difíciles de encontrar, así como excluir las que no se necesiten y mostrar información fresca en la lista de resultados.

Puedes verificar estos enlaces para tener información con mayor profundidad

https://www.sitemaps.org/protocol.html

http://www.robotstxt.org/