WebCrawlerArchitecture

El Protocolo de Exclusión de Robots (REP) de Google, también conocido como robots.txt, es un estándar utilizado por muchos sitios web para indicar a los rastreadores automáticos qué partes del sitio deben rastrearse o no.

Sin embargo, no es el estándar adoptado oficialmente, lo que lleva a diferentes interpretaciones. En un intento por hacer del REP un estándar web oficial, Google ha abierto el parser robots.txt y la biblioteca asociada C++ que creó hace 20 años. Puedes encontrar la herramienta en GitHub.

REP fue concebido en 1994 por un ingeniero de software holandés, Martijn Koster, y hoy en día es el estándar de facto utilizado por los sitios web para instruir a los rastreadores.

El rastreador de Googlebot rastrea el archivo robots.txt para encontrar instrucciones sobre qué partes del sitio web debe ignorar. Si no hay ningún archivo robots.txt, el bot asume que está bien rastrear todo el sitio web.

Sin embargo, este protocolo ha sido interpretado “algo diferente a lo largo de los años” por los desarrolladores, lo que ha llevado a la ambigüedad y dificultad para “escribir las reglas correctamente”.

Por ejemplo, existe incertidumbre en los casos en que el “editor de texto incluye caracteres de la lista de materiales en sus archivos robots.txt“. Mientras que para los desarrolladores de rastreadores y herramientas, siempre hay incertidumbre sobre “¿cómo deberían tratar con archivos robots.txt que tienen cientos de megabytes de tamaño?

Esta es la razón por la que Google quiere que REP sea adoptado oficialmente como un estándar de Internet con reglas fijas para todos. La compañía dice que ha documentado exactamente cómo debe usarse REP y presentó su propuesta a la Internet Engineering Task Force (IETF).

Aunque no podemos decir con certeza que REP se convertirá en un estándar oficial, definitivamente ayudaría a los visitantes de la web, así como a los propietarios de sitios web, mostrando resultados de búsqueda más consistentes y respetando los deseos del sitio.

 

Fuente: Original | maslinux

¿Quién está en línea?

Hay 10780 invitados y ningún miembro en línea