Hogar Audio ¿Qué es un rastreador web? - definición de techopedia

¿Qué es un rastreador web? - definición de techopedia

Tabla de contenido:

Anonim

Definición: ¿qué significa Web Crawler?

Un rastreador web es un bot de Internet que ayuda en la indexación web. Rastrean una página a la vez a través de un sitio web hasta que todas las páginas hayan sido indexadas. Los rastreadores web ayudan a recopilar información sobre un sitio web y los enlaces relacionados con ellos, y también ayudan a validar el código HTML y los hipervínculos.

Un rastreador web también se conoce como araña web, indexador automático o simplemente rastreador.

Techopedia explica Web Crawler

Los rastreadores web recopilan información como la URL del sitio web, la información de la metaetiqueta, el contenido de la página web, los enlaces en la página web y los destinos que salen de esos enlaces, el título de la página web y cualquier otra información relevante. Realizan un seguimiento de las URL que ya se han descargado para evitar volver a descargar la misma página. Una combinación de políticas como la política de re-visita, política de selección, política de paralelización y política de cortesía determina el comportamiento del rastreador web. Hay muchos desafíos para los rastreadores web, a saber, la gran y continua evolución de la World Wide Web, las compensaciones de selección de contenido, las obligaciones sociales y el trato con adversarios.

Los rastreadores web son los componentes clave de los motores de búsqueda y sistemas web que buscan en las páginas web. Ayudan a indexar las entradas web y permiten a los usuarios enviar consultas contra el índice y también proporcionan las páginas web que coinciden con las consultas. Otro uso de los rastreadores web es el archivado web, que implica grandes conjuntos de páginas web que se recopilan y archivan periódicamente. Los rastreadores web también se usan en la minería de datos, en el que las páginas se analizan en busca de diferentes propiedades como estadísticas, y luego se realizan análisis de datos en ellas.

¿Qué es un rastreador web? - definición de techopedia