Hogar Tendencias ¿Qué es apache nutch? - definición de techopedia

¿Qué es apache nutch? - definición de techopedia

Tabla de contenido:

Anonim

Definición - ¿Qué significa Apache Nutch?

Apache Nutch es un producto de software de rastreador web que se puede utilizar para agregar datos de la web. Se utiliza junto con otras herramientas de Apache, como Hadoop, para el análisis de datos.

Techopedia explica Apache Nutch

Apache Nutch es un producto de código abierto con licencia de Apache Software Foundation. Esta comunidad de desarrolladores posee licencias para una variedad de herramientas de software de Apache que pueden clasificar y analizar datos. Una de las tecnologías centrales es Apache Hadoop, una herramienta de análisis de big data que es muy popular en la comunidad empresarial.

Junto con herramientas como Apache Hadoop y funciones para almacenar archivos, análisis y más, el papel de Nutch es recopilar y almacenar datos de la web mediante el uso de algoritmos de rastreo web.

Los usuarios pueden aprovechar comandos simples en Apache Nutch para recopilar información bajo URL. Los usuarios suelen usar Apache Nutch junto con otra herramienta de código abierto, un marco llamado Apache Solr, que puede actuar como un repositorio para los datos recopilados con Apache Nutch.

¿Qué es apache nutch? - definición de techopedia