Al hacer unas consultas en el maillist de nutch, me mostraron el uso de esta clase.
Si desde linea de comandos ejecutamos lo siguiente, obtenemos el resultado de hacer el parse de esa url, con todos los posibles enlaces de salida y el contenido.
bin/nutch org.apache.nutch.parse.ParserChecker
Creedme, puede resultar muy útil cuando no sabes por qué dominios no te está haciendo bien el crawl y resulta que es porque te estaba dando una excepción el parser de pdfs...
jueves, 13 de enero de 2011
NUTCH - ParserChecker – Una forma de comprobar el resultado del Parser
13:16
No comments


0 comentarios:
Publicar un comentario