jueves, 13 de enero de 2011

NUTCH - ParserChecker – Una forma de comprobar el resultado del Parser

Al hacer unas consultas en el maillist de nutch, me mostraron el uso de esta clase.

Si desde linea de comandos ejecutamos lo siguiente, obtenemos el resultado de hacer el parse de esa url, con todos los posibles enlaces de salida y el contenido.

bin/nutch org.apache.nutch.parse.ParserChecker

Creedme, puede resultar muy útil cuando no sabes por qué dominios no te está haciendo bien el crawl y resulta que es porque te estaba dando una excepción el parser de pdfs...

0 comentarios:

Publicar un comentario

Twitter Delicious Facebook Digg Stumbleupon Favorites More