TagSoup vs Jsoup vs Analizador de HTML vs HotSax vs [cerrado]


La abundancia de analizadores HTML para elegir (y seguir con) es alucinante:

Http://java-source.net/open-source/html-parsers

¿Cómo elijo uno que mejor se adapte a los siguientes requisitos:

  1. Maduro (menos errores que el resto)
  2. Vivir y respirar (es decir, ser mantenido)
  3. Rápido y eficiente en el uso de los recursos (destinado a ejecutarse en Android)

Basado en su experiencia, qué analizador HTML recomendaría (para cumplir con los requisitos anteriores) y por qué?

Author: Regex Rookie, 2011-03-03

1 answers

Bueno, encontré la respuesta, que fue dada por @BalusC en un hilo diferente :

  1. Si solo desea utilizar un XML basado herramienta para recorrerlo: JTidy.
  2. Si desea probar unitariamente el HTML: HtmlUnit
  3. Si desea extraer datos específicos desde el HTML: Jsoup

Gracias @BalusC.

 38
Author: Regex Rookie,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-05-23 11:33:26