java html字符串转dom,在Java中,将html字符串转换为 org.w3c. dom.Document_java_开发99编程知识库...
从HTML字符串转换为org.w3c.dom.Document我在用jtidy-r938.jar这是我的代码:public static Document getDoc(String html) {Tidy tidy = new Tidy();tidy.setInputEncoding("UTF-8");tidy.setOutputEncoding("UTF-8");tidy.setWraplen
从HTML字符串转换为org.w3c.dom.Document
我在用jtidy-r938.jar
这是我的代码:public static Document getDoc(String html) {
Tidy tidy = new Tidy();
tidy.setInputEncoding("UTF-8");
tidy.setOutputEncoding("UTF-8");
tidy.setWraplen(Integer.MAX_VALUE);
//tidy.setPrintBodyOnly(true);
tidy.setXmlOut(false);
tidy.setShowErrors(0);
tidy.setShowWarnings(false);
//tidy.setForceOutput(true);
tidy.setQuiet(true);
Writer out = new StringWriter();
PrintWriter dummyOut = new PrintWriter(out);
tidy.setErrout(dummyOut);
tidy.setSmartIndent(true);
ByteArrayInputStream inputStream = new ByteArrayInputStream(html.getBytes());
Document doc = tidy.parseDOM(inputStream, null);
return doc;
}
但有些时候图书馆工作不正常,有些标签丢失了。
请告诉一个好的开放库来完成这个任务。
非常 感谢您 !
更多推荐




所有评论(0)