html parser

CoLoUrGhOsT · 发表于 17-3-2008 11:55 PM

我想tokenizes 一封email.
我现在用 HTMLEditorKit.ParserCallback来除去全部html tag
可是我面对latin characters（eg:&nb sp;,&Eac ute

的问题。。。他经过parser后，会变乱码。。。请问有什么办法来recognize这些latin字吗？
或者有更好的parser?还是说我的code有问题？这是我的code:
class Html2Text extends HTMLEditorKit.ParserCallback
{
StringBuffer s;

public Html2Text()
{

}

public void parse(Reader in) throws IOException
{
         s = new StringBuffer();
         ParserDelegator delegator = new ParserDelegator();
         delegator.parse(in, this, Boolean.FALSE);
   }

   public void handleText(char[] text, int pos)
   {
         s.append(text);
         s.append("\n"

;
   }

   public String getText()
   {
      return s.toString();
   }
}
请各位帮帮忙。。。谢谢

[ 本帖最后由 CoLoUrGhOsT 于 18-3-2008 12:16 AM 编辑 ]

		自动登录	找回密码
密码			注册

html parser

所属分类: 电脑手机

浏览过的版块