|
我想tokenizes 一封email.
我现在用 HTMLEditorKit.ParserCallback来除去全部html tag
可是我面对latin characters(eg:&nb sp;,&Eac ute 的问题。。。他经过parser后,会变乱码。。。请问有什么办法来recognize这些latin字吗?
或者有更好的parser?还是说我的code有问题?这是我的code:
class Html2Text extends HTMLEditorKit.ParserCallback
{
StringBuffer s;
public Html2Text()
{
}
public void parse(Reader in) throws IOException
{
s = new StringBuffer();
ParserDelegator delegator = new ParserDelegator();
delegator.parse(in, this, Boolean.FALSE);
}
public void handleText(char[] text, int pos)
{
s.append(text);
s.append("\n" ;
}
public String getText()
{
return s.toString();
}
}
请各位帮帮忙。。。谢谢
[ 本帖最后由 CoLoUrGhOsT 于 18-3-2008 12:16 AM 编辑 ] |
|