佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

查看: 715|回复: 0

html parser

[复制链接]
发表于 17-3-2008 11:55 PM | 显示全部楼层 |阅读模式
我想tokenizes 一封email.
我现在用 HTMLEditorKit.ParserCallback来除去全部html tag
可是我面对latin characters(eg:&nb sp;,&Eac ute的问题。。。他经过parser后,会变乱码。。。请问有什么办法来recognize这些latin字吗?
或者有更好的parser?还是说我的code有问题?这是我的code:
class Html2Text extends HTMLEditorKit.ParserCallback
{
    StringBuffer s;

    public Html2Text()
    {
   
    }

    public void parse(Reader in) throws IOException
    {
           s = new StringBuffer();
           ParserDelegator delegator = new ParserDelegator();
           delegator.parse(in, this, Boolean.FALSE);
     }

     public void handleText(char[] text, int pos)
     {
           s.append(text);
           s.append("\n";
       }

     public String getText()
     {
          return s.toString();
     }
}
请各位帮帮忙。。。谢谢

[ 本帖最后由 CoLoUrGhOsT 于 18-3-2008 12:16 AM 编辑 ]
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2023 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 22-10-2025 08:09 PM , Processed in 0.112969 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表