如鵬網 大學生計算機學習社區

          CowNew開源團隊

          http://www.cownew.com 郵件請聯系 about521 at 163.com

            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
            363 隨筆 :: 2 文章 :: 808 評論 :: 0 Trackbacks

          package com.rupeng.search.discuz;

          import java.net.URLConnection;

          import org.htmlparser.Parser;
          import org.htmlparser.Tag;
          import org.htmlparser.tags.Div;
          import org.htmlparser.util.NodeList;
          import org.htmlparser.util.ParserException;
          import org.htmlparser.visitors.HtmlPage;
          import org.htmlparser.visitors.NodeVisitor;

          public class DiscuzDefaultStyleHTMLParser
          {
           private String title;
           private String bodyText;

           public DiscuzDefaultStyleHTMLParser(URLConnection urlConnection) throws ParserException
           {
            Parser parser = new Parser(urlConnection);
            HtmlPage visitor = new HtmlPage(parser);
            parser.visitAllNodesWith(visitor);
            this.title = visitor.getTitle();
            NodeList nodeList = visitor.getBody();
            final StringBuffer sb = new StringBuffer();
            nodeList.visitAllNodesWith(new NodeVisitor() {

             @Override
             public void visitTag(Tag tag)
             {
              //因為主題、回帖都是包含在Div里,而且主題、回帖的divid都是以“postmessage_”開頭
              if (tag instanceof Div)
              {
               Div div = (Div) tag;
               String divId = div.getAttribute("id");
               if (divId != null&& divId.startsWith("postmessage_"))
               {
                sb.append(div.getStringText());
               }
              }
             }
            });

            this.bodyText = sb.toString();
           }

           public String getTitle()
           {
            return title;
           }

           public String getThreadText()
           {
            return bodyText;
           }
          }

          posted on 2009-08-13 19:26 CowNew開源團隊 閱讀(691) 評論(0)  編輯  收藏

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 连平县| 阳高县| 珠海市| 石林| 长岭县| 金阳县| 浪卡子县| 吉水县| 观塘区| 中山市| 双峰县| 施甸县| 宁河县| 灵丘县| 堆龙德庆县| 新民市| 嘉善县| 双城市| 军事| 临江市| 勐海县| 赣州市| 梁山县| 门源| 淮阳县| 天水市| 曲靖市| 泽州县| 云安县| 呼伦贝尔市| 威远县| 南皮县| 上蔡县| 白朗县| 山东| 苗栗县| 霸州市| 伊金霍洛旗| 吉水县| 江门市| 龙山县|