隨筆 - 0, 文章 - 264, 評論 - 170, 引用 - 0
          數據加載中……

          org.htmlparser.util.EncodingChangeException: character mismatch問題解決

          場景:
          項目中利用htmlparser抽取網頁中的超鏈接,代碼如下:
          URL url = new URL(pageUrl);
          URLConnection conn 
          = url.openConnection();
          parser 
          = new Parser(conn);
          list 
          = parser.parse(new TagNameFilter("a"));
          傳參數pageUrl="http://tv.sohu.com/movie/"運行時,報錯:
          org.htmlparser.util.EncodingChangeException: character mismatch。

          解決辦法:
          修改htmlparser.jar中的org.htmlparser.tags.MetaTag.java,修改如下:
          public void doSemanticAction() throws ParserException {
                  String httpEquiv;
                  String charset;

                  httpEquiv 
          = getHttpEquiv();
                  
          if ("Content-Type".equalsIgnoreCase(httpEquiv)) {
                      
          if (Page.DEFAULT_CHARSET == getPage().getEncoding()) {
                          charset 
          = getPage().getCharset(getAttribute("CONTENT"));
                          getPage().setEncoding(charset);
                      }
                  }
              }
          重新運行,問題解決。

          posted on 2012-08-22 18:04 小一敗涂地 閱讀(1401) 評論(0)  編輯  收藏 所屬分類: 開源工具、插件相關 、lucene、solr等搜索技術相關

          主站蜘蛛池模板: 大兴区| 益阳市| 柳江县| 宁晋县| 乳山市| 中阳县| 达日县| 昌图县| 广东省| 清河县| 双辽市| 屏南县| 滕州市| 荆门市| 恩施市| 泰宁县| 周宁县| 凤城市| 龙江县| 若羌县| 西和县| 年辖:市辖区| 武宣县| 惠东县| 磐石市| 平塘县| 嘉善县| 托里县| 响水县| 陕西省| 尉氏县| 英吉沙县| 连平县| 白河县| 永定县| 金乡县| 梁河县| 西盟| 读书| 房产| 平谷区|