隨筆 - 0, 文章 - 264, 評論 - 170, 引用 - 0
          數據加載中……

          org.htmlparser.util.EncodingChangeException: character mismatch問題解決

          場景:
          項目中利用htmlparser抽取網頁中的超鏈接,代碼如下:
          URL url = new URL(pageUrl);
          URLConnection conn 
          = url.openConnection();
          parser 
          = new Parser(conn);
          list 
          = parser.parse(new TagNameFilter("a"));
          傳參數pageUrl="http://tv.sohu.com/movie/"運行時,報錯:
          org.htmlparser.util.EncodingChangeException: character mismatch。

          解決辦法:
          修改htmlparser.jar中的org.htmlparser.tags.MetaTag.java,修改如下:
          public void doSemanticAction() throws ParserException {
                  String httpEquiv;
                  String charset;

                  httpEquiv 
          = getHttpEquiv();
                  
          if ("Content-Type".equalsIgnoreCase(httpEquiv)) {
                      
          if (Page.DEFAULT_CHARSET == getPage().getEncoding()) {
                          charset 
          = getPage().getCharset(getAttribute("CONTENT"));
                          getPage().setEncoding(charset);
                      }
                  }
              }
          重新運行,問題解決。

          posted on 2012-08-22 18:04 小一敗涂地 閱讀(1401) 評論(0)  編輯  收藏 所屬分類: 開源工具、插件相關lucene、solr等搜索技術相關

          主站蜘蛛池模板: 吉水县| 元阳县| 迭部县| 黄陵县| 南皮县| 兴山县| 青田县| 隆林| 大埔区| 微山县| 乌鲁木齐市| 澄江县| 庄浪县| 林芝县| 绿春县| 惠水县| 开平市| 驻马店市| 荆州市| 沛县| 河津市| 宁陕县| 兴安县| 大丰市| 吴旗县| 韶山市| 永济市| 亚东县| 玉环县| 香港| 岳池县| 太仆寺旗| 永平县| 奈曼旗| 泌阳县| 舞钢市| 全州县| 黄龙县| 吴忠市| 图木舒克市| 荣成市|