隨筆 - 0, 文章 - 264, 評論 - 170, 引用 - 0
          數據加載中……

          org.htmlparser.util.EncodingChangeException: character mismatch問題解決

          場景:
          項目中利用htmlparser抽取網頁中的超鏈接,代碼如下:
          URL url = new URL(pageUrl);
          URLConnection conn 
          = url.openConnection();
          parser 
          = new Parser(conn);
          list 
          = parser.parse(new TagNameFilter("a"));
          傳參數pageUrl="http://tv.sohu.com/movie/"運行時,報錯:
          org.htmlparser.util.EncodingChangeException: character mismatch。

          解決辦法:
          修改htmlparser.jar中的org.htmlparser.tags.MetaTag.java,修改如下:
          public void doSemanticAction() throws ParserException {
                  String httpEquiv;
                  String charset;

                  httpEquiv 
          = getHttpEquiv();
                  
          if ("Content-Type".equalsIgnoreCase(httpEquiv)) {
                      
          if (Page.DEFAULT_CHARSET == getPage().getEncoding()) {
                          charset 
          = getPage().getCharset(getAttribute("CONTENT"));
                          getPage().setEncoding(charset);
                      }
                  }
              }
          重新運行,問題解決。

          posted on 2012-08-22 18:04 小一敗涂地 閱讀(1396) 評論(0)  編輯  收藏 所屬分類: 開源工具、插件相關lucene、solr等搜索技術相關

          主站蜘蛛池模板: 汨罗市| 甘肃省| 木兰县| 益阳市| 清丰县| 莱阳市| 新闻| 汉中市| 内丘县| 台南县| 米脂县| 钟山县| 大连市| 湘西| 巴东县| 吉首市| 文昌市| 册亨县| 会东县| 宁阳县| 舟山市| 图木舒克市| 平昌县| 集贤县| 黄浦区| 绥江县| 齐齐哈尔市| 乐都县| 义马市| 仙桃市| 都匀市| 蓬溪县| 搜索| 咸宁市| 东安县| 裕民县| 扎赉特旗| 京山县| 茌平县| 潜山县| 黔西县|