最近這兩天我做了個最新電影網的視頻網站,主要是從土豆抓取來的.所以內容頁就是框架,不便于搜索的抓取。所以我就想加些相關內容,像這樣的內容
由于我就是通過百度搜索關鍵字來填充內容。下面就是我通過htmlParser抓取的代碼。
public class BaiduResultAction extends BaseAction {

public static final Logger logger = Logger
.getLogger(BaiduResultAction.class);

/**
* 組裝新聞
*
* @param url
* @return
*/
public String compNews(String url) {
String returnContent = null;
try {
ParserModel parserModel = new ParserModel();
//table 的抓取標簽
String content = "border=\"0\" cellpadding=\"0\" cellspacing=\"0\"";
parserModel.setContent(content);
NodeClassNameFilter contentNodeClassNameFilter = new NodeClassNameFilter(
TableTag.class, parserModel);

NodeList contentList = getAllNodeList(url,
contentNodeClassNameFilter);

// 對table的處理 只取第一個table中的一項記錄
//如果全部抓取內容,則要去掉最后一個break;
for (int i = 1; i < contentList.size(); i++) {
if (contentList.elementAt(i) instanceof TableTag) {
TableTag tableContent = (TableTag) contentList
.elementAt(i);
int rowCount = tableContent.getRowCount();
TableRow[] arrRows = tableContent.getRows();
for (int j = 0; j < arrRows.length; j++) {
TableRow tableRow = arrRows[j];
TableColumn[] arrColumm = tableRow.getColumns();
for (int k = 0; k < arrColumm.length; k++) {
String columContent = arrColumm[k].toHtml();
if(columContent != null){
String[] split = columContent.split("<br>");
if(split.length>2)
returnContent = split[1].substring(0,split[1].length()-4);
}
break;
}
}
}
break;
}
} catch (IllegalArgumentException e) {
// TODO Auto-generated catch block
e.printStackTrace();
return null;
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return returnContent;
}

public static void main(String[] args) throws Exception {
BaiduResultAction action = new BaiduResultAction();
//抓取sohu的內容.通過百度
String url = "http://www.baidu.com/s?wd=%BA%DA%BF%CD%B5%DB%B9%FAII+11%28112%29++site%3Asohu.com";
// String url = "http://bbs.hoopchina.com/htm_data/96/0712/274754.html";
// List<String> hrefList = sinaAction.parseLink(url, getIndexFilter());
/* logger.debug(sinaAction.compNews(url)); */
action.compNews(url);
}
}
效果如下:http://www.tondou.cn/c/2008-05-12/314146
由于我就是通過百度搜索關鍵字來填充內容。下面就是我通過htmlParser抓取的代碼。





































































是自定義的.看你網名好像是女性哦.