首頁新隨筆新文章聯系聚合

posts - 536,comments - 394,trackbacks - 0

2009年10月

>

日

一

二

三

四

五

六

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

常用鏈接

留言簿(33)

隨筆分類(626)

朋友的博客

zhaoningbo
云云的博客
小林的博客
曉東的博客
老關的博客
老譚的博客

搜索

積分與排名

積分 - 1560790
排名 - 11

閱讀排行榜

評論排行榜

sed多行匹配

在你抓取到的html文件，如果想查找并選出一個標簽間的內容的話，就需要使用多行匹配。這一點上grep不能提供此功能。所以就可以使用sed的多行匹配功能。
比如，你想選出
<html>
<body>
<div class="info">
......
......
</div>

</body>
</html>

兩個div標簽之間的內容。
可以用下面的方法

  $ sed -n -e '/<div>/p' -e '/<div class=\"info\">/,/<\/div>/p' *.html >  all.html

以上方法參考自此文章http://www.fwolf.com/blog/post/346，這篇文章寫得很好。

以下內容均引自上述文章。

Update @ 2007-12-14

在和bxy討論的過程中，又發現sed的另外一種用途，從html或xml中按照tag對應關系，篩選打印出指定的tag內容，使用了正則中的p命令，好像默認就沒有“不能處理多行內容”以及“貪婪性”的問題，很好用，很強大：

    $ sed -n -e '/<title>/p' -e '/<text /,/<\/text>/p' from.xml

注意/<\/text>/不在同一行的時候才好用，不然會匹配到下一個實例出現的位置作為結束邊界。

|----------------------------------------------------------------------------------------|
版權聲明版權所有 @zhyiwww
引用請注明來源 http://www.aygfsteel.com/zhyiwww
|----------------------------------------------------------------------------------------|

posted on 2009-10-29 18:10 zhyiwww 閱讀(8451) 評論(0) 編輯收藏所屬分類: linux

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: ubuntu上安裝repo 禪道PDO_MySQL擴展的安裝 apache+subversion+ssl配置 tar打包時排除一些文件或者目錄 find僅列某一級目錄的內容 linux查看目錄大小紅帽5.4企業版上yum的安裝和配置 Shell腳本執行時出現declare: not found的解決方法 Shell把字符串聲明成變量 Ubuntu下修改PDF默認打開程序