awk详解�Q�from ChinaUnix.net)

bluestone — Thu, 01 Jun 2006 06:11:00 GMT

作者：cicc 2005-02-03 15:53:59 来自�Q�Linux先生

    a w k是一�U�程序语�a��Q�对文档资料的处理具有很强的功能。awk 名称是由它三个最初设计者的姓氏的第一个字母而命名的�Q?Alfred V. Aho、Peter J. We i n b e rg e r、Brian W. Kernighan�?br />   a w k最初在1 9 7 7�q�完成�? 9 8 5�q�发表了一个新版本的a w k�Q�它的功能比旧版本增��Z��不少。a w k能够用很短的�E�序�Ҏ��档里的资料做修改、比较、提取、打印等处理。如果��用C 或P a s c a l�{�语�a��~�写�E�序完成上述的�Q务会十分不方便而且很花�Ҏ��_��所写的�E�序也会很大�?br />   a w k不仅仅是一个编�E�语�a��Q�它�q�是L i n u x�pȝ��理员和�E�序员的一个不可缺��的工具。a w k语言本��n十分好学�Q�易于掌握，�q�且特别的灵�z�R�?br />   gawk 是G N U计划下所做的a w k�Q�gawk 最初在1 9 8 6�q�完成，之后不断地被改进、更新。gawk 包含awk 的所有功能�?br />
6.1 gawk的主要功�?br />
   gawk 的主要功能是针对文�g的每一�? l i n e )�Q�也��是每一条记录，搜寻指定的格式。当某一行符合指定的格式�Ӟ��gawk ��׃��在此行执行被指定的动作。gawk 依此方式自动处理输入文�g的每一行直到输入文件档案结束�?br />   g a w k�l�常用在如下的几个方面：
   �?�Ҏ��要求选择文�g的某几行�Q�几列或部分字段以供昄��输出�?br />   �?分析文档中的某一个字出现的频率、位�|�等�?br />   �?�Ҏ��某一个文档的信息准备格式化输出�?br />   �?以一个功能十分强大的方式�q��o输出文档�?br />   �?�Ҏ��文档中的数��D��行计��?br />
6.2 如何执行gawk�E�序

   基本上有两种�Ҏ��可以执行g a w k�E�序�?br />   如果gawk �E�序很短�Q�则可以��gawk 直接写在命��o行，如下所�C�：
      gawk 'program' input-file1 input-file2 ...

   其中program 包括一些pattern 和a c t i o n�?br />   如果gawk �E�序较长�Q�较为方便的做法是将gawk �E�序存在一个文件中�Q�gawk 的格式如下所�C�：
   gawk -f program-file input-file1 input-file2 ...
   gawk �E�序的文件不止一个时�Q�执行gawk 的格式如下所�C�：

   gawk -f program-file1 -f program-file2 ... input-file1 input-file2 ...

6.3 文�g、记录和字段

   一般情况下�Q�g a w k可以处理文�g中的数值数据，但也可以处理字符串信息。如果数据没有存储在文�g中，可以通过��道命��o和其他的重定向方法给g a w k提供输入。当�Ӟ�� g a w k只能处理文本文�g�Q�A S C I I码文�Ӟ��。�?!--StartFragment -->电话��L��本就是一个g a w k可以处理的文件的��单例子。电话号码本由很多条目组成，每一个条目都有同��L��格式�Q�姓、名、地址、电话号码。每一个条目都是按字母��序排列。在g a w k中，每一个这��L��条目叫做一个记录。它是一个完整的数据的集合。例如，电话��L��本中的Smith John�q�个条目�Q�包括他的地址和电话号码，��是一条记录�?br />   记录中的每一��叫做一个字�D�c��在g a w k中，字段是最基本的单位。多个记录的集合�l�成了一个文件�?br />   大多数情况下�Q�字�D�之间由一个特�D�的字符分开�Q�像�I�格、TA B、分��L��。这些字�W�叫做字�D�分隔符。请看下面这�? e t c / p a s s w d文�g�Q?br />t p a r k e r ; t 3 6 s 6 2 h s h ; 5 0 1 ; 1 0 1 ; Tim Parker;/home/tparker;/bin/bash
etreijs;2ys639dj3h;502;101;Ed Tr e i j s ; / h o m e / e t r e i j s ; / b i n / t c s h
y c h o w ; 1 h 2 7 s j ; 5 0 3 ; 1 0 1 ; Yvonne Chow;/home/ychow;/bin/bash
   你可以看�? e t c / p a s s w d文�g使用分号作�ؓ字段分隔�W��? e t c / p a s s w d文�g中的每一行都包括七个字段�Q�用户名�Q�口令；用户I D�Q�工作组I D�Q�注释； h o m e目录�Q�启始的外壳。如果你惌��查找�W�六个字�D�，只需数过五个分号卛_��?br />   但考虑��C��下电话号码本的例子，你就会发��C��些问题：
Smith John 13 Wilson St. 555-1283
Smith John 2736 Artside Dr Apt 123 555-2736
Smith John 125 Westmount Cr 555-1726
   虽然我们能够分��L出每个记录包括四个字�D�，但g a w k却无能�ؓ力。电话号码本使用�I�格作�ؓ分隔�W�，所以g a w k认�ؓS m i t h是第一个字�D�， John 是第二个字段�Q? 3是第三个字段�Q�依�ơ类推。就g a w k而言�Q�如果用�I�格作�ؓ字段分隔�W�的话，则第一个记录有六个字段�Q�而第二个记录有八个字�D�c�?br />   所以，我们必须扑և�一个更好的字段分隔�W�。例如，像下面一样��用斜杠作为字�D�分隔符�Q?br />Smith/John/13 Wilson St./555-1283
Smith/John/2736 Artside Dr/Apt/123/555-2736
Smith/John/125 Westmount Cr/555-1726
   如果你没有指定其他的字符作�ؓ字段分隔�W�，那么g a w k��缺省地使用�I�格或TA B作�ؓ字段分隔�W��?br />
6.4 模式和动�?br />
   在g a w k语言中每一个命令都�׃��部分�l�成�Q�一个模式（ p a t t e r n�Q�和一个相应的动作�Q�a c t i o n�Q�。只要模式符合，g a w k��׃��执行相应的动作。其中模式部分用两个斜杠括�v来，而动作部分用一对花括号括�v来。例如：
/ p a t t e r n 1 / { a c t i o n 1 }
/ p a t t e r n 2 / { a c t i o n 2 }
/ p a t t e r n 3 / { a c t i o n 3 }
   所有的g a w k�E�序都是��p��L��一对对的模式和动作�l�成的。其中模式或动作都能够被省略�Q�但是两个不能同时被省略。如果模式被省略�Q�则对于作�ؓ输入的文仉��面的每一行，动作都会被执行。如果动作被省略�Q�则�~�省的动作被执行�Q�既昄��出所有符合模式的输入行而不做�Q何的改动�?br />   下面是一个简单的例子�Q�因为gawk �E�序很短�Q�所以将gawk �E�序直接写在外壳命��o行：
gawk '/tparker/' /etc/passwd

    此程序在上面提到�? e t c / p a s s w d文�g中寻扄��合t p a r k e r模式的记录�ƈ昄��Q�此例中没有动作�Q�所以缺省的动作被执行）�?br />   让我们再看一个例子：
   gawk '/UNIX/{print $2}' file2.data
   此命令将逐行查找f i l e 2 . d a t a文�g中包含U N I X的记录，�q�打印这些记录的�W�二个字�D�c��你也可以在一个命令中使用多个模式和动作对�Q�例如：
gawk '/scandal/{print $1} /rumor/{print $2}' gossip_file
   此命令搜索文件g o s s i p _ f i l e中包括s c a n d a l的记录，�q�打印第一个字�D�c��然后再从头搜烦g o s s i p _ f i l e中包括r u m o r的记录，�q�打印第二个字段�?br />
6.5 比较�q�算和数��D��?br />
   g a w k有很多比较运��符�Q�下面列出重要的几个�Q?br />= = 相等
! = 不相�{?br />> 大于
< ��于
> = 大于�{�于
< = ��于�{�于
   例如:  gawk '$4 > 100' testfile
   ��会昄��文�gtestfile 中那些第四个字段大于1 0 0的记录�?br />   下表列出了g a w k中基本的数��D��符�?br />   �q�算�W�说明示�?br />   + 加法�q�算2+6
   - 减法�q�算6-3
   * 乘法�q�算2*5
   / 除法�q�算8/4
   ^ 乘方�q�算3^2 (=9)
   % 求余�?%4 (=1)
   例如:{print $3/2} 昄��W�三个字�D�被2除的�l�果�?br />   在g a w k中，�q�算�W�的优先权和一般的数学�q�算的优先权一栗��例如：{print $1+$2*$3}
   昄��W�二个字�D�和�W�三个字�D늛�乘，然后和第一个字�D늛�加的�l�果�?br />   你也可以用括��h��变优先次序。例如：
   {print ($1+$2)*$3}
   昄��W�一个字�D�和�W�二个字�D늛�加，然后和第三个字段�怹�的结果�?br />
6.6 内部函数

g a w k中有各种的内部函敎ͼ�现在介绍如下�Q��?br />
6.6.1 随机数和数学函数

sqrt(x) 求x 的��^�Ҏ��
sin(x) 求x 的正弦函�?br />cos(x) 求x 的余弦函�?br />a t a n 2 ( x�Q�y) 求x / y的余切函�?br />log(x) 求x 的自然对�?br />exp(x) 求x 的e �ơ方
int(x) 求x 的整数部�?br />rand() �? �?之间的随机数
srand(x) ��x 讄��为r a n d ( )的种子数

6.6.2 字符串的内部函数

�?i n d e x ( i n�Q�find) 在字�W�串in 中寻扑֭��W�串find �W�一�ơ出现的地方�Q�返回值是字符串find 出现在字�W�串in 里面的位�|�。如果在字符串in 里面找不到字�W�串f i n d�Q�则�q�回��gؓ0�?br />例如�Q?br />print index("peanut"�Q? a n " )
昄��l�果3�?br />�?length(string) 求出string 有几个字�W��?br />例如�Q?br />l e n g t h ( " a b c d e " )
昄��l�果5�?br />�?m a t c h ( s t r i n g�Q�r e g e x p ) 在字�W�串string 中寻扄��合regexp 的最�ѝ��最靠左边的子字�W�串。返回值是regexp 在string 的开始位�|�，即i n d e x倹{��match 函数��会讄��pȝ��变量R S TA RT �{�于i n d e x的��|��pȝ��变量RLENGTH �{�于�W�合的字�W�个数。如果不�W�合�Q�则会设�|�R S TA RT �?、RLENGTH �? 1�?br />�?s p r i n t f ( f o r m a t�Q�e x p r e s s i o n 1�Q? . . ) 和printf �c�M��Q�但是sprintf �q�不昄��Q�而是�q�回字符丌Ӏ�例如：
sprintf("pi = %.2f (approx.)"�Q? 2 / 7 )
�q�回的字�W�串为pi = 3.14 (approx.)
�?s u b ( r e g e x p�Q�r e p l a c e m e n t�Q�t a rg e t ) 在字�W�串t a rget 中寻扄��合regexp 的最�ѝ��最靠左的地方，以字串replacement 代替最左边的r e g e x p�?br />例如�Q?br />str = "water�Q�w a t e r�Q�e v e r y w h e r e "
s u b ( / a t /�Q?" i t h "�Q�s t r )
�l�果字符串s t r会变�?br />w i t h e r�Q�w a t e r�Q�e v e r y w h e r e
�?g s u b ( r e g e x p�Q�r e p l a c e m e n t�Q�t a rget) 与前面的s u b�c�M��。在字符串t a rget 中寻扄��合r e g e x p的所有地方，以字�W�串replacement 代替所有的r e g e x p。例如：
s t r = " w a t e r�Q�w a t e r�Q�e v e r y w h e r e "g s u b ( / a t /�Q?" i t h "�Q�s t r )
�l�果字符串s t r会变�?br />w i t h e r�Q�w i t h e r�Q�e v e r y w h e r e
�?s u b s t r ( s t r i n g�Q�s t a r t�Q�length) �q�回字符串string 的子字符�Ԍ��q�个子字�W�串的长度�ؓl e n g t h�Q�从�W�start 个位�|�开始。例如：
s u b s t r ( " w a s h i n g t o n "�Q?�Q? )�q�回��gؓi n g
如果没有length �Q�则�q�回的子字符串是从第start 个位�|�开始至�l�束�?br />例如�Q?br />s u b s t r ( " w a s h i n g t o n "�Q? )
�q�回��gؓi n g t o n�?br />�?tolower(string) ��字�W�串s t r i n g的大写字母改为小写字母�?br />例如�Q?br />tolower("MiXeD cAsE 123")
�q�回��gؓmixed case 123�?br />�?toupper(string) ��字�W�串s t r i n g的小写字母改为大写字母�?br />例如�Q?br />toupper("MiXeD cAsE 123")
�q�回��gؓMIXED CASE 123�?br />
6.6.3 输入输出的内部函�?br />
�?close(filename) ��输入或输出的文件filename 关闭�?br />�?system(command) 此函数允许用��h��行操作系�l�的指��o�Q�执行完毕后��回到g a w k�E�序。例如：
BEGIN {system("ls")}

6.7 字符串和数字

字符串就是一�q�串的字�W�，它可以被g a w k逐字地翻译。字�W�串用双引号括�v来。数字不能用双引��h��h��Q��ƈ且g a w k��它当作一个数倹{��例如：
gawk '$1 != "Tim" {print}' testfile
此命令将昄��W�一个字�D�和Ti m不相同的所有记录。如果命令中Ti m两边不用双引��P��g a w k��不能正��执行。再如：
gawk '$1 == "50" {print}' testfile
   此命令将昄��所有第一个字�D�和5 0�q�个字符串相同的记录。g a w k不管�W�一字段中的数值的大小�Q�而只是逐字地比较。这�Ӟ��字符�? 0和数�? 0�q�不相等�?br />
6.8 格式化输�?br />
   我们可以让动作显�C�Z��些比较复杂的�l�果。例如：
gawk '$1 != "Tim" {print $1�Q? 5�Q? 6�Q?2}' testfile
��显�C�t e s t f i l e文�g中所有第一个字�D�和Ti m不相同的记录的第一、第五、第六和�W�二个字�D�c��进一步，你可以在p r i n t动作中加入字�W�串�Q�例如：
gawk '$1 != "Tim" {print "The entry for "�Q? 1�Q?is not Tim. "�Q?2}' testfile
   p r i n t动作的每一部分用逗号隔开�?br />   借用C语言的格式化输出指��o�Q�可以让g a w k的输出�Ş式更为多栗��这�Ӟ��应该用p r i n t f而不是p r i n t。例如：
{printf "%5s likes this language\n"�Q? 2 }
p r i n t f中的%5s 部分告诉gawk 如何格式化输出字�W�串�Q�也��是输出5个字�W�长。它的值由printf 的最后部分指出，在此是第二个字段。\ n是回车换行符。如果第二个字段中存储的是�h名，则输出结果大致如下：
Tim likes this language
G e o ff likes this language
Mike likes this language
Joe likes this language
   gawk 语言支持的其他格式控制符号如下：
�?c 如果是字�W�串�Q�则昄��W�一个字�W�；如果是整敎ͼ�则将数字以ASCII 字符的�Ş式显�C��?br />例如�Q?br />printf �? c”，6 5
�l�果��显�C�字母A�?br />�?d 昄��十进制的整数�?br />�?i 昄��十进制的整数�?br />�?e ��Q�Ҏ��以科学记数法的�Ş式显�C��?br />例如�Q?br />print �? 4 . 3 e”，1 9 5 0
�l�果��显�C? . 9 5 0 e + 0 3�?br />�?f ��数字以��点的�Ş式显�C��?br />�?g ��数字以�U�学记数法的形式或��Q点的形式昄��。数字的�l�对值如果大于等�? . 0 0 0 1�?br />以��Q点的形式昄��Q�否则以�U�学记数法的形式昄��?br />�?o 昄��无符��L��八进制整数�?br />�?s 昄��一个字�W�串�?br />�?x 昄��无符��L��十六�q�制整数�? 0�? 5以a至f表示�?br />�?X 昄��无符��L��十六�q�制整数�? 0�? 5以A至F表示�?br />�?% 它�ƈ不是真正的格式控制字�W�，% %��显�C?�?br />当你使用�q�些格式控制字符�Ӟ��你可以在控制字符前给出数字，以表�C�Z��用的几位或几个字符。例如，6 d表示一个整数有6位。再��L��下面的例子：
{printf "%5s works for %5s and earns %2d an hour"�Q? 1�Q? 2�Q? 3 }
��会产生�c�M��如下的输出：
Joe works for Mike and earns 12 an hour
当处理数据时�Q�你可以指定数据的精��位�?br />{printf "%5s earns $%.2f an hour"�Q? 3�Q? 6 }
其输出将�c�M��于：
Joe earns $12.17 an hour

你也可以使用一些换码控制符格式化整行的输出。之所以叫做换码控制符�Q�是因�ؓg a w k对这些符��h��Ҏ��的解释。下面列出常用的换码控制�W�：

\a 警告或响铃字�W��?br />\b 后退一根{�?br />\f 换页�?br />\n 换行�?br />\r 回�R�?br />\t Ta b�?br />\v 垂直的t a b�?br />
6.9 改变字段分隔�W?br />
   在g a w k中，�~�省的字�D�分隔符一般是�I�格�W�或TA B。但你可以在命��o行��? F选项改变字符分隔�W�，只需�? F后面跟着你想用的分隔�W�即可�?br />gawk -F" ;"'/tparker/{print}' /etc/passwd
   在此例中�Q�你��字�W�分隔符讄��成分受��注意： - F必须是大写的�Q�而且必须在第一个引号之前�?br />
6.10 元字�W?br />
g a w k语言在格式匹配时有其�Ҏ��的规则。例如， c a t能够和记录中��M��位置有这三个字符的字�D�匹配。但有时你需要一些更为特�D�的匚w��。如果你惌��c a t只和c o n c a t e n a t e匚w��Q�则需要在格式两端加上�I�格�Q?br />/ cat / {print}
再例如，你希望既和c a t又和C AT匚w��Q�则可以使用�?|)�Q?br />/ cat | CAT / {print}
在g a w k中，有几个字�W�有�Ҏ��意义。下面列出可以用在g a w k格式中的�q�些字符�Q?br />�?^ 表示字段的开始�?br />例如�Q?3 ~ /^b/
   如果�W�三个字�D�以字符b开始，则匹配�?br />�?$ 表示字段的结束�?br />例如�Q?3 ~ /b$/
如果�W�三个字�D�以字符b�l�束�Q�则匚w��?br />�?. 表示和�Q何单字符m匚w��?br />例如�Q?3 ~ /i.m/
如果�W�三个字�D�|��字符i�Q�则匚w��?br />�?| 表示“或”�?br />例如�Q? c a t | C AT/
和cat 或C AT字符匚w��?br />�?* 表示字符的零到多�ơ重复�?br />例如�Q?UNI*X/
和U N X、U N I X、U N I I X、U N I I I X�{�匹配�?br />�?+ 表示字符的一�ơ到多次重复�?br />例如�Q?br />/UNI+X/
和U N I X、U N I I X�{�匹配�?br />�?\{a�Q�b\} 表示字符a�ơ到b�ơ之间的重复�?br />例如�Q?br />/ U N I \ { 1�Q? \ } X
和U N I X、U N I I X和U N I I I X匚w��?br />�?? 表示字符零次和一�ơ的重复�?br />例如�Q?br />/UNI?X/
和UNX 和U N I X匚w��?br />�?[] 表示字符的范围�?br />例如�Q?br />/I[BDG]M/
和I B M、I D M和I G M匚w��
�?[^] 表示不在[ ]中的字符�?br />例如�Q?br />/I[^DE]M/
和所有的以I开始、M�l�束的包括三个字�W�的字符串匹配，除了I D M和I E M之外�?br />
6.11 调用gawk�E�序

当需要很多对模式和动作时�Q�你可以�~�写一个g a w k�E�序�Q�也叫做g a w k脚本�Q�。在g a w k�E�序中，你可以省略模式和动作两边的引��P��因�ؓ在g a w k�E�序中，模式和动作从哪开始和从哪�l�束时是很显然的。你可以使用如下命��o调用g a w k�E�序�Q?br />gawk -f script filename
此命令��g a w k�Ҏ��件f i l e n a m e执行名�ؓs c r i p t的g a w k�E�序�?br />如果你不希望使用�~�省的字�D�分隔符�Q�你可以在f选项后面跟着F选项指定新的字段分隔�W�（当然你也可以在g a w k�E�序中指定）�Q�例如，使用分号作�ؓ字段分隔�W�：
gawk -f script -F";" filename
如果希望gawk �E�序处理多个文�g�Q�则把各个文件名�|�列其后�Q?br />gawk -f script filename1 filename2 filename3 ...
�~�省情况下， g a w k的输出将送往屏幕。但你可以��用L i n u x的重定向命��o使g a w k的输出送往一个文�Ӟ��
gawk -f script filename > save_file

6.12 BEGIN和END

   有两个特�D�的模式在g a w k中非常有用。B E G I N模式用来指明g a w k开始处理一个文件之前执行一些动作。B E G I N�l�常用来初始化数��|��讄��参数�{�。E N D模式用来在文件处理完成后执行一些指令，一般用作�ȝ��或注释�?br />BEGIN 和E N D中所有要执行的指令都应该用花括号括�v来。BEGIN 和E N D必须使用大写�?br />��L��下面的例子：
BEGIN { print "Starting the process the file" }
$1 == "UNIX" {print}
$2 > 10 {printf "This line has a value of %d"�Q? 2 }
END { print "Finished processing the file. Bye!"}
此程序中�Q�先昄��一条信息： Starting the process the file�Q�然后将所有第一个字�D늭�于U N I X的整条记录显�C�出来，然后再显�C�第二个字段大于10 的记录，最后显�C�Z��息： F i n i s h e dprocessing the file. Bye!�?br />
6.13 变量

在g a w k中，可以用等�? = )�l�一个变量赋��|��
var1 = 10
在g a w k中，你不必事先声明变量类型�?br />��L��下面的例子：
$1 == "Plastic" { count = count + 1 }
如果�W�一个字�D�|��P l a s t i c�Q�则c o u n t的值加1。在此之前，我们应当�l�c o u n t赋予�q�初��|��一般是在B E G I N部分�?br />下面是比较完整的例子�Q?br />BEGIN { count = 0 }
$5 == "UNIX" { count = count + 1 }
END { printf "%d occurrences of UNIX were found"�Q�count }
变量可以和字�D�和数��g��起��用，所以，下面的表辑ּ�均�ؓ合法�Q?br />count = count + $6
count = $5 - 8
count = $5 + var1
变量也可以是格式的一部分�Q�例如：
$2 > max_value {print "Max value exceeded by "�Q?2 -max_value}
$4 - var1 < min_value {print "Illegal value of "�Q? 4 }

6.14 内置变量

g a w k语言中有几个十分有用的内�|�变量，现在列于下面�Q?br />
NR 已经��d��q�的记录数�?br />FNR 从当前文件中��d��的记录数�?br />F I L E N A M E 输入文�g的名字�?br />FS 字段分隔�W�（�~�省为空��|��?br />RS 记录分隔�W�（�~�省为换行）�?br />OFMT 数字的输出格式（�~�省�? g�Q��?br />OFS 输出字段分隔�W��?br />ORS 输出记录分隔�W��?br />NF 当前记录中的字段数�?br />
如果你只处理一个文�Ӟ��则NR 和FNR 的值是一��L��。但如果是多个文�Ӟ�� N R是对所有的文�g来说的，而FNR 则只是针对当前文件而言。例如：
NR <= 5 {print "Not enough fields in the record"}
��查记录数是否��于5�Q�如果小�?�Q�则昄��出错信息�?br />F S十分有用�Q�因为F S控制输入文�g的字�D�分隔符。例如，在B E G I N格式中，使用如下�?br />命��o�Q?br />F S = " : "

6.15 控制�l�构

6.15.1 if 表达�?br />
if 表达式的语法如下�Q?br />if (expression){
c o m m a n d s
}
e l s e {
c o m m a n d s
}
例如�Q?br /># a simple if loop
(if ($1 == 0){
print "This cell has a value of zero"
}
else {
printf "The value is %d\n"�Q? 1
} )
再看下一个例子：
# a nicely formatted if loop
(if ($1 > $2){
print "The first column is larger"
} else {
print "The second column is larger"
} )

6.15.2 while 循环
while 循环的语法如下：
while (expression){
c o m m a n d s
}
例如�Q?br /># interest calculation computes compound interest
# inputs from a file are the amount�Q�interest_rateand years
{var = 1
while (var <= $3) {
p r i n t f ( " % f \ n "�Q? 1 * ( 1 + $ 2 ) ^ v a r )
v a r + +}
}

6.15.3 for 循环

for 循环的语法如下：
for (initialization; expression; increment) {
c o m m a n d
}
例如�Q?br /># interest calculation computes compound interest
# inputs from a file are the amount�Q�interest_rateand years
{for (var=1; var <= $3; var++) {
p r i n t f ( " % f \ n "�Q? 1 * ( 1 + $ 2 ) ^ v a r )
}
}
6.15.4 next 和exit

next 指��o用来告诉gawk 处理文�g中的下一个记录，而不��现在正在做什么。语法如下：
{ command1
c o m m a n d 2
c o m m a n d 3
n e x t
c o m m a n d 4
}
   �E�序只要执行到n e x t指��o�Q�就跛_��下一个记录从头执行命令。因此，本例中， c o m m a n d 4指��o永远不会被执行�?br />   �E�序遇到e x i t指��o后，��p�{到程序的末尾��L��行E N D�Q�如果有E N D的话�?br />
6.16 数组

g a w k语言支持数组�l�构。数�l�不必事先初始化。声明一个数�l�的�Ҏ��如下�Q?br />a r r a y n a m e [ n u m ] = v a l u e
��L��下面的例子：
# reverse lines in a file
{line[NR] = $0 } # remember each line
END {var=NR # output lines in reverse order
while (var > 0){
print line[var]
v a r - -
}
}
此段�E�序��d��一个文件的每一行，�q�用相反的顺序显�C�出来。我们��用N R作�ؓ数组的下标来存储文�g的每一条记录，然后在从最后一条记录开始，��文仉��条地显�C�出来�?br />
6.17 用户自定义函�?br />
复杂的gawk �E�序常常可以使用自己定义的函数来��化。调用用戯��定义函数与调用内部函数的�Ҏ��一栗��函数的定义可以攑֜�gawk �E�序的�Q何地斏V�?br />用户自定义函数的格式如下�Q?br />function name (parameter-list) {
b o d y - o f - f u n c t i o n
}
name 是所定义的函数的名称。一个正��的函数名称可包括一序列的字母、数字、下标线( u n d e r s c o r e s )�Q�但是不可用数字做开头。p a r a m e t e r-list 是函数的全部参数的列表，各个参数之间以逗点隔开。body-of-function 包含gawk 的表辑ּ��Q�它是函数定义里最重要的部分，它决定函数实际要做的事情�?br />下面�q�个例子�Q�会��每个记录的�W�一个字�D늚�值的�q�x��与第二个字段的值的�q�x��加�v来�?br />{print "sum ="�Q�S q u a r e S u m ( $ 1�Q? 2 ) }
function SquareSum(x�Q�y) {
s u m = x * x + y * y
return sum
}
   到此�Q�我们已�l�知道了g a w k的基本用法。g a w k语言十分易学好用�Q�例如，你可以用g a w k�~�写一�D�小�E�序来计��一个目录中所有文件的个数和容量。如果用其他的语�a��Q�如C语言�Q�则会十分的�ȝ��Q�相反，g a w k只需要几行就可以完成此工作�?br />
6.18 几个实例

最后，再�D几个g a w k的例子：
gawk '{if (NF > max) max = NF}
END {print max}'
此程序会昄��所有输入行之中字段的最大个数�?br />gawk 'length($0) > 80'
此程序会昄��q?0 个字�W�的每一行。此处只有模式被列出�Q�动作是采用�~�省值显�C�整个记录�?br />gawk 'NF > 0'
昄��拥有臛_��一个字�D늚�所有行。这是一个简单的�Ҏ��Q�将一个文仉��的所有空白行删除�?br />gawk 'BEGIN {for (i = 1; i <= 7; i++)
print int(101 * rand())}'
此程序会昄��围是0 �?00 之间�? 个随机数�?br />ls -l files | gawk '{x += $4}; END {print "total bytes: " x}'
此程序会昄��出所有指定的文�g的��d��节数�?br />expand file | gawk '{if (x < length()) x = length()}
END {print "maximum line length is " x}'
此程序会��指定文仉��最长一行的长度昄��出来。expand 会将tab �Ҏ��s p a c e�Q�所以是用实际的双��界来做长度的比较�?br />gawk 'BEGIN {FS = ":"}
{print $1 | "sort"}' /etc/passwd
此程序会��所有用��L��d��名称�Q�依照字母的��序昄��出来�?br />gawk '{nlines++}
END {print nlines}'
此程序会��一个文件的总行数显�C�出来�?br />gawk 'END {print NR}'
此程序也会将一个文件的总行数显�C�出来，但是计算行数的工作由g a w k来做�?br />gawk '{print NR�Q? 0 } '
此程序显�C�出文�g的内�Ҏ��Q�会在每行的最前面昄��P��它的函数与�?cat -n’类伹{�?

bluestone 2006-06-01 14:11 发表评论

av播放在线,国产成人av一区二区三区,成人xxxx

awk详解�Q�from ChinaUnix.net)