`
xitongyunwei
  • 浏览: 921846 次
文章分类
社区版块
存档分类
最新评论

linux awk 数组和循环

 
阅读更多

awk 作为强大的文本处理工具,少不了数组处理。

awk 中数组叫做关联数组(associative arrays),下标可以是数字也可以是字符串。awk 中的数组不必提前声明,也不必声明大小,初始化数组元素用 0 或空串,这根据上下文而定。


一 语法

语法:awk '{pattern + action}' 或 awk 'pattern {action}'

其中 pattern 表示 AWK 在数据中查找的内容, action 是在找到匹配内容时所执行的一系列命令。花括号 {} 不需要在程序中始终出现,但它们用于根据特定的模式对一系列指令进行分组(作用域)。



二 数组定义

1 一维数组

a) 数字下标

array[1]="it"
array[2]="homer"
array[3]="sunboy"
array[4]=2050


b) 字符下标

array["first"]="yang"
array["second"]="gang"
array["third"]="sunboy"


示例 1:

#!/bin/bash

awk 'BEGIN{
array[1]="it"
array[2]="homer"
array[3]="sunboy"
array[4]=2050


array["first"]="yang"
array["second"]="gang"
array["third"]="sunboy"


print array[1], array[4]
print array[3], array["third"]}'
结果:

it 2050
sunboy sunboy


示例 2:

#!/bin/bash

awk 'BEGIN{
   for(i=1; i<=5; i++){
       array[i] = i*2 - 1;
   }

   for(i in array){
       print i" = " array[i];
   }
}'
结果:

4 = 7
5 = 9
1 = 1
2 = 3
3 = 5

注: for in 输出数组元素顺序是不定的,下面介绍对数组如何排序



2 二维数组

awk 多维数组在本质上是一维数组,因awk在存储上并不支持多维数组,awk提供了逻辑上模拟二维数组的访问方式。例如,array[2,3] = 1这样的访问是允许的。

awk使用一个特殊的字符串SUBSEP (\034)作为分割字段,在上面的例子 array[2,3] = 1中,关联数组array存储的键值实际上是2\0343,2和3分别为下标(2,3),\034为SUBSEP分隔符

类似一维数组的成员测试,多维数组可以使用 if ( (i,j) in array) 语法,但是下标必须放置在圆括号中。
类似一维数组的循环访问,多维数组使用 for ( item in array ) 语法遍历数组。与一维数组不同的是,多维数组必须使用split()函数来访问单独的下标分量,格式: split ( item, subscr, SUBSEP),例如: split (item, array2, SUBSEP); 后,array2[1]为下标“2”, array2[2]为下标“3”

示例:

#!/bin/bash

awk 'BEGIN{
   for(i=1; i<=3; i++){
       for(j=1; j<=3; j++){
           array[i, j] = i * j;
           print i" * "j" = "array[i,j];
       }
   }

   print

   for(i in array){
       split(i, array2, SUBSEP);
       print array2[1]" * "array2[2]" = " array[i];
   }
}'
结果:

1 * 1 = 1
1 * 2 = 2
1 * 3 = 3
2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
3 * 1 = 3
3 * 2 = 6
3 * 3 = 9

2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
3 * 1 = 3
3 * 2 = 6
3 * 3 = 9
1 * 1 = 1
1 * 2 = 2
1 * 3 = 3

注: 示例中split(i, array2, SUBSEP); 即是把二维数组作为一维数组处理,同样数组元素顺序不确定,下面将介绍数组排序



三 数组函数

1) 数组长度(length)

length(array) 获取数组长度, split 分割数组也返回数组长度,示例:

#!/bin/bash

awk 'BEGIN{
    info="it is  a   test"; 
    len = split(info, array, " "); 
    
    print len, length(array);

    print
    for(i in array){
        print i" = " array[i];
    }
}'
结果:

4 4

4 = test
1 = it
2 = is
3 = a


2) 数组排序(asort)

asort对数组array按照首字母进行排序,返回数组长度;

如果要得到数组原本顺序,需要使用数组下标依次访问;

for...in 输出关联数组的顺序是无序的所以通过for…in 得到是无序的数组。如果需要得到有序数组,需要通过下标获得

示例:

#!/bin/bash

awk 'BEGIN{
    info="it is  a   test"; 
    len = split(info, array, " "); 
    
    print len, length(array);

    print "--- for in ---"
    for(i in array){
        print i" = " array[i];
    }

    print "--- for ---"
    for(i=1; i<=len; i++){
        print i" = "array[i];
    }


    print
    print "--- asort ---"
    print "asort(array) = ", asort(array);
    

    print
    print "--- for in ---"
    for(i in array){
        print i" = " array[i];
    }

    print "--- for ---"
    for(i=1; i<=len; i++){
        print i" = "array[i];
    }
}'
结果:

4 4
--- for in ---
4 = test
1 = it
2 = is
3 = a
--- for ---
1 = it
2 = is
3 = a
4 = test

--- asort ---
asort(array) = 4

--- for in ---
4 = test
1 = a
2 = is
3 = it
--- for ---
1 = a
2 = is
3 = it
4 = test


3) 键值操作

a 查找键值(in)

awk 'BEGIN{array["a"]="aaa"; array["b"]="bbb"; if(array["c"]!="ccc"){print "no found";}; for(k in array){print k, array[k];}}'

结果:

no found
a aaa
b bbb
c

注:array[“c”]没有定义,但是循环时存在该键值,它的值为空。这是因为awk数组是关联数组,只要通过数组引用它的key,就会自动创建改序列


正确做法是用: in

awk 'BEGIN{array["a"]="aaa"; array["b"]="bbb"; if("c" in array){print "found";}else{print "not found"}; for(k in array){print k, array[k];}}'

结果:

not found
a aaa
b bbb

注: 没有引用array下标“c”,因此没有添加到数组中


b 删除键值(delete)

awk 'BEGIN{array["a"]="aaa"; array["b"]="bbb"; delete array["a"]; for(k in array){print k, array[k];}}'

结果:b bbb




四 循环控制语句

linuxawk中的流程控制语句和语法结构,与c语言类型。

awk 的 while、do-whilefor语句中允许使用breakcontinue语句来控制流程走向,也允许使用exit这样的语句来退出,其中break中断当前正在执行的循环并跳到循环外执行下一条语句;if 是流程选择用法。

1) if-else if 语句

#!/bin/bash

awk 'BEGIN{
    test = 80;
    if(test >= 90){
        print "good";
    }else if(test >= 80){
        print "soso";
    }else{
        print "fail";
    }
}'
结果:soso


2) for 语句

#!/bin/bash

awk 'BEGIN{
    for(i=1; i<=3; i++){
        array[i] = i*i;
        print i" = "array[i];
    }

    print
    for(i=1; i<=length(array); i++){
        if(array[i] > 5){  # larger 5 then break
            break;
        }
        print i" = "array[i];
    }
}'
结果:

1 = 1
2 = 4
3 = 9

1 = 1
2 = 4


3) while 语句

#!/bin/bash

awk 'BEGIN{
    test = 100;
    total=0;

    while(i<=test){
        total+=i;
        i++;
    }
    print "total = ", total;


    print
    test=100;
    total=0;
    i=0;

    do{
        total+=i;
        i++;
    }while(i<=test);
    print "total = ", total;
}'
结果:

total = 5050
total = 5050


以上为awk流程控制语句,从语法上与c语言是一样的。有了这些语句,其实很多shell程序都可以交给awk,而且性能是非常快


跳转关键字

break break语句用于whilefor语句时,导致退出程序循环。
continue continue语句用于whilefor语句时,使程序循环移动到下一个迭代。
next 能能够导致读入下一个输入行,并返回到脚本的顶部。这可以避免对当前输入行执行其他的操作过程。
exit 语句使主输入循环退出并将控制转移到END,如果END存在的话。如果没有定义END规则,或在END中应用exit语句,则终止脚本的执行。


性能比较

1) awk

time (awk 'BEGIN{ total=0; for(i=0; i<=100000; i++){total+=i;} print total;}')

结果:

5000050000

real 0m0.035s
user 0m0.020s
sys 0m0.016s


2) sed

time(total=0; for i in $(seq 100000); do total=$(($total+i)); done; echo $total;)

结果:

5000050000

real 0m0.976s
user 0m0.672s
sys 0m0.292s


测试100000累加,实现相同功能,awk实现的性能是shell 的约30




参考推荐:

awk 实例(IBM)

沉于思考,默默学习

linux awk 内置函数实例

linux awk 内置变量实例


分享到:
评论

相关推荐

    linux Shell脚本里面把一个数组传递到awk内部进行处理

    前段时间和几位同事讨论过一个问题:Shell脚本里面怎样把一个数组传递到awk内部进行处理? 当时没有找到方法。前两天在QQ群里讨论awk的时候,无意间又聊起这个话题。机缘巧合之下找到一个思路,特此分享。 测试环境...

    Linux四剑客之awk概述和解析.doc

    awk由三个人写的一个软件,Aho Wwinberger Kernighan 也可以说awk是一个编程语言,在awk里边有自己的变量,有if判断,有while判断,有fro循环,支持基本正则,扩展正则,支持数组等功能。

    Awk学习笔记

    2. awk命令格式和选项 2.1. awk的语法有两种形式 2.2. 命令选项 3. 模式和操作 3.1. 模式 3.2. 操作 4. awk的环境变量 5. awk运算符 6. 记录和域 6.1. 记录 6.2. 域 6.3. 域分隔符 7. gawk专用正则表达式元...

    Linux Shell编程从初学到精通 第2版

    第4章 sed命令和awk编程 64 第5章 文件的排序、合并和分割 105 第6章 变量和引用 133 第7章 退出、测试、判断及操作符 157 第8章 循环与结构化命令 187 第9章 变量的高级用法 217 第10章 I/O重定向 243 第11...

    LINUX操作系统(电子教案,参考答案)

    主要包括Linux的基本概念和操作,Linux的树型结构,Linux的文本编辑,Linux的安装和启动,用户管理,Shell编程技术,进程管理,C编译器,系统扩充,维护与监视,Linux的图形界面,网络的基本概念与设置,Linux在网络...

    LINUX and SHELL 自学总结

    1. #AWK命令用法 7 2. 搜索文件夹或文件命令 7 3. RPM解包和TAR解包 7 #rpm 强制安装 7 4. 统计某字符串数量 7 5. #DD命令使用总结 8 6. #REV 字符串反向命令 8 7. 变量截取 8 8. #UNIQ 去掉重复 8 9. #SORT 排序 8 ...

    LINUX与UNIX SHELL编程指南(很全)

    9.2.13 awk数组 86 9.3 小结 88 第10章 sed 用法介绍 89 10.1 sed怎样读取数据 89 10.2 调用sed 89 10.2.1 保存sed输出 90 10.2.2 使用sed在文件中查询文本的方式 90 10.2.3 基本sed编辑命令 90 10.3 sed和正则...

    Linux与unix shell编程指南

    9.2.13 awk数组 86 9.3 小结 88 第10章 sed 用法介绍 89 10.1 sed怎样读取数据 89 10.2 调用sed 89 10.2.1 保存sed输出 90 10.2.2 使用sed在文件中查询文本的方式 90 10.2.3 基本sed编辑命令 90 10.3 sed和正则...

    RED HAT LINUX 6大全

    本书内容翔实、涉及领域广泛,并且提供了详细的例子和大量的参考资料(包括书籍、电子文档和Internet站点),是一本学习、使用和管理Linux不可多得的好书。 目 录 译者序 前言 第一部分 Red Hat Linux的介绍与安装 ...

    Linux shell编程指南

    9.2.13 awk数组 86 9.3 小结 88 第10章 sed 用法介绍 89 10.1 sed怎样读取数据 89 10.2 调用sed 89 10.2.1 保存sed输出 90 10.2.2 使用sed在文件中查询文本的方式 90 10.2.3 基本sed编辑命令 90 10.3 sed和正则...

    新版Linux Shell编程实训(全)20170518.docx

    任务11.4 学习和使用awk 185 练习(第一题10分,第2-7每题15分,共计100分) 188 项目十二 Shell的调试 189 [学习目标] 189 任务12.1 使用trap命令 190 任务12.2 使用tee命令 192 任务12.3 使用“调试钩子” 193 ...

    绝版经典《Linux与UNIX Shell编程指南》

    9.2.13 awk数组 86 9.3 小结 88 第10章 sed 用法介绍 89 10.1 sed怎样读取数据 89 10.2 调用sed 89 10.2.1 保存sed输出 90 10.2.2 使用sed在文件中查询文本的方式 90 10.2.3 基本sed编辑命令 90 10.3 sed和正则...

    linux shell 编程教程

    9.2.13 awk数组 86 9.3 小结 88 第10章 sed 用法介绍 89 10.1 sed怎样读取数据 89 10.2 调用sed 89 10.2.1 保存sed输出 90 10.2.2 使用sed在文件中查询文本的方式 90 10.2.3 基本sed编辑命令 90 10.3 sed和正则...

    Linux高级bash编程

    循环和分支 10.1. 循环 10.2. 嵌套循环 10.3. 循环控制 10.4. 测试与分支(case和select结构) 11. 内部命令与内建 11.1. 作业控制命令 12. 外部过滤器,程序和命令 12.1. 基本命令 12.2. 复杂命令 ...

    HackerRank-The-Linux-Shell-Challenges-Solutions:Linux Shell的完整解决方案和相关教程-Bash,文本处理,Bash中的数组,Grep Sed Awk在HackerRank上的挑战

    描述通过针对HackerRank上Linux Shell挑战的相关学习资源,汇编了所有容易,中等和困难挑战的解决方案。 域包括:重击挑战数字挑战性解决方案1个2个3解决方案4 用数字循环解决方案5 数字世界解决方案6 比较数字解决...

    LINUX与UNIX SHELL编程指南 高清PDF

    9.2.13 awk数组 86 9.3 小结 88 第10章 sed 用法介绍 89 10.1 sed怎样读取数据 89 10.2 调用sed 89 10.2.1 保存sed输出 90 10.2.2 使用sed在文件中查询文本的方式 90 10.2.3 基本sed编辑命令 90 10.3 sed和正则...

    LINUX 与 UNIX SHELL编程指南

    18.7.10 while 循环和文件描述符 196 18.8 使用 break 和 continue 控制循环 197 18.8.1 break 197 18.8.2 跳出 case 语句 197 18.8.3 continue 197 18.8.4 浏览文件行 198 18.9 菜单 199 18.10 小结 201 第...

    LINUX与UNIX_Shell编程指南

    9.2.13 awk数组 86 9.3 小结 88 第10章 sed 用法介绍 89 10.1 sed怎样读取数据 89 10.2 调用sed 89 10.2.1 保存sed输出 90 10.2.2 使用sed在文件中查询文本的方式 90 10.2.3 基本sed编辑命令 90 10.3 sed和...

    linux与unix shell编程指南.rar

    9.2.13 awk数组 86 9.3 小结 88 第10章 sed 用法介绍 89 10.1 sed怎样读取数据 89 10.2 调用sed 89 10.2.1 保存sed输出 90 10.2.2 使用sed在文件中查询文本的方式 90 10.2.3 基本sed编辑命令 90 10.3 sed和正则...

    LINUX与UNIX SHELL编程指南

    9.2.13 awk数组 86 9.3 小结 88 第10章 sed 用法介绍 89 10.1 sed怎样读取数据 89 10.2 调用sed 89 10.2.1 保存sed输出 90 10.2.2 使用sed在文件中查询文本的方式 90 10.2.3 基本sed编辑命令 90 10.3 sed和正则...

Global site tag (gtag.js) - Google Analytics