今日推荐:shell 三剑客之文本处理工具awk
liuian 2024-12-14 13:33 25 浏览
背景
awk 是一个文本处理工具,通常用于处理数据并生成结果报告。
awk 的命名是它的创始人 Alfred Aho、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母组成的。
awk 实质上是一门编程语言,其具备自己的语法,如:条件判断、循环等等。在很多方面类似 shell 编程语言。
在测试工作中,我们可以利用它来帮助我们提升测试效率,比如:分析日志,格式化统计结果等等。
awk 语法格式
awk [option] 'pattern{action}' filename
action
接下来我们来学习最简单的 action-print
root@lemonban:/home/test# cat hello.txt
hello lemon
Tester Developer
Java Python
- 逐行打印每行内容,$0 是 awk 的内置变量,效果是打印整行内容
root@lemonban:/home/test# awk '{print $0}' hello.txt
hello lemon
Tester Developer
Java Python
- 每行以空格为分隔,逐行打印出第一列内容
root@lemonban:/home/test# awk '{print $1}' hello.txt
hello
Tester
Java
- 每行以空格为分隔,逐行打印出第一列 第二列 内容
root@lemonban:/home/test# awk '{print $1,$2}' hello.txt
hello lemon
Tester Developer
Java Python
action 是被{}包裹的内容
awk 的工作模式是逐行以指定的分隔符将行分成多个字段,上述的例子没有指定分隔符,那么将会以默认的分隔符空格进行分割,每一个分割的字段分别对应着 awk 的内置变量 $1,$2...,其中 $0 是代表整行内容。
awk 内置变量
除了 $0,$1,$2...之外,awk 还有很多内置变量,下表中是常用的 awk 内置变量:
$0
整行内容
$1-$n
当前行的第 1-n 个字段
NF
当前行的字段个数,也就是有多少列
NR
当前行的行号,从 1 开始计数
FNR
多文件处理时,每个文件行号单独计数,都是从 0 开始
FS
输入字段分隔符,不指定默认以空格或 tab 键分割
RS
输入行分隔符,默认回车换行
OFS
输出字段分隔符,默认为空格
ORS
输出行分隔符,默认为回车换行
NR,NF 输出
root@lemonban:/home/test# awk '{print NR,NF}' hello.txt
1 2
2 2
3 2
如果不想以默认的空格作为字段分隔符,那么我们可以通过 FS 内置变量指定新的分隔符
- 文件内容更改如下:
root@lemonban:/home/test# cat hello.txt
hello|lemon
Tester|Developer
Java|Python
- 指定"|"为新的分隔符,其中-v 参数表示指定输入分隔符(即在处理文件之前):
root@lemonban:/home/test# awk -v FS='|' '{print $1,$2}' hello.txt
hello lemon
Tester Developer
Java Python
- 默认输出分隔符也是空格,可以指定-v OFS 改变输出分隔符
root@lemonban:/home/test# awk -v FS='|' -v OFS='::' '{print $1,$2}' hello.txt
hello::lemon
Tester::Developer
Java::Python
pattern 模式
上面我们学习到了 option 参数中的-v 参数以及 action 中的 print 动作,pattern 有何用处呢?
当 awk 进行逐行处理的时候,pattern 作为条件去判断将要被处理的行是否满足条件,如果满足则处理,否则不处理。
需要注意的是 action 是一定会被{}包裹的,而 pattern 则没有被{}包裹着的
空模式
默认 pattern 为空模式,比如上述的:
awk '{print $1}' testfile
文本中的每一行,都满足条件,都会执行相应的操作
BEGIN/END 模式
在开始逐行处理文本之前,先执行 BEGIN 模式所指定的动作,一般我们将其用于表头
awk 'BEGIN{print “hello”,”lemonban”}'
在所有文本处理完毕之后,执行 END 模式所指定的动作,一般用于末尾说明
awk 'BEGIN{print “hello”,”lemonban”}{print $1,$2}END{print “end of file”}'
示例:
root@lemonban:/home/test# awk 'BEGIN{print "name","age"}{print $1,$2}END{print "no more data"}' hello.txt
name age
zhangsan 25
lisi 30
wangwu 28
no more data
正则模式
使用语法:
awk '/正则表达式/{action}' filename
其中,正则表达式需要通过//包裹起来
示例:
- 查找 passwd 中以 MySQL 开头的信息
root@lemonban:/home/test# awk '/^mysql/{print $0}' /etc/passwd
mysql:x:105:114:MySQL Server,,,:/nonexistent:/bin/false
- 结合-v 参数指定输入分隔符为":"
root@lemonban:/home/test# awk -v FS=':' '/^mysql/{print $1,$2}' /etc/passwd
mysql x
- 需要注意的是如果正则表达式中有斜杠"/",那么需要进行转义:
root@lemonban:/home/test# awk '/\/bin\/bash$/{print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
上述表达式是查找以/bin/bash 结束对应行的信息
比较表达式模式
所谓比较表达式是指有关系运算符参与运算,比如 >,<,>=,<= 等等
示例:查找 2 行以后所有行的内容
root@lemonban:/home/test# awk 'NR>2{print $0}' hello.txt
wangwu 28
查找字段最后一个是 30 所在行内容
root@lemonban:/home/test# awk '$NF==30{print $0}' hello.txt
lisi 30
这里的 NF 表示所在行字段个数,$NF 即表示所在行最后一个字段。
总结
本篇文章给大家介绍了 awk 的基本语法及 action、pattern、option 的使用。
awk 作为强大的编程工具,由于文章篇幅有限 awk 还有更多的特性没有介绍,大家如果感兴趣可以自行查阅相关资料学习。
本文作者:柠檬班软件测试(lemonban)——专注于最新最前沿的软件测试技术,解决你的测试技术烦恼,对软件测试感兴趣的朋友赶快关注我们吧!
相关推荐
- RazorSQL Mac版(SQL数据库查询工具)
-
RazorSQLMac特别版是一款看似简单实则功能非常出色的SQL数据库查询、编辑、浏览和管理工具。RazorSQLformac特别版可以帮你管理多个数据库,支持主流的30多种数据库,包括Ca...
- 史上最强!开源数据库管理工具DBeaver 24.2发布
-
DBeaverCommunity是一个免费的跨平台数据库工具,面向开发人员、数据库管理员、分析师和所有使用数据的人员。它支持所有流行的SQL数据库,如MySQL、MariaDB、PostgreSQL...
- 10个优秀的MySQL管理工具,都是大佬们的珍藏
-
Mysql开源、体积小、速度快、成本低、安全性高,目前在全球中小型网站中被广泛应用。今天给大家介绍10个优秀的MySQL管理工具,都是大佬们的珍藏,对你有用的话,可以收藏转发。1、Induction...
- Mac电脑如何安装向量数据库Milvus
-
Milvus是一个高性能、高度可扩展的矢量数据库,可在从笔记本电脑到大规模分布式系统的各种环境中高效运行。Milvus提供强大的数据建模功能,使您能够将非结构化或多模态数据组织成结构化集合。Mil...
- 干掉 PowerDesigner!这款国人开源的数据库设计工具真香
-
当我们在项目开发初期时,往往需要设计大量的表,此时使用数据库设计工具就会比较高效!今天给大家推荐一款国人开源的数据库设计工具chiner,界面漂亮,功能强大,希望对大家有所帮助!聊聊PowerDesi...
- 数据库管理工具推荐!SQL Studio:免费、高效,歪...
-
随着国际环境的变化,越来越多的企业基于供应链安全的需求。信息技术的飞速发展,数据库管理工具的需求也越来越迫切。然而,在众多软件中,要找到一款得心应手的数据库管理工具并不容易。今天,我向大家推荐一款功能...
- Mac密码安全管理工具----Enpass(mac密码管理在哪里)
-
Enpassmac版是一款适用于macOS用户的密码安全管理工具,使用Enpass,你无需再为记住太多的密码和其他重要凭据而头疼了。Enpass把你的密码存放在一个安全的地方,然后通过一个主密码随时...
- 超实用的14款MySQL数据库管理工具
-
MySQL是当前流行的数据库引擎之一,具有成本低、速度快、体积小且开放源代码的优点。今天就给大家分享14款MySQL数据库管理工具。1.MySQLDumper这款软件的应用,有效解决使用PHP进行大数...
- 神器收藏:macOS最强工具清单,16.6k+星 awesome-macOS
-
神器收藏:macOS最强工具清单,16.6k+星标必看引言在macOS生态中,有一个备受瞩目的神仓库,汇集了最全面、最实用的macOS应用和工具清单。这个项目在GitHub上已获得超过16.6k的...
- JetBrains DataGrip Mac中文破解版V2025.1下载安装教程
-
DataGripforMac是由JetBrains开发的数据库集成开发环境(IDE),专为数据库管理员和开发人员设计。它支持多种数据库(如MySQL、PostgreSQL、Oracle、SQ...
- GIS坐标参考系统:EPSG、WKT和PROJ
-
在之前的教程中,我们介绍了什么是坐标参考系统(CRS)、坐标参考系统的组成部分以及投影坐标参考系统和地理坐标参考系统之间的一般差异。在这个教程中,我们将介绍CRS信息的不同存储方式。推荐:用...
- 【地理信息可视化】basemap(cartopy)+geopandas显示地图-03
-
importwarningswarnings.filterwarnings('ignore')importosimportnumpyasnpfromscipy....
- 字符识别之PaddleOcr介绍、安装与应用
-
paddleocr介绍paddleocr是一款轻量型字符识别工具库,支持多语言识别,支持pip安装与自定义训练。详细信息如下表所示。名称许可证当前版本下载地址(github地址)支持语言运行方式pi...
- 111.Python——基于pipenv打包PaddlePaddle的GUI项目
-
飞桨PaddlePaddle是百度的深度学习框架,用来做一些项目还是非常不错。但是打包就是一件非常麻烦的过程。在文中有讲过打包问题。29.Python程序打包成可执行文件——常见疑难问题解决办法。本文...
- Shamos算法:一种在平面上找到最远点的方法
-
旋转卡尺算法简介Shamos算法,也叫旋转卡尺(Rotatingcalipers)算法,是一种用于解决计算几何问题的优化算法。它可以用来解决许多几何问题,包括计算点集的宽度或直径。算法的名称来源于其...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
系统C盘清理:微信PC端文件清理,扩大C盘可用空间步骤
-
10款高性能NAS丨双十一必看,轻松搞定虚拟机、Docker、软路由
-
python使用fitz模块提取pdf中的图片
-
- 最近发表
-
- RazorSQL Mac版(SQL数据库查询工具)
- 史上最强!开源数据库管理工具DBeaver 24.2发布
- 10个优秀的MySQL管理工具,都是大佬们的珍藏
- Mac电脑如何安装向量数据库Milvus
- 干掉 PowerDesigner!这款国人开源的数据库设计工具真香
- 数据库管理工具推荐!SQL Studio:免费、高效,歪...
- Mac密码安全管理工具----Enpass(mac密码管理在哪里)
- 超实用的14款MySQL数据库管理工具
- 神器收藏:macOS最强工具清单,16.6k+星 awesome-macOS
- JetBrains DataGrip Mac中文破解版V2025.1下载安装教程
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- uniapp textarea (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)