Shell脚本编程进阶:sed与awk高级用法实战指南
liuian 2025-06-23 20:37 3 浏览
Shell脚本编程进阶:sed与awk高级用法实战指南
一、sed与awk:文本处理的双子星
在Shell脚本的世界里,sed和awk就像瑞士军刀中的两把利刃,sed擅长流式编辑,awk精于字段处理。它们配合基础命令,能解决90%的文本处理需求。
bash
# sed基础示例:替换文本
echo "Hello World" | sed 's/World/Linux/'
# awk基础示例:提取字段
echo "Alice 25 F" | awk '{print $1 " is " $3}'
适用场景对比
工具 | 核心优势 | 典型应用场景 | 性能特点 |
sed | 模式匹配与替换 | 批量替换、行过滤、简单转换 | 轻量级,处理速度快 |
awk | 字段分析与处理 | 数据统计、报表生成、复杂转换 | 支持编程逻辑,处理结构化数据高效 |
二、sed高级用法实战
1. 多模式操作与地址定位
bash
# 同时执行多个替换(-e参数)
sed -e 's/foo/bar/' -e 's/hello/hi/' input.txt
# 特定行操作(地址定位)
sed '3,5s/old/new/' file.txt # 只替换3-5行
sed '/pattern/s/old/new/' file.txt # 匹配pattern的行才替换
2. 反向引用与分组
bash
# 重组日期格式(从YYYY-MM-DD到DD/MM/YYYY)
echo "2023-08-15" | sed -E 's/([0-9]{4})-([0-9]{2})-([0-9]{2})/\3\/\2\/\1/'
# 提取HTML标签内容
echo "<title>Shell编程</title>" | sed -E 's/<([^>]*)>([^<]*)<\/\1>/\2/'
3. 保持空间与模式空间(高级存储)
bash
# 交换相邻两行(使用保持空间)
sed -n '1{h;n};G;s/\n/ /;p' text.txt
# 删除重复行(相当于uniq)
sed '$!N; /^\(.*\)\n\1$/!P; D' duplicates.txt
sed常用参数对比表
参数 | 长参数 | 作用 | 使用示例 |
-n | --quiet | 禁止默认输出 | sed -n 'p' file |
-i | --in-place | 直接修改文件 | sed -i.bak 's/old/new/' file |
-E | --regexp-extended | 扩展正则 | sed -E 's/(ab)+/\1/' |
-r | GNU扩展正则(同-E) | sed -r 's/(ab)+/\1/' | |
-e | --expression | 指定编辑命令 | sed -e 's/a/b/' -e 's/c/d/' |
三、awk高级用法实战
1. 字段处理与条件判断
bash
# 条件统计(统计大于阈值的行)
awk -v threshold=80 '$3 > threshold {count++} END {print count}' data.txt
# 字段重组(重新排列列顺序)
awk '{print $3, $1, $2}' names.txt
# 多字段分隔符(同时使用空格和冒号)
awk -F'[ :]' '{print $2, $4}' log.txt
2. 数组与统计运算
bash
# 词频统计(类似wordcount)
awk '{for(i=1;i<=NF;i++) count[$i]++} END {for(word in count) print word, count[word]}' text.txt
# 分组求和(按第一列分组,求第二列和)
awk '{sum[$1]+=$2} END {for(k in sum) print k, sum[k]}' sales.dat
3. 自定义函数与复杂逻辑
bash
# 定义并使用函数
awk '
function to_upper(str) {
return toupper(str)
}
{print to_upper($1)}
' names.txt
# 处理多文件关联
awk 'NR==FNR {data[$1]=$2; next} $1 in data {print $0, data[$1]}' file1 file2
awk常用参数对比表
参数 | 作用 | 典型应用 | 示例 |
-F | 指定字段分隔符 | 处理非空格分隔数据 | awk -F: '{print $1}' /etc/passwd |
-v | 定义变量 | 传递外部参数 | awk -v n=5 '{print $n}' file |
-f | 指定脚本文件 | 复杂逻辑复用 | awk -f script.awk data.txt |
-W [option] | 兼容模式 | 处理不同版本差异 | awk -W posix '{print length()}' |
四、sed与awk联合实战
1. 日志处理流水线
bash
# 提取nginx日志中特定时间的IP地址
cat access.log | sed -n '/15\/Aug\/2023:14:/p' | awk '{print $1}' | sort | uniq -c | sort -nr
# 解析CSV并计算(处理带引号的字段)
sed 's/"//g' data.csv | awk -F, '{sum+=$3} END {print sum/NR}'
2. 数据格式转换
bash
# JSON转CSV(简化版)
sed 's/{//;s/}//;s/"//g' data.json | awk -F': ' '{gsub(/,/,"",$2); print $1","$2}'
# 固定宽度转分隔符
sed 's/ */,/g' fixed_width.txt | awk -F, '{print $2,$4,$6}'
联合使用场景对比
任务类型 | sed主要负责 | awk主要负责 | 组合优势 |
数据清洗 | 去除噪声字符 | 字段验证与修正 | 先粗筛后精修 |
格式转换 | 结构拆解 | 字段重组 | 分阶段处理 |
统计分析 | 数据过滤 | 计算与聚合 | 各司其职 |
报表生成 | 模板填充 | 数据插入 | 分离逻辑与展示 |
五、性能优化技巧
1. 处理大文件时的策略
bash
# 流式处理(避免内存问题)
sed 's/old/new/' bigfile.txt | awk '{print $2}' > result.txt
# 并行处理(使用GNU parallel)
parallel --pipe -k sed 's/old/new/' < bigfile.txt | awk '{print $3}'
2. 常用优化技巧对比
优化点 | sed实现 | awk实现 | 效果提升 |
减少管道 | 组合命令 | 内置函数 | 30-50% |
预编译正则 | 使用-E | 直接使用 | 10-20% |
避免回溯 | 具体匹配 | 锚定模式 | 2-5倍 |
批量操作 | -f脚本 | -f脚本 | 维护性提升 |
六、实战案例:Apache日志分析
1. 高频访问IP统计
bash
awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -10
# 增强版(包含时间过滤)
sed -n '/15\/Aug\/2023:1[4-5]/p' access.log | awk '{ip[$1]++} END {for(i in ip) print ip[i],i}' | sort -nr
2. 请求类型统计
bash
awk '{print $6}' access.log | sed 's/"//g' | sort | uniq -c
# 增强版(统计各类型流量)
awk '{gsub(/"/,"",$6); type[$6]++; size[$6]+=$10} END {for(t in type) print t,type[t],size[t]}' access.log
七、错误处理与调试
1. 常见问题排查表
问题现象 | 可能原因 | 解决方案 |
替换未生效 | 特殊字符未转义 | 使用-E模式和\转义 |
字段错位 | 分隔符不匹配 | 检查-F或字段编号 |
内存不足 | 处理大文件 | 使用流式处理或split |
性能低下 | 复杂正则 | 简化模式或预过滤 |
2. 调试技巧
bash
# sed调试(显示处理过程)
sed -n 'p;l' file.txt
# awk调试(打印行号与字段)
awk '{print NR,NF,$0}' file.txt
# 逐步执行(复杂脚本)
awk -f script.awk --debug file.txt
八、扩展资源推荐
1.经典书籍:
《sed & awk》- Dale Dougherty
《Effective awk Programming》- Arnold Robbins
2.在线工具:
AWK在线测试器
正则表达式调试器
3.进阶方向:
GNU awk的扩展功能(时间处理、TCP/IP通信)
sed的标签跳转与分支控制
与Shell脚本的深度集成技巧
掌握这些sed和awk的高级用法后,你会发现大多数文本处理任务都能在几行命令内解决,无需动用Python等重型工具。
记住:文本处理三境界——能用grep的不用sed,能用sed的不用awk,能用awk的不用Python!
相关推荐
- 谷歌Gemini 2.5全线爆发!勇战濒死恐慌,却被宝可梦吓到当场宕机
-
编辑:定慧桃子【新智元导读】今天,谷歌旗舰Gemini2.5三箭齐发,首次亮相轻量版2.5Flash-Lite。最新70页技术报告中,爆料了Gemini2.5在玩宝可梦濒死时,惊现类人的恐慌,...
- Claude 4系列模型正式发布,号称“世界上最好的”AI编程模型
-
当地时间5月22日,Anthropic在其首次开发者大会上,正式发布了其下一代Claude模型系列:ClaudeOpus4和ClaudeSonnet4。该公司在公告中高调宣称,...
- p5.js 中文入门教程(p5js和js怎么转换)
-
本文简介点赞+关注+收藏=学会了本文的目标是和各位工友一起有序的快速上手p5.js,会讲解p5.js的基础用法。本文会涉及到的内容包括:项目搭建p5.js基础2D图形文字图形样式...
- ElasticSearch中文分词插件(IK)安装
-
坚持原创,共同进步!请关注我,后续分享更精彩!!!前言ElasticSearch默认的分词插件对中文支持很不友好。一段话按规则会以每个中文字符来拆解,再分别建立倒排索引。如"中华人民共和国国歌...
- ELK 教程 - 发现、分析和可视化你的数据
-
【注】本文译自:ELKStackTutorial-GettingStartedWithELKStack|Edureka随着越来越多的IT基础设施转身云计算,对公共云安全工具...
- 网络安全事件技术排查(网络安全事件排查有哪些因素)
-
1.文件分析a)文件日期与异常文件检测文件时间检查:Windows:通过文件属性查看创建/修改时间,但需注意攻击者可能伪造时间(如使用工具修改文件时间戳)。Linux:使用ls-l或sta...
- 日志文件转运工具Filebeat笔记(日志文件生成原理)
-
一、概述与简介Filebeat是一个日志文件转运工具,在服务器上以轻量级代理的形式安装客户端后,Filebeat会监控日志目录或者指定的日志文件,追踪读取这些文件(追踪文件的变化,不停的读),并将来自...
- Spring Boot 分布式系统中的日志打印设计:实战指南
-
在分布式系统中,日志是排查问题、监控系统状态和进行事后分析的“生命线”。然而,随着微服务架构的普及,日志的管理和检索变得愈发复杂。尤其是在生产环境中,当问题发生时,如何快速定位相关日志成为了一个关键挑...
- Loki日志系统取代ELK?(日志系统 elk)
-
一、Loki是什么?Loki是由GrafanaLabs开源的一个水平可扩展、高可用性,多租户的日志聚合系统的日志聚合系统。它的设计初衷是为了解决在大规模分布式系统中,处理海量日志的问题。Loki采用...
- 20 个最热门的 MCP Server,收藏备用!
-
1.GitHubMCPServer功能:代码仓库管理、自动化代码审查、处理拉取请求(PR)、Issue跟踪。项目地址:https://docs.github.com/en/rest核心架构:基于...
- ElasticSearch实现数据模糊搜索(el-select模糊搜索)
-
关注我的微信公众号:后端技术漫谈不定期推送关于后端开发、爬虫、算法题、数据结构方面的原创技术文章,以及生活中的逸闻趣事。我目前是一名后端开发工程师。主要关注后端开发,数据安全,网络爬虫,物联网,边缘计...
- Linux 日志系统维护的实战示例(linux 日志文件系统)
-
Linux日志系统维护的实战示例,涵盖常见场景和工具:1.日志轮转与清理(Logrotate)问题:系统/var/log空间不足,需定期切割和清理旧日志。实战步骤:检查默认配置Logrotat...
- 日志分析平台——ELK安装配置(elk日志解析)
-
简介:ELK是(Elasticsearch、Logstash、Kibana)三个软件的集合简称。那么这三个软件分别扮演着一个什么样的角色呢?Elasticsearch:搜索引擎,主要任务是将日志索引并...
- Docker上使用Elasticsearch,Logstash,Kibana
-
在对一个项目做性能测试时我需要处理我们web服务器的访问日志来分析当前用户的访问情况。因此,我想这是试用ELK的一个好机会。ELK栈首先要注意的是使用它是非常简单的。从决定使用ELK到在本机上搭一个...
- .NET Core 性能监控(.net core性能对比)
-
一、.NETCore性能监控的重要性随着.NETCore应用程序的广泛应用,性能监控成为了保障应用稳定运行的关键环节。性能监控可以帮助开发者实时掌握应用状态,快速定位问题所在,并采取相应的...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
python使用fitz模块提取pdf中的图片
-
《人人译客》如何规划你的移动电商网站(2)
-
Jupyterhub安装教程 jupyter怎么安装包
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- uniapp textarea (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)