百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

新手必学:grep/awk/sed文本处理神器指南

liuian 2025-07-09 14:13 2 浏览

今天咱们聊个所有技术人都躲不掉的“体力活”——文本处理。是不是经常遇到这些糟心事?
服务器日志几千行,想找一条“ERROR”报错信息,手动翻到眼酸;配置文件改了10处,结果漏了一行,重启服务直接崩;想统计某个关键词出现次数,对着cat出来的文本干瞪眼……明明知道有工具能用,就是记不住命令,最后只能“暴力操作”!

别慌,今天咱就教你Linux文本处理的“三剑客”——grep、awk、sed。这三个命令能覆盖90%的文本操作需求,从找内容、提数据到改文本,分分钟从“手忙脚乱”变“从容高效”!


一、快速找内容:grep——文本搜索的“放大镜”

grep(全称“Global Regular Expression Print”)是Linux里最常用的“文本搜索神器”。它的核心功能是在文件(或命令输出)中按关键字/正则表达式匹配内容,并输出符合条件的行。

基础用法:grep [选项] 关键字 文件名。

举个栗子:

  • 你想在/var/log/nginx/access.log日志里找所有包含“404”的错误请求:
    grep "404" /var/log/nginx/access.log
    一行行报错信息立刻跳出来,比手动翻快100倍!
  • 你想找Nginx启动日志里“成功”的关键字,但日志里可能有“成功”或“Success”两种写法(大小写敏感):
    grep -i "成功" /var/log/nginx/start.log(-i表示忽略大小写)
  • 你想找最近30分钟内修改过的日志文件里的“timeout”错误(结合find实时搜索):
    find /var/log -name "*.log" -mtime 0 -exec grep "timeout" {} \;(-mtime 0表示最近1天,-exec是执行后续命令)

进阶技巧

  • 反向搜索(排除关键字):grep -v "success" log.txt(只显示不包含“success”的行);
  • 统计匹配行数:grep -c "error" log.txt(快速知道有多少处错误);
  • 递归搜索目录:grep -r "config" /etc(在/etc目录下所有文件里找“config”)。

二、精准提数据:awk——列提取的“瑞士军刀”

如果说grep是“找内容”,那awk就是“从内容里抠数据”。它擅长按列分割文本,并对每一列进行计算、过滤或格式化输出,特别适合处理结构化文本(比如日志、CSV文件、表格)。

基础用法:awk '条件 {动作}' 文件名。

举个栗子:

  • 你的Nginx日志格式是IP 身份标识 用户名 时间 请求 状态码 大小,想统计今天访问量最高的IP(前3名):
    awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -n 3
    (分解步骤:awk提取第1列IP → sort排序 → uniq -c统计次数 → sort -nr按次数倒序 → head -n 3取前3)
  • 你想从/etc/passwd文件里提取所有普通用户的用户名(第1列)和家目录(第6列),只显示这两列:
    awk -F ':' '{print $1, $6}' /etc/passwd(-F ':'指定分隔符为冒号)
  • 你想监控系统负载,从top命令输出里提取“load average”数值(第三列):
    top -bn1 | grep "load average" | awk '{print $10, $11, $12}'(-bn1表示后台运行一次,避免实时刷新干扰)

避坑提示

  • 分隔符别乱设:如果日志用空格分隔但有多个空格,用-F '[ ]+'(正则匹配多个空格)更准确;
  • 列号从1开始:$1是第一列,$0是整行,别记成0开始!

三、灵活改文本:sed——内容替换的“编辑器”

sed(全称“Stream Editor”)是Linux里的“流编辑器”,擅长对文本进行批量替换、删除、插入操作,尤其适合修改配置文件、清理日志冗余内容。

基础用法:sed [选项] '操作' 文件名。

举个栗子:

  • 你想把/etc/nginx/nginx.conf里的worker_processes 1;改成worker_processes 4;(调整进程数):
    sed -i 's/worker_processes 1;/worker_processes 4;/' nginx.conf(-i表示直接修改原文件,s/旧内容/新内容/是替换语法)
  • 你想删除日志文件app.log里所有包含“DEBUG”的调试信息(清理冗余):
    sed '/DEBUG/d' app.log > clean.log(d表示删除匹配行,>重定向到新文件,避免覆盖原文件)
  • 你想在hosts文件的每行末尾添加注释(比如# 2024-03更新),但跳过第一行(标题行):
    sed '1s/^/# /; 2,$s/$/ # 2024-03更新/' hosts(;分隔多个操作,1s/^/# /给第一行开头加# ,2,$表示从第二行到最后一行,s/$/...给行尾加内容)

注意:备份文件!
用sed -i直接修改原文件前,建议先备份:cp nginx.conf nginx.conf.bak,避免手滑改错导致服务崩溃!


三剑客的使用场景

  • 找内容:用grep快速定位关键字(日志分析、错误排查);
  • 提数据:用awk按列提取结构化数据(统计、报表生成);
  • 改文本:用sed批量替换/删除内容(配置修改、日志清理)。

这三个命令就像“文本处理的三板斧”,掌握后能解决90%的日常操作需求。下次再遇到“文本处理头大”的情况,先想想是用grep找、awk提还是sed改,效率直接翻倍!

#Linux##Linux必备##Linux使用技巧##Linux技巧#

相关推荐

使用Assembly打包和部署Spring Boot工程

SpringBoot项目的2种部署方式目前来说,SpringBoot项目有如下2种常见的部署方式一种是使用docker容器去部署。将SpringBoot的应用构建成一个docke...

java高级用法之:调用本地方法的利器JNA

简介JAVA是可以调用本地方法的,官方提供的调用方式叫做JNI,全称叫做javanativeinterface。要想使用JNI,我们需要在JAVA代码中定义native方法,然后通过javah命令...

Linux中如何通过Shell脚本来控制Spring Boot的Jar包启停服务?

SpringBoot项目在为开发者带来方便的同时,也带来了一个新的问题就是Jar包如何启动?在一般情况下我们都是采用了最为经典的java-jar命令来进行启动。然后通过ps命令找到对应的应用线程通...

牛逼!自己手写一个热加载(人民币手写符号一个横还是两个横)

热加载:在不停止程序运行的情况下,对类(对象)的动态替换JavaClassLoader简述Java中的类从被加载到内存中到卸载出内存为止,一共经历了七个阶段:加载、验证、准备、解析、初始化、使用、...

java 错误: 找不到或无法加载主类?看看怎么解决吧!

问题扫述:项目名称调整,由原来的com.mp.qms.report.biz调整为com.mp.busicen.mec.qms.report.biz后。项目在IDEA直接运行,但打包部署到服务器...

如何将 Spring Boot 工程打包成独立的可执行 JAR 包

导语:通过将SpringBoot项目打包成独立的可执行JAR包,可以方便地在任何支持Java环境的机器上运行项目。本文将详细介绍如何通过Maven构建插件将SpringBoot...

class 增量发包改造为 jar 包方式发布

大纲class增量发包介绍项目目录结构介绍jar包方式发布落地方案class增量发包介绍当前项目的迭代修复都是通过class增量包来发版本的将改动的代码class增量打包,如下图cla...

Jar启动和IDE里启动Sprintboot的区别

想聊明白这个问题,需要补充一些前提条件,比如Fatjar、类加载机制等1、Fatjar我们在开发业务程序的时候,经常需要引用第三方的jar包,最终程序开发完成之后,通过打包程序,会把自己的代码和三...

Java 20年,以后将往哪儿走?(java还能流行多久)

在今年的Java20周年的庆祝大会中,JavaOne2015的中心议题是“Java的20年”。甲骨文公司Java平台软件开发部的副总裁GeorgesSaab的主题演讲就将关注点放在了java...

Spring Boot Jar 包秒变 Docker 镜像实现多环境部署

你是否在互联网大厂后端开发工作中,遇到过这样的困扰?当完成一个SpringBoot项目开发,准备将Jar包部署到不同环境时,却发现各个环境依赖不同、配置复杂,部署过程繁琐又容易出错,不仅耗费...

从0开始,让你的Spring Boot项目跑在Linux服务器

1搭建Linux服务器1.1购买阿里云服务器或安装虚拟机这里建议是CentOS7.X或CentOS8.X,当然其他的Linux如deepin、Ubuntu也可以,只是软件环境的安装包和安装方式...

【技术】Maven 上传第三方jar包到私服

通过nexus后台上传私服以NexusRepositoryManagerOSS2.14.5-02为例。登录nexus后台。定义Maven坐标Maven坐标有两种方式:1.自定义参数;2....

JVM参数、main方法的args参数使用

一、前言我们知道JVM参数分为自定义参数、JVM系统参数,Javamain方法的参数。今天就谈谈怎么使用吧。二、查看jvm参数定义自定义参数我们打开cmd窗口,输入java,就能看到自定义参数的格式...

Maven项目如何发布jar包到Nexus私服

Maven项目发布jar包到Nexus私服在编码过程中,有些通用的代码模块,有时候我们不想通过复制粘贴来粗暴地复用。因为这样不仅体现不了变化,也不利于统一管理。这里我们使用mavendeploy的方...

干货丨Hadoop安装步骤!详解各目录内容及作用

Hadoop是Apache基金会面向全球开源的产品之一,任何用户都可以从ApacheHadoop官网下载使用。今天,播妞将以编写时较为稳定的Hadoop2.7.4版本为例,详细讲解Hadoop的安...