八、文本处理工具

文本提取工具（查看文本）

文本分析工具

文本操作工具

1、文本提取工具

cat、more、less查看文本内容

cat：打印一个或多个文件到标准输出

 1 #合并文件 2 [root@example tmp]# cat file1.txt file2.txt > file3.txt 3  4 #查看文件行号 5 [root@example tmp]# cat -n /tmp/passwd | grep 12 6  7 #查看文件中是否存在特殊字符 8 [root@example tmp]# cat -A test.txt  9 #!/bin/bash$10 cat >> err.txt <<EOF$11 hostname:example.com$12 cpu:2h$13 mem:4096M$14 ip:192.168.200.154.111$15 EOF$

more：浏览文件内容，每次只看一页
less：浏览文件内容，每次只看一页
- -/text：搜索text
- -n/N：跳转到next/previous匹配的地方
- -v：用文本编辑器打开该文件
- man命令中是采用less来分页的

head、tail过滤文本内容

head：显示文件的起始10行
- 使用 -n选项指定显示的行
tail：显示文件最后10行
- 使用-n选项指定显示的行
- 使用-f选项将文件末尾追加的内容显示在当前终端
  - 对于监控日志文件非常有用
如果需要在指定文本中取出内容（以行取）
- 先用head取出最大行
- 然后用 tail 减掉所需行数

grep 文本过滤工具
- -o：显示所有关键字
- -i：忽略大小写
- -n：显示行号
- -c：显示行数
- -v：显示不匹配的行（取反）
- -q：静默模式，没有任何输出，得用 $? 来判断执行是否成功，即有没有过滤到想要的内容
- -AX：将匹配行及其后X行一起显示
- -BX：将匹配行及其前X行一起显示
- -CX：将匹配行及其前后X行一起显示
- -r：递归搜索目录，根据文本内容搜索文件
- -l：如果匹配成功，则只将文件名打印出来，失败则不打印，通常 -rl 一起用；例如：grep -rl ‘root’ /etc
- –color=auto：用color颜色高亮显示匹配的数据

 1 #过滤关键字 2 [root@example tmp]# grep root passwd  3 root:x:0:0:root:/root:/bin/bash 4 operator:x:11:0:operator:/root:/sbin/nologin 5  6 #显示所有关键字 7 [root@example tmp]# grep -o root passwd  8 root 9 root10 root11 root12 13 #忽略大小写14 [root@example tmp]# grep -i root passwd 15 root:x:0:0:root:/root:/bin/bash16 operator:x:11:0:operator:/root:/sbin/nologin17 18 #显示行号19 [root@example tmp]# grep -n root passwd 20 1:root:x:0:0:root:/root:/bin/bash21 10:operator:x:11:0:operator:/root:/sbin/nologin22 23 #取反24 [root@example tmp]# grep -v root passwd 25 bin:x:1:1:bin:/bin:/sbin/nologin26 27 #0表示上一条命令执行成功28 [root@example tmp]# grep -q root passwd 29 [root@example tmp]# echo $?30 031 #1表示上一条命令执行失败32 [root@example tmp]# echo $?33 134 35 [root@example var]# grep -A4 ftp passwd36 [root@example var]# grep -B4 ftp passwd37 [root@example var]# grep -C4 ftp passwd38 39 [root@example var]# grep -rl passwd /etc40 /etc/nsswitch.conf.bak41 /etc/login.defs42 /etc/security/pwquality.conf43 44 [root@example var]# alias 45 alias cp='cp -i'46 alias egrep='egrep --color=auto'47 alias fgrep='fgrep --color=auto'48 #取消高亮49 [root@example var]# unalias grep50 #打开高亮51 [root@example var]# alias grep='grep --color=auto'52 [root@example var]# source /etc/profile

4.正则表达式

又称标准正则表达式，是最早的正则表达式规范，仅支持最基本的元子符集。基本正则表达式是POSIX规范制定的两种正则表达式语法标准之一，另外一种语法标准称为扩展正则表达式。

1 [root@example var]# grep bash$ /etc/passwd2 root:x:0:0:root:/root:/bin/bash3 user:x:1000:1000:user:/home/user:/bin/bash4 zhangsan:x:1005:1006::/home/zhangsan:/bin/bash

字符	含义
^	在每行的开始进行匹配
$	在每行的末尾进行匹配
\ <	在字的开始进行匹配
\ >	在字的末尾进行匹配
.	对任何单个字符进行匹配
[str]	对str中的任何单个字符进行匹配
[^str]	对任何不在str中的单个字符进行匹配
[a-b]	对a到b之间的任何字符进行匹配
\	转义字符，抑制后面的一个字符的特殊含义
*	对前一项（item）进行0次或多次重复匹配

grep使用扩展的正则需要使用egrep或者是grep -E

 1 [root@example etc]# egrep roo passwd 2 root:x:0:0:root:/root:/bin/bash 3 operator:x:11:0:operator:/root:/sbin/nologin 4 [root@example etc]# grep -E roo+ passwd 5 root:x:0:0:root:/root:/bin/bash 6 operator:x:11:0:operator:/root:/sbin/nologin 7 [root@example etc]# grep -E 'bash|user' passwd 8 root:x:0:0:root:/root:/bin/bash 9 qemu:x:107:107:qemu user:/:/sbin/nologin10 [root@example etc]# grep  -E '(roo?)' passwd11 root:x:0:0:root:/root:/bin/bash12 operator:x:11:0:operator:/root:/sbin/nologin13 14 [root@example etc]# ifconfig | grep -Eo '([0-9]{,3}\.){3}1{1}..'15 192.168.200.15416 127.0.0.1  17 192.168.122.1  18 19 [root@example etc]# ifconfig | grep -Eo '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}'|grep -v 25520 192.168.200.15421 127.0.0.122 192.168.122.123 24 [root@example etc]# ifconfig | grep -w inet | cut -d " " -f1025 192.168.200.15426 127.0.0.127 192.168.122.1

cut – 提取列或字段

显示文件指定的列或者标准输入数据
- cut -d: -f1 /etc/passwd； cut -d : -f1,3 passwd
- grep root /etc/passwd | cut -d:-f7
-d：来指定列分隔符
-f：来指定要打印的列
-c：指定按字符提取
- cut -c 2-5 /usr/share/dict/words

awk 以空作为默认的分隔符

awk -F 分隔符 ’{print $列}‘ 文件

1 [root@example ~]# ifconfig | grep -w inet | awk -F " " '{print $2}' 2 [root@example ~]# awk -F : '{print $1,$3}' /etc/passwd3 [root@example ~]# ifconfig | grep -w inet | cut -d " " -f104 [root@example ~]# ifconfig | grep -w inet | cut -d " " -f10 | cut -d . -f4 | cut -c 1-25 [root@example ~]# cut -c 1-4 /etc/passwd

2、文本分析工具

文本统计：wc

 1 [root@example tmp]# wc passwd  2   48  107 2636 passwd 3 第一列是文件的行数 4 第二列是文件的单词数 5 第三列是文件的字节数 6 [root@example tmp]# wc -l passwd  7 48 passwd 8 [root@example tmp]# wc -w passwd  9 107 passwd10 [root@example tmp]# wc -c passwd 11 2636 passwd12 [root@example tmp]# wc -wc passwd 13  107 2636 passwd

文本排序：sort

sort默认按照字符表的顺序排序，不是按照单词或者数字的方式排序

-n：以数字的方式进行排正序
-r：排倒序
-k：指定列
-t：指定分隔符
-u：去重
-f：忽略大小写

1 以数字进行排序 -n2 [root@example tmp]# sort -t : -k 3 -n passwd 3 以数字进行倒序 -r4 [root@example tmp]# sort -t : -k 3 -r -n passwd

文本比较：diff

比较文本差异，可以使用图像化工具vimdiff

1 [root@example tmp]# diff /etc/passwd /tmp/passwd 2 47a483 > user2:x:1002:1002::/home/user2:/bin/bash4 [root@example tmp]# vimdiff /etc/passwd /tmp/passwd 5 2 files to edit

3、文本操作工具

文本转换工具：tr

1 [root@example tmp]# tr a-z 1-2 < passwd 2 2222:2:0:0:2222:/2222:/222/2122

流编辑器：sed

用来进行文本的操作；查找、替换、删除、新增

地址定界：指的是要操作的行
- #：为数字，指定要进行处理操作的行
- $_：表示最后一行，多个文件进行操作的时候，为最后一个文件的最后一行
- /regexp/：表示能够被regexp匹配到的行，regexp及基于正则表达式的匹配
- /regexp/l：匹配时忽略大小写
- \%regexp%：任何能够被regexp匹配到的行，换用%（用其它字符也可以，如：#）为边界符号，当内容出现 \ 时使用
- addr1，addr2：指定范围内的所有的行（范围选定）常用地址界表示方式
  - 0，/regexp/：从起始行开始到第一次能够被regexp匹配到的行
  - /regexp/,/regexp/：被模式匹配到的行内地的所有的行
- first~step：指定起始的位置及步长，例如：1 ~ 2表示1，3，5…
- addr1,+N：指定行以及以后的N行
- addr1,~N：指定行开始的N行

 1 [root@example tmp]# sed -n 1p passwd  2 root:x:0:0:root:/root:/bin/bash 3 [root@example tmp]# sed -n 10,12p passwd  4 operator:x:11:0:operator:/root:/sbin/nologin 5 games:x:12:100:games:/usr/games:/sbin/nologin 6 ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin 7 [root@example ~]# sed -n '/^root/p' /etc/passwd 8 root:x:0:0:root:/root:/bin/bash 9 [root@example ~]# sed -n '$p' /etc/passwd10 zhangsan:x:1001:1001::/home/zhangsan:/bin/bash

地址定界的操作

p：打印模式空间的内容
d：删除匹配到的内容
-i：将操作保存到文件
a\text：append，表示在匹配到的行之后追加内容
i\text：insert，表示在匹配到的行之前追加内容
c\text：change，表示把匹配到的行和给定的文本进行交换
s/regexp/replacement/flages：查找替换，把text替换为 regexp 匹配到的内容（其中/可以用其它字符代替，例如@）
其它编辑命令
- g：全局替换，默认只替换第一个
- i：不区分大小写
- p：如果成功替换则打印
w /path/to/somefile：将匹配到的文件另存到指定的文件中

1 [root@example ~]# sed '1d' /etc/passwd2 [root@example ~]# sed -i '1d' /etc/passwd3 [root@example ~]# sed '/ftp/i\text' /tmp/passwd 4 [root@example ~]# sed '/ftp/a\text' /tmp/passwd 5 [root@example ~]# sed '/ftp/c\text' /tmp/passwd 6 [root@example ~]# sed -n 's/ftp/http/p' /tmp/passwd 7 http:x:14:50:FTP User:/var/ftp:/sbin/nologin8 [root@example ~]# sed  '46,48 s/ftp/http/gip' /tmp/passwd 9 [root@example ~]# sed '/root/ w /tmp/zhangsan.txt' /tmp/passwd

注意事项：

如果没有指定地址，表示命令将应用于每一行
如果只有一个地址，表示命令将应用于这个地址匹配的所有行
如果指定了由逗号分隔的两个地址，表示命令应用于匹配第一个地址和第二地址之间的行（包括这两行）
如果地址后面跟有感叹号，表示命令将应用于不匹配该地址的所有行

八、文本处理工具

最新关注

热文推荐

创建型-单例模式

区块链开源底层软件平台——长安链一键上链体验过程

Hexo 主题开发之自定义模板

DataX插件二次开发指南

专为云原生、微服务架构而设计的链路追踪工具【SkyWalking介绍及搭建】

C语言进阶——通讯录模拟实现

八、文本处理工具

相关文章

最新关注

热文推荐