百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

在R语言中使用正则表达式

liuian 2025-05-23 18:31 87 浏览

有时候我们要处理的是非结构化的数据,例如网页或是电邮资料,那么就需要用R来抓取所需的字符串,整理为进一步处理的数据形式。R语言中有一整套可以用来处理字符的函数,在之前的 博文 中已经有所涉及。但真正的要用好字符处理函数,则不得不用到正则表达式。 正则表达式(Regular Expression、regexp)是指一种用来描述一定数量文本的模式。熟练掌握正则表达式能使你随心所欲的操作文本来达成目标。其实学习正则表达式并没有想像中的那么困难。最好方法是从例子开始,然后多练习,多使用。网络上已经有许多不错的参考资料,例如 这篇 或 那篇 。本文假设你对正则表达式有了基本的了解,下面我们来看看如何在R里面来使用它。

假设我们有一个字符向量,包括了三个字符串。我们的目标是从中抽取电邮地址。R语言中很多字符函数都能识别正则表达式,而最重要的函数就是 gregexpr。该函数的第一个参数是正则表达式,前后需要用引号,对元字符进行转义时要用\\。第二个参数是等待处理的文本。那么用如下三行代 码,我们从word字符向量中得到一个列表,其中第一项元素中的5表示电邮地址从第5个字符位置开始,24表示电邮地址长度为24。

word <-c('abcnoboby@stat.berkeley.edu','textwithnoemail','firstme@mything.comalsoyou@yourspace.com')pattern<-'[-A-Za-z0-9_.%]+@[-A-Za-z0-9_.%]+\\.[A-Za-z]+'(gregout<-gregexpr(pattern,word))

[[1]]

[1] 5

attr(,”match.length”)

[1] 24

[[2]]

[1] -1

[[3]]

[1] 7 27

attr(,”match.length”)

[1] 14 17

下一步我们需要将电邮地址抽取出来,此时配合substr函数,即可根据需要字符串的位置来提取子集。

substr(word[1],gregout[[1]],gregout[[1]]+attr(gregout[[1]],'match.length')-1)

[1] “noboby@stat.berkeley.edu”

更方便的使用方式是根据上述方法建立一个自定义函数getcontent,参数s表示待处理的文本,参数g表示的是通过gregexpr函数处理后的结果。这个函数我们在后面还会用到。

getcontent <-function(s,g){substring(s,g,g+attr(g,'match.length')-1)}getcontent(word[1],gregout[[1]])

下面我们用一个较大的例子来说明在实际的数据抓取工作中,如何使用正则表达式。豆瓣电影是博主经常去的地方。此次任务目标是要抓取豆瓣电影中250部最佳电影的资料。R代码如下:

url<-'http://movie.douban.com/top250?format=text'# 获取网页原代码,以行的形式存放在web变量中web<-readLines(url,encoding="UTF-8")# 找到包含电影名称的行编号name<-web[grep('<tdheaders="m_name">',web)+1]# 用正则表达式来提取电影名
gregout <-gregexpr('>\\w+',name)
movie.names =0for(i in1:250){
    movie.names[i]<-getcontent(name[i],gregout[[i]])}
movie.names<-sub('>','',movie.names)# 找到包含电影发行年份的行编号并进行提取
year <-web[grep('<spanclass="year">',web)]
movie.year <-substr(year,36,39)# 找到包含电影评分的行编号并进行提取score<-web[grep('<tdheaders="m_rating_score">',web)+1]
movie.score <-substr(score,21,23)# 找到包含电影评价数量的行编号并进行提取rating<-web[grep('<tdheaders="m_rating_num">',web)+1]
movie.rating <-sub(' *','',rating)# 合成为数据框movie<-data.frame(names=movie.names,year=as.numeric(movie.year),score=as.numeric(movie.score),rate=as.numeric(movie.rating))# 绘散点图library(ggplot2)p<-ggplot(data=movie,aes(x=year,y=score))p+geom_point(aes(size=rate),colour='lightskyblue4',position="jitter",alpha=0.8)+geom_point(aes(x=1997,y=8.9),colour='red',size=4)

用散点图来观察数据,可以看到前250名电影中大部分是1980年之后发行的。1997年和2010年发行的电影有不少精品。而其中红色点所代表的是哪部电影你知道吗?那就是Titanic。

相关推荐

电脑开机只有一个鼠标箭头黑屏

解决方法如下:1、同时按“ctrl+shlft+exc”键,调出任务管理器。2、点击任务管理器左下角的“详细信息”。3、然后点击左上角“文件”里的“运行新任务”。4、弹出新窗口,输入“explorer...

把vx好友删了想找回聊天记录

没有啦,联系人列表里没有了,聊天记录就没有了,无法进行恢复,收不到好友消息微信删除好友时会同时删除与该联系人的聊天记录,不过对方还是有双方的微信聊天记录的,删除好友后将无法发送消息给对方,所以伙伴们在...

163邮箱密码正确就是登不上(163邮箱密码一直错误)

邮箱不能登录或登录异常的原因有很多种哦,如您浏览器“隐私”或“安全”级别设置过高,或用户名、密码输入不正确、较长时间未登录被冻结等都会导致不能登录或登录异常。请您先检查一下哦。解决无法登录的方法有:...

移动硬盘维修费用大概是多少钱

芯片不需要多少钱,但数据恢复就另当别论了。。。如果认识人就帮你换个芯片板,要不了多少钱,如果是硬盘盒的芯片板坏了你就乾脆换个盒子,80左右。如果是硬盘芯片坏了,那就不好办了,没人愿意给你换阿。。。但如...

windows资源管理器停止工作是什么原因

1.在进行重装系统之前,可以先检测一下windows资源管理器停止工作的原因是什么。如果是因为电脑的文件太多了,垃圾堆积导致的停止工作,我们就不需要进行重装系统。我们只需要下载一个360卫士或者其他可...

联想电脑24小时维修热线电话

   1.打开Think.lenovo.com.cn网页,点击登陆。  2.输入用户名密码,点击登陆。  3.点击右上角的:返回个性化首页。  4.点击“咨询与报修”中的“网上报修”。 ...

u盘上的系统怎么安装到电脑上

如果这个u盘是已经制作成为启动盘,可以进入pe系统的话就可以从u盘启动进入到pe系统中进行系统安装!如果你的意思是u盘里直接是操作系统的话,那就在bios设置里直接设定为u盘启动就好了!也可以在pe中...

20年前老笔记本改造升级(比较老的笔记本电脑改装)

答:10年前的笔记本电脑升级改造的方法。1.减少电脑后台程序。电脑和手机也是差不多的,有些软件在关闭之后并没有真正的退出,而是在后台偷偷的运行,这样也是占电脑内存,这样会导致电脑变得越来有。2....

住房公积金贷款计算器(住房公积金贷款计算器在线)

房贷、公积金贷款计算器基本养老保险金计算器基本医疗保险金计算器工伤保险计算器住房公积金缴存计算器养老保险退休金计算器五险一金及税后工资计算器失业保险计算器住房公积金贷款利息怎么计算,具体如下:公积金贷...

电脑开不了机风扇不转(电脑开机风扇转一会停了又继续转)

电脑开不了机,主机风扇转不动,出现这种情况有以下几种可能:1、电源线松了,或电源插板松动,又或者插板不通电。2、主机电源坏了。3、电脑的主板坏了。4、主机面的开关按钮坏了,或者按钮卡住了。解...

网页打不了怎么办(网页打不开是什么原因及解决方法)

浏览器打不开的修复方法:  步骤1、关于浏览器打不开的问题,首先点击电脑桌面左下角“开始”—>“运行”,输入regsvr32jscript.dll后选择“确定”,再次输入regsvr32vb...

ghost文件安装系统方法(ghost如何安装)
  • ghost文件安装系统方法(ghost如何安装)
  • ghost文件安装系统方法(ghost如何安装)
  • ghost文件安装系统方法(ghost如何安装)
  • ghost文件安装系统方法(ghost如何安装)
win10自带文件恢复工具(win10文件恢复工具推荐)

步骤:第一步:打开系统的管理员命令提示符窗口。Windows10系统打开管理员命令提示符窗口有如下几种方法:方法一:在系统桌面左下角的搜索栏输入:CMD,点击:命令提示符,可以打开管理员命令提示符窗口...

电脑本地磁盘c盘满了怎么办(电脑本地磁盘c盘满了如何删除)

当您的电脑本地磁盘C满了时,可能会出现一些问题,例如无法安装新程序、无法保存文件等。以下是一些解决方法:1.删除不需要的文件:可以通过手动删除不需要的文件或使用磁盘清理工具来清理本地磁盘C。在清理磁...

ghost网络克隆详细步骤教程(ghost局域网克隆)
  • ghost网络克隆详细步骤教程(ghost局域网克隆)
  • ghost网络克隆详细步骤教程(ghost局域网克隆)
  • ghost网络克隆详细步骤教程(ghost局域网克隆)
  • ghost网络克隆详细步骤教程(ghost局域网克隆)