文章目录

R中的grep、grepl、sub、gsub、regexpr、gregexpr等函数都使用正则表达式的规则进行匹配。默认是egrep的规则,也可以选用Perl语言的规则。在这里,我们以R中的sub函数为例(因为该函数可以返回替换字符串后的具体内容)介绍正则表达式的用法。

对该函数的逻辑参数都使用默认值(ignore.case = FALSE,表示大小写敏感;extended = TRUE,表示使用egrep规则;perl = FALSE,表示不使用Perl规则;fixed = FALSE,表示不使用精确匹配;useBytes = FALSE,表示按字符匹配)。另外三个中,pattern为字符串表示正则表达式,replacement也是字符串表示替换的内容,x为字符型向量表示被替换的字符向量。该函数会根据pattern的规则对x中各元素进行搜索,遇到符合条件的第一个子字符串的位置(gsub是替换所有符合条件的),用replacement替换该子字符串,返回替换后的结果,和x的结构相同。为了清晰地介绍例子,我们对replacement统一赋值为“”,相当于去掉搜寻出来的子字符串。

^ 匹配一个字符串的开始,比如 sub("^a","",c("abcd","dcba")),表示将开头为a的字符串中的a替换成空,在返回值中可以发现后面出现的a并没有被替换。如果要将开头的一个字符串替换,简单地写成“^ab”就行。

$ 匹配一个字符串的结尾,比如 sub("a$","",c("abcd","dcba")) 表示将以a结尾的字符串中的a替换成空。. 表示除了换行符以外的任一字符,比如 sub("a.c","",c("abcd","sdacd"))* 表示将其前的字符进行0个或多个的匹配,比如 sub("a*b","",c("aabcd","dcaaaba"))。类似地,? 匹配0或1个正好在它之前的那个字符,+ 匹配1或多个正好在它之前的那个字符。.* 可以匹配任意字符,比如 sub("a.*e","",c("abcde","edcba"))

| 表示逻辑的或,比如 sub("ab|ba","",c("abcd","dcba")),可以替换ab或者ba。^ 还可以表示逻辑的补集,需要写在 [] 中,比如 sub("[^ab]","",c("abcd","dcba")),由于sub只替换搜寻到的第一个,因此这个例子中用gsub效果更好。

[] 还可以用来匹配多个字符,如果不使用任何分隔符号,则搜寻这个集合,比如在 sub("[ab]","",c("abcd","dcba")) 中,和 a|b 效果一样。[-] 的形式可以匹配一个范围,比如 sub("[a-c]","",c("abcde","edcba")) 匹配从a到c的字符,sub("[1-9]","",c("ab001","001ab")) 匹配从1到9的数字。

以上是最基础的正则表达式元字符,在一些正则表达式的书籍和资料中有非常详细的介绍。最后需要提一下的是“贪婪”和“懒惰”的匹配规则。默认情况下是匹配尽可能多的字符,是为贪婪匹配,比如 sub("a.*b","",c("aabab","eabbe")),默认匹配最长的a开头b结尾的字串,也就是整个字符串。如果要进行懒惰匹配,也就是匹配最短的字串,只需要在后面加个 ?,比如 sub("a.*?b","",c("aabab","eabbe")),就会匹配最开始找到的最短的a开头b结尾的字串。

文章目录