4 数据清洗
从非结构的、半结构的数据中抽取有用的信息,常常需要一番数据清洗操作,最重要的工具之一是正则表达式。R 语言内置一系列函数,组成一套工具,详见 ?regex
。
4.1 正则表达式
4.1.1 量词
4.1.2 级联
4.1.3 断言
正向查找 / 反向查找
4.1.4 反向引用
4.1.5 命名捕捉
4.2 字符串操作
4.2.1 查找
grep()
/ grepl()
返回是否匹配的结果
4.2.2 替换
sub()
/ gsub()
替换一次和多次
4.2.3 提取
regexpr()
/ gregexpr()
regexec()
/ gregexec()