正则表达式入门指南：开启文本处理的魔法大门

预计阅读时间: 13 分钟

在日常的编程和数据处理中，我们经常面临复杂的文本操作需求：

如何从海量文本中精准提取电子邮件地址？
怎样快速验证用户输入的电话号码格式是否正确？
如何批量替换文档中的特定日期格式？

这些看似棘手的问题，都可以借助一种强大的文本模式匹配工具——正则表达式 (Regular Expression, Regex) 来优雅地解决。

一、什么是正则表达式？

正则表达式，通常简称为“正则”或“regex”，是一种用于描述字符串中字符组合规律的模式。它本质上是一套预定义的规则，通过这些规则，我们可以高效地在文本中进行搜索、匹配、提取、替换和验证等操作。

正则表达式的应用范围极其广泛，几乎遍布所有主流的编程语言、文本编辑器和命令行工具，例如 JavaScript、Python、Java、C#，以及 VS Code、Sublime Text、grep、sed、Notepad++ 等。掌握正则表达式，无疑能极大地提升你的文本处理效率。

二、正则表达式的基础语法

正则表达式的核心在于其语法，它由普通字符和具有特殊含义的元字符组成。

1. 普通字符 (Literals)

最基础的构成部分是普通字符，它们在正则表达式中直接匹配自身。


正则表达式	匹配内容
`hello`	精确匹配 “hello”
`abc123`	精确匹配 “abc123”

2. 元字符 (Metacharacters)

元字符是正则表达式的灵魂，它们赋予了模式匹配的灵活性和强大的表达能力。理解并熟练运用元字符是掌握正则表达式的关键。


符号	含义	示例
`.`	匹配任何单个字符（除了换行符，某些模式下可匹配）	`a.c` 匹配 “abc”, “a1c”
`^`	匹配字符串的开头	`^The` 匹配以 “The” 开头的字符串
`$`	匹配字符串的结尾	`.com$` 匹配以 “.com” 结尾的字符串
`*`	匹配前一个元素零次或多次	`ab*c` 匹配 “ac”, “abc”, “abbc”
`+`	匹配前一个元素一次或多次	`ab+c` 匹配 “abc”, “abbc”，不匹配 “ac”
`?`	匹配前一个元素零次或一次（即可选）	`colou?r` 匹配 “color”, “colour”
`{n}`	匹配前一个元素恰好 `n` 次	`a{3}` 匹配 “aaa”
`{n,}`	匹配前一个元素至少 `n` 次	`a{2,}` 匹配 “aa”, “aaa”, …
`{n,m}`	匹配前一个元素至少 `n` 次，但不超过 `m` 次	`a{2,4}` 匹配 “aa”, “aaa”, “aaaa”
`[]`	匹配括号内的任意一个字符	`[aeiou]` 匹配任意小写元音字母
`[^]`	匹配除了括号内字符之外的任意字符	`[^0-9]` 匹配任何非数字字符
`\|`	或（选择），匹配左右两边的任何一个模式
`()`	分组，将括号内的模式视为一个整体，并可用于捕获匹配	`(ab)+` 匹配 “ab”, “abab”, …
`\`	转义字符，用于取消元字符的特殊含义，匹配其字面值	`\.` 匹配一个句点 “.”

3. 特殊字符序列

为了简化常见的模式匹配，正则表达式提供了一些预定义的特殊字符序列：


表达式	含义	等价于
`\d`	匹配任何数字	`[0-9]`
`\D`	匹配任何非数字字符	`[^0-9]`
`\s`	匹配任何空白字符（空格、制表符、换行符等）
`\S`	匹配任何非空白字符
`\w`	匹配任何单词字符（字母、数字、下划线）	`[a-zA-Z0-9_]`
`\W`	匹配任何非单词字符	`[^a-zA-Z0-9_]`
`\b`	匹配单词边界（例如，空格、标点符号、字符串开头/结尾）
`\B`	匹配非单词边界

三、常见模式案例

结合你提供的案例和更通用的模式：

1. 匹配电子邮件地址

[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

[a-zA-Z0-9._%+-]+: 匹配一个或多个字母、数字、下划线、点号、百分号、加号或减号（用户名部分）。
@: 匹配 “@” 符号。
[a-zA-Z0-9.-]+: 匹配一个或多个字母、数字、点号或减号（域名部分）。
\.: 匹配一个点号（需要转义）。
[a-zA-Z]{2,}: 匹配两个或多个字母（顶级域名部分，如 com, org, cn）。

2. 匹配手机号

^1[3-9]\d{9}$

^: 匹配字符串的开头。
1[3-9]: 匹配以 “1” 开头，第二位数字是 3 到 9 的数字。
\d{9}: 匹配后面跟着的 9 位数字。
$: 匹配字符串的结尾。

3. 匹配日期（常见格式：YYYY-MM-DD）

\d{4}-\d{2}-\d{2}

\d{4}: 匹配四位数字（年份）。
-: 匹配连字符。
\d{2}: 匹配两位数字（月份或日期）。

你还可以扩展匹配其他日期格式，例如 \d{4}/\d{2}/\d{2} 或 \d{2}/\d{2}/\d{4}。

四、贪婪匹配与非贪婪匹配

默认情况下，量词 (*, +, ?, {}) 是贪婪的 (greedy)，它们会尽可能多地匹配字符。如果你希望它们尽可能少地匹配，可以使用非贪婪模式 (non-greedy)，在量词后面加上 ?。

例如，对于字符串 HelloWorldRegex：
- \.*\<\/p> (贪婪) 会匹配整个 HelloWorldRegex.
- \.*?\<\/p> (非贪婪) 会匹配 Hello 和 Regex.

五、捕获组与非捕获组

(pattern): 捕获组会将括号内匹配到的文本存储起来，方便后续引用或提取。
(?:pattern): 非捕获组用于组合模式，但不存储匹配到的文本，可以提高效率。

例如，要提取日期中的年、月、日：

(\d{4})-(\d{2})-(\d{2})

在匹配后，你可以通过捕获组的编号（通常从 1 开始）获取各个部分。

六、前瞻和后顾断言 (Lookaround Assertions)

这些是零宽度断言，它们匹配一个位置，而不是字符本身。

正向前瞻 (Positive Lookahead): (?=pattern) 断言当前位置的后面必须紧跟着 pattern。
负向前瞻 (Negative Lookahead): (?!pattern) 断言当前位置的后面不能紧跟着 pattern。
正向后顾 (Positive Lookbehind): (?<=pattern) 断言当前位置的前面必须紧跟着 pattern。
负向后顾 (Negative Lookbehind): (?<!pattern) 断言当前位置的前面不能紧跟着 pattern。

例如，要匹配后面跟着 “USD” 的数字：\d+(?=USD)

七、如何在不同环境中使用正则表达式

Python 示例：

import re

text = "请联系我：[email protected] 和 [email protected]"
pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

results = re.findall(pattern, text)
print(results)  # 输出 ['[email protected]', '[email protected]']

在文本编辑器中使用：

大多数现代文本编辑器都支持在查找和替换功能中使用正则表达式。你需要启用相应的选项（通常是一个 .* 图标或 “Use Regular Expression” 复选框）。

八、学习建议与资源

在线测试工具：
- Regex101：功能强大，可以实时查看匹配结果、解释正则表达式，并提供不同语言的代码示例。
- RegExr：简洁易用，提供交互式的学习和测试环境。
练习题思路：
- 提取网页信息： 从简单的 HTML 片段中提取所有的 <a> 标签的 href 属性值（链接）和标签内的文本（标题）。
- 校验用户输入： 编写正则表达式来验证用户注册表单中的用户名（例如，只能包含字母、数字和下划线，长度在 6-20 个字符之间）、密码强度（例如，包含大小写字母、数字和特殊符号）。
- 日志分析： 从服务器日志文件中提取特定时间范围内的所有 IP 地址或错误信息。
- 数据清洗： 清理文本数据中的多余空格、特殊字符或HTML标签。
系统学习：
- 查阅你所使用编程语言的正则表达式文档。
- 阅读相关的在线教程和书籍。
- 参与在线社区和论坛的讨论。

正则表达式是一项极具价值的技能，虽然初学时可能会遇到一些挑战，但一旦掌握，它将成为你处理文本数据的强大助手。通过不断地学习和实践，你将能够灵活运用正则表达式解决各种复杂的文本处理任务，开启文本处理的魔法大门。

启鑫的黑板报

正则表达式入门指南：开启文本处理的魔法大门

一、什么是正则表达式？

二、正则表达式的基础语法

1. 普通字符 (Literals)

2. 元字符 (Metacharacters)

3. 特殊字符序列

三、常见模式案例

1. 匹配电子邮件地址

2. 匹配手机号

3. 匹配日期（常见格式：YYYY-MM-DD）

四、贪婪匹配与非贪婪匹配

五、捕获组与非捕获组

六、前瞻和后顾断言 (Lookaround Assertions)

七、如何在不同环境中使用正则表达式

Python 示例：

在文本编辑器中使用：

八、学习建议与资源

评论

发表回复取消回复

正则表达式入门指南：开启文本处理的魔法大门

一、什么是正则表达式？

二、正则表达式的基础语法

1. 普通字符 (Literals)

2. 元字符 (Metacharacters)

3. 特殊字符序列

三、常见模式案例

1. 匹配电子邮件地址

2. 匹配手机号

3. 匹配日期（常见格式：YYYY-MM-DD）

四、贪婪匹配与非贪婪匹配

五、捕获组与非捕获组

六、前瞻和后顾断言 (Lookaround Assertions)

七、如何在不同环境中使用正则表达式

Python 示例：

在文本编辑器中使用：

八、学习建议与资源

相关文章

评论

发表回复 取消回复

发表回复取消回复