Regular Expression

链接：

就因为这三个知识点，我彻底学废了”正则表达式“[https://juejin.cn/post/7021672733213720613]
书[https://github.com/qdlaoyao/js-regex-mini-book/blob/master/JavaScript正则表达式迷你书（1.1版）.pdf]

note

==正则表达式是匹配模式，要么匹配字符，要么匹配位置。请记住这句话。==
精确匹配

var regex = /hello/;
console.log(regex.test("hello")); // => true

模糊匹配 (强大) 横向模糊匹配 (多个字符)

// 横向模糊匹配
其实现的方式是使用量词。譬如 {m,n}，表示连续出现最少 m 次，最多 n 次。
比如正则 /ab{2,5}c/ 表示匹配这样一个字符串：
第一个字符是 "a"，接下来是 2 到 5 个字符 "b"，最后是字符 "c"。

测试

var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc";
console.log( string.match(regex) );
// => ["abbc", "abbbc", "abbbbc", "abbbbbc"]

// g 表示全局匹配，而不只是第一个

纵向模糊匹配 (单个字符)

// 其实现的方式是使用字符组。譬如 [abc]，表示该字符是可以字符 "a"、"b"、"c" 中的任何一个。
// 比如 /a[123]b/ 可以匹配如下三种字符串： "a1b"、"a2b"、"a3b"。

测试

var regex = /a[123]b/g;
var string = "a0b a1b a2b a3b a4b";
console.log( string.match(regex) );
// => ["a1b", "a2b", "a3b"]

只要掌握横向和纵向模糊匹配，就能解决很大部分正则匹配问题。

字符组 (单个字符)

需要强调的是，虽叫字符组（字符类），但只是其中一个字符。例如 [abc]，表示匹配一个字符，它可以是 "a"、"b"、"c" 之一。

范围表示法 (单个字符)

如果字符组里的字符特别多的话，怎么办？可以使用范围表示法。

比如 [123456abcdefGHIJKLM]，可以写成 [1-6a-fG-M]。用连字符 - 来省略和简写。

因为连字符有特殊用途，那么要匹配 "a"、"-"、"z" 这三者中任意一个字符，该怎么做呢？

不能写成 [a-z]，因为其表示小写字符中的任何一个字符。

可以写成如下的方式：[-az] 或 [az-] 或 [a-z]。即要么放在开头，要么放在结尾，要么转义。总之不会让引擎认为是范围表示法就行了。

排除字符组 (单个字符)

纵向模糊匹配，还有一种情形就是，某位字符可以是任何东西，但就不能是 "a"、"b"、"c"。

此时就是排除字符组（反义字符组）的概念。例如 [^abc]，表示是一个除 "a"、"b"、"c"之外的任意一个字符。字符组的第一位放 ^（脱字符），表示求反的概念。

当然，也有相应的范围表示法。

常见的简写形式 (单个字符)

有了字符组的概念后，一些常见的符号我们也就理解了。因为它们都是系统自带的简写形式。

字符组	具体含义
\d	表示 [0-9]。表示是一位数字。记忆方式：其英文是 digit（数字）。
\D	表示 [^0-9]。表示除数字外的任意字符。
\w	表示 [0-9a-zA-Z_]。表示数字、大小写字母和下划线。记忆方式：w 是 word 的简写，也称单词字符。
\W	表示 [^0-9a-zA-Z_]。非单词字符。
\s	表示 [ \t\v\n\r\f]。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。
\S	表示 [^ \t\v\n\r\f]。非空白符。
.	表示 [^\n\r\u2028\u2029]。通配符，表示几乎任意字符。换行符、回车符、行分隔符和段分隔符除外。记忆方式：想想省略号 … 中的每个点，都可以理解成占位符，表示任何类似的东西。

如果要匹配任意字符怎么办？可以使用 [\d\D]、[\w\W]、[\s\S] 和 [^] 中任何的一个。

量词（多个字符）

量词也称重复。掌握 {m,n} 的准确含义后，只需要记住一些简写形式。

简写形式（多个字符）

量词	具体含义
`{m,}`	表示至少出现 m 次
`{m}`	等价于{m,m},表示出现 m 次。
?	等价于{0,1},表示出现或者不出现。记忆方式，问号的意思表示，有吗？
+	等价于{1,},表示出现至少一次。记忆方式：加号是追加的意思，得先有一个，然后才考虑追加。
*	等价于{0,},表示出现任意次，有可能不出现。记忆方式：看看天上的星星，有可能一颗都没有，有可能数都数不过来。

贪婪匹配与惰性匹配（多个字符）

例子

var regex = /\d{2,5}/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );
// => ["123", "1234", "12345", "12345"]

其中正则 /\d{2,5}/，表示数字连续出现 2 到 5 次。会匹配 2 位、3 位、4 位、5 位连续数字。

但是其是贪婪的，它会尽可能多的匹配。你能给我 6 个，我就要 5 个。你能给我 3 个，我就要 3 个。

反正只要在能力范围内，越多越好。我们知道有时贪婪不是一件好事（请看文章最后一个例子）。而惰性匹配，就是尽可能少的匹配：

var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );
// => ["12", "12", "34", "12", "34", "12", "34", "56"]

其中 /\d{2,5}?/ 表示，虽然 2 到 5 次都行，当 2 个就够的时候，就不再往下尝试了。

这也说明正则已匹配到了的字符不会再重新去匹配

通过在量词后面加个问号就能实现惰性匹配，所有惰性匹配情形如下：（?表示量词，0 或 1，咦，也不能解释，反正在量词后加个？就表示是惰性匹配了。）

惰性量词	贪婪量词
`{m,n}?`	`{m,n}`
`{m,}?`	`{m,}`
`??`	?
*?	*

TIP 对惰性匹配的记忆方式是：量词后面加个问号，问一问你知足了吗，你很贪婪吗？

多选分支（多个字符）

一个模式可以实现横向和纵向模糊匹配。而多选分支可以支持多个子模式任选其一。

具体形式如下：(p1|p2|p3)，其中 p1、p2 和 p3 是子模式，用 |（管道符）分隔，表示其中任何之一。

例如要匹配字符串 "good" 和 "nice" 可以使用 /good|nice/。

测试 1：

var regex = /good|nice/g;
var string = "good idea, nice try.";
console.log( string.match(regex) );
// => ["good", "nice"]

测试 2：

var regex = /good|dnice/g;
var string = "goodnice";
console.log(string.match(regex));
// => ["good"]

说明第一个分支已匹配完的字符，另一个分支不会再继续匹配。

案例

匹配字符，无非就是字符组、量词和分支结构的组合使用罢了。

下面找几个例子演练一下（其中，每个正则并不是只有唯一写法）：

匹配 16 进制颜色值

要求匹配

shell

#ffbbad
#Fc01DF
#FFF
#ffE

案例

        var regex = /#([0-9a-fA-F]{6}|[0-9a-fA-F]{3})/g
        // 表示一个 16 进制字符，可以用字符组 [0-9a-fA-F]。
        // 其中字符可以出现 3 或 6 次，需要是用量词和分支结构。

        var string = "#ffbbad #Fc01DF #FFF #ffE";
        console.log( string.match(regex) );
        // => ["#ffbbad", "#Fc01DF", "#FFF", "#ffE"]

匹配时间

以 24 小时制为例。要求匹配：

shell

23:59
02:07

例子

        var regex = /(([01][\d])|(2[0-3])):[0-5][\d]/g
        // var regex = /^([01][0-9]|[2][0-3]):[0-5][0-9]$/;
        var str = '23:45'
        console.log(regex.test(str));

NOTE 正则中使用了 ^ 和 $，分别表示字符串开头和结尾。如果也要求匹配 "7:9"，也就是说时分前面的 "0" 可以省略。

此时正则变成：

var regex = /^(0?[0-9]|1[0-9]|[2][0-3]):(0?[0-9]|[1-5][0-9])$/;
console.log( regex.test("23:59") );
console.log( regex.test("02:07") );
console.log( regex.test("7:9") );
// => true
// => true
// => true

匹配日期

比如 yyyy-mm-dd 格式为例。

要求匹配：

2017-06-10

例子

    var regex = /\d{4}-(0\d|1[0-2])-([0-2]\d|3[01])/g
    console.log(regex.test('2017-06-30'));

window 操作系统文件路径

要求匹配

F:\study\javascript\regex\regular expression.pdf
F:\study\javascript\regex\
F:\study\javascript
F:\

my，哈哈哈。。。

        var regex = /[A-Z]:\\/g
        console.log(regex.test('F:\\'));

分析：整体模式是：

shell

盘符:\文件夹\文件夹\文件夹\

其中匹配 "F:"，需要使用 [a-zA-Z]:\，其中盘符不区分大小写，注意 \ 字符需要转义。

文件名或者文件夹名，不能包含一些特殊字符，此时我们需要排除字符组 [^\:*<>|"?\r\n/] 来表示合法字符。

另外它们的名字不能为空名，至少有一个字符，也就是要使用量词 +。因此匹配文件夹\，可用[^\:*<>|"?\r\n/]+\。

另外文件夹\，可以出现任意次。也就是 ([^\:<>|"?\r\n/]+\)。其中括号表示其内部正则是一个整

路径的最后一部分可以是文件夹，没有 \，因此需要添加 ([^\:*<>|"?\r\n/]+)?。

最后拼接成了一个看起来比较复杂的正则：

var regex = /^[a-zA-Z]:\\([^\\:*<>|"?\r\n/]+\\)*([^\\:*<>|"?\r\n/]+)?$/;
console.log( regex.test("F:\\study\\javascript\\regex\\regular expression.pdf") );
console.log( regex.test("F:\\study\\javascript\\regex\\") );
console.log( regex.test("F:\\study\\javascript") );
console.log( regex.test("F:\\") );
// => true
// => true
// => true
// => true

其中，在 JavaScript 中字符串要表示字符 \ 时，也需要转义。

匹配 id

要求从

<div id="container" class="main"></div>

提取出 id="container"。

可能最开始想到的正则是：

var regex = /id=".*"/
var string = '<div id="container" class="main"></div>';
console.log(string.match(regex)[0]);
// => id="container" class="main"

因为 . 是通配符，本身就匹配双引号的，而量词 * 又是贪婪的，当遇到 container 后面双引号时，是不会停下来，会继续匹配，直到遇到最后一个双引号为止。

解决之道，可以使用惰性匹配：

var regex = /id=".*?"/
var string = '<div id="container" class="main"></div>';
console.log(string.match(regex)[0]);
// => id="container"

当然，这样也会有个问题。效率比较低，因为其匹配原理会涉及到“回溯”这个概念（这里也只是顺便提一下，之后会详细说明）。可以优化如下：

var regex = /id="[^"]*"/
var string = '<div id="container" class="main"></div>';
console.log(string.match(regex)[0]);
// => id="container"

小结，入门了

掌握字符组和量词就能解决大部分常见的情形，也就是说，当你会了这二者，JavaScript 正则算是入门了。

正则表达式位置匹配攻略

正则表达式是匹配模式，要么匹配字符，要么匹配位置。请记住这句话。

然而大部分人学习正则时，对于匹配位置的重视程度没有那么高。

什么是位置

位置（锚）是相邻字符之间的位置。

如何匹配位置

^ , $ , \b , \B , (?=p) , (?!p)

^ 和 $

^（脱字符）匹配开头，在多行匹配中匹配行开头。
$（美元符号）匹配结尾，在多行匹配中匹配行结尾。比如我们把字符串的开头和结尾用 "#" 替换（位置可以替换成字符的！）：

var result = "hello".replace(/^|$/g, '#');
console.log(result);
// => "#hello#"

多行匹配模式（即有修饰符 m）时，二者是行的概念，这一点需要我们注意：

var result = "I\nlove\njavascript".replace(/^|$/gm, '#');
console.log(result);
/*
#I#
#love#
#javascript#
*/

\b 和 \B

\b 是单词边界，具体就是 \w 与 \W 之间的位置，也包括 \w 与 ^ 之间的位置，和 \w 与 $ 之间的位置。

比如考察文件名 "[JS] Lesson_01.mp4" 中的 \b，如下：

var result = "[JS] Lesson_01.mp4".replace(/\b/g, '#');
console.log(result);
// => "[#JS#] #Lesson_01#.#mp4#"

知道了 \b 的概念后，那么 \B 也就相对好理解了。

\B 就是 \b 的反面的意思，非单词边界。例如在字符串中所有位置中，扣掉 \b，剩下的都是 \B 的。

具体说来就是 \w 与 \w、 \W 与 \W、^ 与 \W，\W 与 $ 之间的位置。

比如上面的例子，把所有 \B 替换成 "#"：

var result = "[JS] Lesson_01.mp4".replace(/\B/g, '#');
console.log(result);
// => "#[J#S]# L#e#s#s#o#n#_#0#1.m#p#4"

(?=p) 和 (?!p)

(?=p)，其中 p 是一个子模式，即 p 前面的位置，或者说，该位置后面的字符要匹配 p。

比如 (?=l)，表示 "l" 字符前面的位置，例如：

var result = "hello".replace(/(?=l)/g, '#');
console.log(result);
// => "he#l#lo"

而 (?!p) 就是 (?=p) 的反面意思，比如：

var result = "hello".replace(/(?!l)/g, '#');
console.log(result);
// => "#h#ell#o#"

二者的学名分别是 positive lookahead 和 negative lookahead。

中文翻译分别是正向先行断言和负向先行断言。

ES5 之后的版本，会支持 positive lookbehind 和 negative lookbehind。

具体是 (?<=p) 和 (?<!p)。

也有书上把这四个东西，翻译成环视，即看看右边和看看左边。

但一般书上，没有很好强调这四者是个位置。

比如 (?=p)，一般都理解成：要求接下来的字符与 p 匹配，但不能包括 p 匹配的那些字符。

而在本人看来，(?=p) 就与 ^ 一样好理解，就是 p 前面的那个位置。

位置的特性

对于位置的理解，我们可以理解成空字符 ""。

比如 "hello" 字符串等价于如下的形式：

"hello" == "" + "h" + "" + "e" + "" + "l" + "" + "l" + "" + "o" + "";

也等价于：

"hello" == "" + "" + "hello"

因此，把 /^hello $/ 写成 /^^hello$ $$/，是没有任何问题的：

var result = /^^hello$$$/.test("hello");
console.log(result);
// => true

甚至可以写成更复杂的：

var result = /(?=he)^^he(?=\w)llo$\b\b$/.test("hello");
console.log(result);
// => true

也就是说字符之间的位置，可以写成多个。

TIP

TIP 把位置理解空字符，是对位置非常有效的理解方式。

案例

不匹配任何东西的正则

让你写个正则不匹配任何东西

easy，/.^/。

因为此正则要求只有一个字符，但该字符后面是开头，而这样的字符串是不存在的。

数字的千位分隔符表示法

比如把 "12345678"，变成 "12,345,678"。

弄出最后一个逗号

        var regexp = /(?=\d{3}$)/g
        // var regexp = /(?=\d{3})$/g // 可不能写成这样，想想为什么？因为是从左往右匹配的。。
        console.log('1235345'.replace(regexp,','));
        // => "12345,678"

其中，(?=\d{3} $) 匹配 \d 3$ 前面的位置。而 \d{3}$ 匹配的是目标字符串最后那 3 位数字。

弄出所有的逗号

因为逗号出现的位置，要求后面 3 个数字一组，也就是 \d{3} 至少出现一次。

此时可以使用量词 +：

var result = "12345678".replace(/(?=(\d{3})+$)/g, ',')
console.log(result);
// => "12,345,678"

匹配其余案例（还没完）写完正则后，要多验证几个案例，此时我们会发现问题：

var result = "123456789".replace(/(?=(\d{3})+$)/g, ',')
console.log(result);
// => ",123,456,789"

因为上面的正则，仅仅表示把从结尾向前数，一但是 3 的倍数，就把其前面的位置替换成逗号。因此才会出现这个问题。

怎么解决呢？我们要求匹配的到这个位置不能是开头。我们知道匹配开头可以使用 ^，但要求这个位置不是开头怎么办？

easy，(?!^)，你想到了吗？测试如下：

var regex = /(?!^)(?=(\d{3})+$)/g;
var result = "12345678".replace(regex, ',')
console.log(result);
// => "12,345,678"
result = "123456789".replace(regex, ',');
console.log(result);
// => "123,456,789"

支持其他形式如果要把 "12345678 123456789" 替换成 "12,345,678 123,456,789"。

此时我们需要修改正则，把里面的开头 ^ 和结尾 $，修改成 \b：

var string = "12345678 123456789",
regex = /(?!\b)(?=(\d{3})+\b)/g;
var result = string.replace(regex, ',')
console.log(result);
// => "12,345,678 123,456,789"

其中 (?!\b) 怎么理解呢？

要求当前是一个位置，但不是 \b 前面的位置，其实 (?!\b) 说的就是 \B。

因此最终正则变成了：/\B(?=(\d{3})+\b)/g。

格式化

千分符表示法一个常见的应用就是货币格式化。

比如把下面的字符串：

格式化成：

$ 1888.00

有了前面的铺垫，我们很容实现如下：

function format (num) {
  return num.toFixed(2).replace(/\B(?=(\d{3})+\b)/g, ",").replace(/^/, "$$ "); };
console.log( format(1888) );
// => "$ 1,888.00"

验证密码问题

密码长度 6-12 位，由数字、小写字符和大写字母组成，但必须至少包括 2 种字符。

此题，如果写成多个正则来判断，比较容易。但要写成一个正则就比较困难。

那么，我们就来挑战一下。看看我们对位置的理解是否深刻。

简化不考虑“但必须至少包括 2 种字符”这一条件。我们可以容易写出：

var regex = /^[0-9A-Za-z]{6,12}$/;

判断是否包含有某一种字符假设，要求的必须包含数字，怎么办？

此时我们可以使用 (?=.*[0-9]) 来做。

因此正则变成：

var regex = /(?=.*[0-9])^[0-9A-Za-z]{6,12}$/;

同时包含具体两种字符比如同时包含数字和小写字母，可以用 (?=.[0-9])(?=.[a-z]) 来做。

因此正则变成：

var regex = /(?=.*[0-9])(?=.*[a-z])^[0-9A-Za-z]{6,12}$/;

解答我们可以把原题变成下列几种情况之一：

同时包含数字和小写字母

同时包含数字和大写字母

同时包含小写字母和大写字母

同时包含数字、小写字母和大写字母

以上的 4 种情况是或的关系（实际上，可以不用第 4 条）。最终答案是：

var regex = /((?=.*[0-9])(?=.*[a-z])|(?=.*[0-9])(?=.*[A-Z])|(?=.*[a-z])(?=.*[AZ]))^[0-9A-Za-z]{6,12}$/;
console.log( regex.test("1234567") ); // false 全是数字
console.log( regex.test("abcdef") ); // false 全是小写字母
console.log( regex.test("ABCDEFGH") ); // false 全是大写字母
console.log( regex.test("ab23C") ); // false 不足 6 位
console.log( regex.test("ABCDEF234") ); // true 大写字母和数字
console.log( regex.test("abcdEF234") ); // true 三者都有

解惑上面的正则看起来比较复杂，只要理解了第二步，其余就全部理解了。

/(?=.*[0-9])^[0-9A-Za-z]{6,12}$/

对于这个正则，我们只需要弄明白 (?=.*[0-9])^ 即可。

分开来看就是 (?=.*[0-9]) 和 ^。

表示开头前面还有个位置（当然也是开头，即同一个位置，想想之前的空字符类比）。

(?=.[0-9]) 表示该位置后面的字符匹配 .[0-9]，即，有任何多个任意字符，后面再跟个数字。

翻译成大白话，就是接下来的字符，必须包含个数字。

另外一种解法

“至少包含两种字符”的意思就是说，不能全部都是数字，也不能全部都是小写字母，也不能全部都是大写字母。

那么要求“不能全部都是数字”，怎么做呢？ (?!p) 出马！

对应的正则是：

var regex = /(?!^[0-9]{6,12}$)^[0-9A-Za-z]{6,12}$/;

三种“都不能”呢？

最终答案是

var regex = /(?!^[0-9]{6,12}$)(?!^[a-z]{6,12}$)(?!^[A-Z]{6,12}$)^[0-9A-Za-z]{6,12}$/;
console.log( regex.test("1234567") ); // false 全是数字
console.log( regex.test("abcdef") ); // false 全是小写字母
console.log( regex.test("ABCDEFGH") ); // false 全是大写字母
console.log( regex.test("ab23C") ); // false 不足 6 位
console.log( regex.test("ABCDEF234") ); // true 大写字母和数字
console.log( regex.test("abcdEF234") ); // true 三者都有

小结

重点掌握匹配位置的这 6 个锚，给我们的解决正则问题工具箱内添加了新工具。

正则表达式括号的作用

不管哪门语言中都有括号。正则表达式也是一门语言，而括号的存在使这门语言更为强大。

对括号的使用是否得心应手，是衡量对正则的掌握水平的一个侧面标准。

括号的作用，其实三言两语就能说明白，括号提供了分组，便于我们引用它。

引用某个分组，会有两种情形：在 JavaScript 里引用它，在正则表达式里引用它。

本章内容虽相对简单，但我也要写长点。

内容包括：

分组和分支结构

分组引用

反向引用

非捕获括号

分组和分支结构

这二者是括号最直觉的作用，也是最原始的功能，强调括号内的正则是一个整体，即提供子表达式。

shell

我们知道 /a+/ 匹配连续出现的 "a"，而要匹配连续出现的 "ab" 时，需要使用 /(ab)+/。

其中括号是提供分组功能，使量词 + 作用于 "ab" 这个整体，测试如下：

var regex = /(ab)+/g;
var string = "ababa abbb ababab";
console.log( string.match(regex) );
// => ["abab", "ab", "ababab"] // 默认贪婪模式

分支结构

而在多选分支结构 (p1|p2) 中，此处括号的作用也是不言而喻的，提供了分支表达式的所有可能。

比如，要匹配如下的字符串：

I love JavaScript
I love Regular Expression

可以使用正则：

var regex = /^I love (JavaScript|Regular Expression)$/;
console.log( regex.test("I love JavaScript") );
console.log( regex.test("I love Regular Expression") );
// => true
// => true

如果去掉正则中的括号，即：

/^I love JavaScript|Regular Expression$/，

匹配字符串是 "I love JavaScript" 和 "Regular Expression"，当然这不是我们想要的。

分组引用

这是括号一个重要的作用，有了它，我们就可以进行数据提取，以及更强大的替换操作。

而要使用它带来的好处，必须配合使用实现环境的 API。

以日期为例。假设格式是 yyyy-mm-dd 的，我们可以先写一个简单的正则：

var regex = /\d{4}-\d{2}-\d{2}/;

然后再修改成括号版的：

var regex = /(\d{4})-(\d{2})-(\d{2})/;

对比这两个可视化图片，我们发现，与前者相比，后者多了分组编号，如 Group #1。

其实正则引擎也是这么做的，在匹配过程中，给每一个分组都开辟一个空间，用来存储每一个分组匹配到的数据。

既然分组可以捕获数据，那么我们就可以使用它们。

提取数据

比如提取出年、月、日，可以这么做：

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
console.log( string.match(regex) );
// => ["2017-06-12", "2017", "06", "12", index: 0, input: "2017-06-12"]

TIP

match 返回的一个数组，第一个元素是整体匹配结果，然后是各个分组（括号里）匹配的内容，然后是匹配下标，最后是输入的文本。另外，正则表达式是否有修饰符 g，match 返回的数组格式是不一样的。

另外也可以使用正则实例对象的 exec 方法：

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
console.log( regex.exec(string) );
// => ["2017-06-12", "2017", "06", "12", index: 0, input: "2017-06-12"]

同时，也可以使用构造函数的全局属性 $1 至 $9 来获取：

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
regex.test(string); // 正则操作即可，例如
//regex.exec(string);
//string.match(regex);
console.log(RegExp.$1); // "2017"
console.log(RegExp.$2); // "06"
console.log(RegExp.$3); // "12"

替换

比如，想把 yyyy-mm-dd 格式，替换成 mm/dd/yyyy 怎么做？

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, "$2/$3/$1");
console.log(result);
// => "06/12/2017"

其中 replace 中的，第二个参数里用 $1、$2、$3 指代相应的分组。等价于如下的形式：

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, function () {
  return RegExp.$2 + "/" + RegExp.$3 + "/" + RegExp.$1;
});
console.log(result);
// => "06/12/2017"

也等价于：

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, function (match, year, month, day) {
  return month + "/" + day + "/" + year;
});
console.log(result);
// => "06/12/2017"

案例

字符串 trim 方法模拟

trim 方法是去掉字符串的开头和结尾的空白符。有两种思路去做。

第一种，匹配到开头和结尾的空白符，然后替换成空字符。如：

function trim(str) {
  return str.replace(/^\s+|\s+$/g, ''); }
console.log( trim(" foobar ") );
// => "foobar

第二种，匹配整个字符串，然后用引用来提取出相应的数据：

function trim (str) {
  return str.replace(/^\s*(.*?)\s*$/g, "$1"); }
console.log( trim(" foobar ") );
// => "foobar"

这里使用了惰性匹配 *?，不然也会匹配最后一个空格之前的所有空格的。

当然，前者效率高。

将每个单词的首字母转换为大写

function titleize (str) {
  return str.toLowerCase().replace(/(?:^|\s)\w/g, function (c) {
  return c.toUpperCase();
  }); }
console.log( titleize('my name is epeli') );
// => "My Name Is Epeli"

思路是找到每个单词的首字母，当然这里不使用非捕获匹配也是可以的。

驼峰化

function camelize (str) {
  return str.replace(/[-_\s]+(.)?/g, function (match, c) {
  return c ? c.toUpperCase() : '';
  }); }
console.log( camelize('-moz-transform') );
// => "MozTransform"

其中分组 (.) 表示首字母。单词的界定是，前面的字符可以是多个连字符、下划线以及空白符。正则后面的 ? 的目的，是为了应对 str 尾部的字符可能不是单词字符，比如 str 是 '-moz-transform '。

中划线化

function dasherize (str) {
  return str.replace(/([A-Z])/g, '-$1').replace(/[-_\s]+/g, '-').toLowerCase(); }
console.log( dasherize('MozTransform') );
// => "-moz-transform"

驼峰化的逆过程。

HTML 转义和反转义

// 将 HTML 特殊字符转换成等值的实体
function escapeHTML (str) {
  var escapeChars = {
  '<' : 'lt',
  '>' : 'gt',
  '"' : 'quot',
  '&' : 'amp',
  '\'' : '#39'
  };
  return str.replace(new RegExp('[' + Object.keys(escapeChars).join('') +']', 'g'),
function (match) {
  return '&' + escapeChars[match] + ';';
  }); }
console.log( escapeHTML('<div>Blah blah blah</div>') );
// => "&lt;div&gt;Blah blah blah&lt;/div&gt";

其中使用了用构造函数生成的正则，然后替换相应的格式就行了，这个跟本章没多大关系。

倒是它的逆过程，使用了括号，以便提供引用，也很简单，如下：

// 实体字符转换为等值的 HTML。
function unescapeHTML (str) {
  var htmlEntities = {
  nbsp: ' ',
  lt: '<',
  gt: '>',
  quot: '"',
  amp: '&',
  apos: '\''
  };
  return str.replace(/\&([^;]+);/g, function (match, key) {
  if (key in htmlEntities) {
  return htmlEntities[key];
  }
  return match;
  }); }
console.log( unescapeHTML('&lt;div&gt;Blah blah blah&lt;/div&gt;') );
// => "<div>Blah blah blah</div>"

通过 key 获取相应的分组引用，然后作为对象的键。

匹配成对标签

要求匹配：

html

<title>regular expression</title>
<p>laoyao bye bye</p>

不匹配：

html

<title>wrong!</p>

匹配一个开标签，可以使用正则 <[^>]+>，

匹配一个闭标签，可以使用 </[^>]+>，

但是要求匹配成对标签，那就需要使用反向引用，如：

var regex = /<([^>]+)>[\d\D]*<\/\1>/;
var string1 = "<title>regular expression</title>";
var string2 = "<p>laoyao bye bye</p>";
var string3 = "<title>wrong!</p>";
console.log( regex.test(string1) ); // true
console.log( regex.test(string2) ); // true
console.log( regex.test(string3) ); // false

其中开标签 <[^>]+> 改成 <([^>]+)>，使用括号的目的是为了后面使用反向引用，

而提供分组。闭标签使用了反向引用，</\1>。

另外，[\d\D]的意思是，这个字符是数字或者不是数字，因此，也就是匹配任意字符的意思。

正则表达式回溯法原理

学习正则表达式，是需要懂点儿匹配原理的。

而研究匹配原理时，有两个字出现的频率比较高：“回溯”。

听起来挺高大上，事实上却是一个比较容易理解的概念。

因此，本章就简单扼要地说清楚回溯到底是什么东西。

内容包括：没有回溯的匹配

有回溯的匹配

常见的回溯形式

没有回溯的匹配

假设我们的正则是 /ab{1,3}c/，其可视化形式是：

而当目标字符串是 "abbbc" 时，就没有所谓的“回溯”。其匹配过程是：

其中子表达式 b{1,3} 表示 "b" 字符连续出现 1 到 3 次。

有回溯的匹配

如果目标字符串是"abbc"，中间就有回溯。

图中第 5 步有红颜色，表示匹配不成功。此时 b{1,3} 已经匹配到了 2 个字符 "b"，准备尝试第三个时，结果发现接下来的字符是 "c"。那么就认为 b{1,3} 就已经匹配完毕。然后状态又回到之前的状态（即第 6 步与第 4 步一样），最后再用子表达式 c，去匹配字符 "c"。当然，此时整个表达式匹配成功了。图中的第 6 步，就是“回溯”。你可能对此没有感觉，这里我们再举一个例子。正则是：

这里再看一个清晰的回溯，正则是：

目标字符串是："abc"de，匹配过程是：

图中省略了尝试匹配双引号失败的过程。可以看出 .* 是非常影响效率的。

为了减少一些不必要的回溯，可以把正则修改为 /"[^"]*"/。

常见的回溯形式

正则表达式匹配字符串的这种方式，有个学名，叫回溯法。

回溯法也称试探法，它的基本思想是：从问题的某一种状态（初始状态）出发，搜索从这种状态出发所能达到的所有“状态”，当一条路走到“尽头”的时候（不能再前进），再后退一步或若干步，从另一种可能“状态”出发，继续搜索，直到所有的“路径”（状态）都试探过。这种不断“前进”、不断“回溯”寻找解的方法，就称作“回溯法”。

     — 百度百科

本质上就是深度优先搜索算法。其中退到之前的某一步这一过程，我们称为“回溯”。

从上面的描述过程中，可以看出，路走不通时，就会发生“回溯”。即，尝试匹配失败时，接下来的一步通常就是回溯。道理，我们是懂了。那么 JavaScript 中正则表达式会产生回溯的地方都有哪些呢？

贪婪量词

之前的例子都是贪婪量词相关的。比如 b{1,3}，因为其是贪婪的，尝试可能的顺序是从多往少的方向去尝试。首先会尝试 "bbb"，然后再看整个正则是否能匹配。不能匹配时，吐出一个 "b"，即在 "bb" 的基础上，再继续尝试。如果还不行，再吐出一个，再试。如果还不行呢？只能说明匹配失败了。

虽然局部匹配是贪婪的，但也要满足整体能正确匹配。否则，皮之不存，毛将焉附？

此时我们不禁会问，如果当多个贪婪量词挨着存在，并相互有冲突时，此时会是怎样？

答案是，先下手为强！因为深度优先搜索。测试如下：

var string = "12345";
var regex = /(\d{1,3})(\d{1,3})/;
console.log( string.match(regex) );
// => ["12345", "123", "45", index: 0, input: "12345"]

其中，前面的 \d{1,3} 匹配的是 "123"，后面的 \d{1,3} 匹配的是 "45"。

惰性量词

惰性量词就是在贪婪量词后面加个问号。表示尽可能少的匹配，比如：

var string = "12345";
var regex = /(\d{1,3}?)(\d{1,3})/;
console.log( string.match(regex) );
// => ["1234", "1", "234", index: 0, input: "12345"]

其中 \d{1,3}? 只匹配到一个字符 "1"，而后面的 \d{1,3} 匹配了 "234"。

虽然惰性量词不贪，但也会有回溯的现象。比如正则是

目标字符串是 "12345"，匹配过程是：

知道你不贪、很知足，但是为了整体匹配成，没办法，也只能给你多塞点了。因此最后 \d{1,3}? 匹配的字符是 "12"，是两个数字，而不是一个。

分支结构

我们知道分支也是惰性的，比如 /can|candy/，去匹配字符串 "candy"，得到的结果是 "can"，因为分支会一个一个尝试，如果前面的满足了，后面就不会再试验了。

分支结构，可能前面的子模式会形成了局部匹配，如果接下来表达式整体不匹配时，仍会继续尝试剩下的分支。这种尝试也可以看成一种回溯。

比如正则

小结

其实回溯法，很容易掌握的。

简单总结就是，正因为有多种可能，所以要一个一个试。直到，要么到某一步时，整体匹配成功了；要么最后都试完后，发现整体匹配不成功。

贪婪量词“试”的策略是：买衣服砍价。价钱太高了，便宜点，不行，再便宜点。

惰性量词“试”的策略是：卖东西加价。给少了，再多给点行不，还有点少啊，再给点。

分支结构“试”的策略是：货比三家。这家不行，换一家吧，还不行，再换。

既然有回溯的过程，那么匹配效率肯定低一些。相对谁呢？相对那些 DFA 引擎，DFA 是“确定型有限自动机”的简写。

而 JavaScript 的正则引擎是 NFA，NFA 是“非确定型有限自动机”的简写。

大部分语言中的正则都是 NFA，为啥它这么流行呢？

答：你别看我匹配慢，但是我编译快啊，而且我还有趣哦。

正则表达式的拆分

对于一门语言的掌握程度怎么样，可以有两个角度来衡量：读和写。

不仅要求自己能解决问题，还要看懂别人的解决方案。代码是这样，正则表达式也是这样。

正则这门语言跟其他语言有一点不同，它通常就是一大堆字符，而没有所谓“语句”的概念。如何能正确地把一大串正则拆分成一块一块的，成为了破解“天书”的关键。

本章就解决这一问题，内容包括：

结构和操作符

注意要点

案例分析

结构和操作符

编程语言一般都有操作符。只要有操作符，就会出现一个问题。当一大堆操作在一起时，先操作谁，又后操作谁呢？为了不产生歧义，就需要语言本身定义好操作顺序，即所谓的优先级。

而在正则表达式中，操作符都体现在结构中，即由特殊字符和普通字符所代表的一个个特殊整体。

JavaScript 正则表达式中，都有哪些结构呢？

字符字面量、字符组、量词、锚、分组、选择分支、反向引用。

具体含义简要回顾如下：

结构	说明
字面量	匹配一个具体字符，包括不用转义的和需要转义的。比如 a 匹配字符"a"，又比如 \n 匹配换行符，又比如 . 匹配小数点。
字符组	匹配一个字符，可以是多种可能之一，比如[0-9],标识匹配一个数字。也有\d的简写形式。另外还有反义字符组，表示可以是除了特定字符之外任何一个字符，比如[^0-9]，表示一个非数字字符，也有\D的简写形式。
量词	表示一个字符连续出现，比如 a{1,3} 表示 "a" 字符连续出现 3 次。另外还有常见的简写形式，比如 a+ 表示 "a" 字符连续出现至少一次。
锚	匹配一个位置，而不是字符。比如 ^ 匹配字符串的开头，又比如 \b 匹配单词边界，又比如 (?=\d) 表示数字前面的位置。
分组	用括号表示一个整体，比如 (ab)+，表示 "ab" 两个字符连续出现多次，也可以使用非捕获分组 (?:ab)+。
分支	多个子表达式多选一，比如 abc\|bcd，表达式匹配 "abc" 或者 "bcd" 字符子串。反向引用，比如 \2，表示引用第 2 个分组。

Regular Expression ​

note ​

字符组 (单个字符) ​

范围表示法 (单个字符) ​

排除字符组 (单个字符) ​

常见的简写形式 (单个字符) ​

量词（多个字符） ​

简写形式（多个字符） ​

贪婪匹配与惰性匹配（多个字符） ​

多选分支（多个字符） ​

案例 ​

匹配 16 进制颜色值 ​

匹配时间 ​

匹配日期 ​

window 操作系统文件路径 ​

匹配 id ​

小结，入门了 ​

正则表达式位置匹配攻略 ​

什么是位置 ​

如何匹配位置 ​

^ 和 $ ​

\b 和 \B ​

(?=p) 和 (?!p) ​

位置的特性 ​

案例 ​

数字的千位分隔符表示法 ​

格式化 ​

验证密码问题 ​

小结 ​

正则表达式括号的作用 ​

分组和分支结构 ​

分支结构 ​

分组引用 ​

提取数据 ​

替换 ​

案例 ​

字符串 trim 方法模拟 ​

将每个单词的首字母转换为大写 ​

驼峰化 ​

中划线化 ​

HTML 转义和反转义 ​

匹配成对标签 ​

正则表达式回溯法原理 ​

没有回溯的匹配 ​

有回溯的匹配 ​

常见的回溯形式 ​

贪婪量词 ​

惰性量词 ​

分支结构 ​

小结 ​

正则表达式的拆分 ​

结构和操作符 ​

Regular Expression

note

字符组 (单个字符)

范围表示法 (单个字符)

排除字符组 (单个字符)

常见的简写形式 (单个字符)

量词（多个字符）

简写形式（多个字符）

贪婪匹配与惰性匹配（多个字符）

多选分支（多个字符）

案例

匹配 16 进制颜色值

匹配时间

匹配日期

window 操作系统文件路径

匹配 id

小结，入门了

正则表达式位置匹配攻略

什么是位置

如何匹配位置

^ 和 $

\b 和 \B

(?=p) 和 (?!p)

位置的特性

案例

数字的千位分隔符表示法

格式化

验证密码问题

小结

正则表达式括号的作用

分组和分支结构

分支结构

分组引用

提取数据

替换

案例

字符串 trim 方法模拟

将每个单词的首字母转换为大写

驼峰化

中划线化

HTML 转义和反转义

匹配成对标签

正则表达式回溯法原理

没有回溯的匹配

有回溯的匹配

常见的回溯形式

贪婪量词

惰性量词

分支结构

小结

正则表达式的拆分

结构和操作符