编写高质量的js之正确理解正则表达式回溯

来自：网络

时间：2021-11-07

阅读：

当一个正则表达式扫描目标字符串时，从左到右逐个扫描正则表达式的组成部分，在每个位置上测试能不能找到一个匹配。对于每一个量词和分支，都必须确定如何继续进行。如果是一个量词（如*、+?或者{2,}），那么正则表达式必须确定何时尝试匹配更多的字符；如果遇到分支（通过|操作符），那么正则表达式必须从这些选项中选择一个进行尝试。

当正则表达式做出这样的决定时，如果有必要，它会记住另一个选项，以备返回后使用。如果所选方案匹配成功，正则表达式将继续扫描正则表达式模板，如果其余部分匹配也成功了，那么匹配就结束了。但是，如果所选择的方案未能发现相应匹配，或者后来的匹配也失败了，正则表达式将回溯到最后一个决策点，然后在剩余的选项中选择一个。继续这样，直到找到一个匹配，或者量词和分支选项的所有可能的排列组合都尝试失败后放弃这一过程，然后移动到此过程开始位置的下一个字符上，重复此过程。

例如，下面的代码演示了这一过程是如何通过回溯处理分支的。

/h(ello|appy) hippo/.test("hello there, happy hippo");

上面一行正则表达式用于匹配“hello hippo”或“happy hippo”。测试一开始要查找一个h，目标字符串的第一个字母恰好就是h，立刻就找到了。接下来，子表达式（ello|appy）提供了两个处理选项。正则表达式选择最左边的选项（分支选择总是从左到右进行），检查ello 是否匹配字符串的下一个字符，确实匹配，然后正则表达式又匹配了后面的空格。

然而，在接下来的匹配中正则表达式“走进了死胡同”，因为hippo 中的h 不能匹配字符串中的下一个字母t。此时正则表达式还不能放弃，因为它还没有尝试过所有的选择，随后它回溯到最后一个检查点（在匹配了首字母h 之后的那个位置上）并尝试匹配第二个分支选项。但由于匹配没有成功，而且也没有更多的选项了，正则表达式认为从字符串的第一个字符开始匹配是不能成功的，因此它从第二个字符开始重新进行查找。正则表达式没有找到h，继续向后找，直到第14 个字母才找到，它匹配happy 的那个h。随后正则表达式再次进入分支过程，这次ello 未能匹配，但在回溯之后的第二次分支中，它匹配了整个字符串“happy hippo”，匹配成功了。

再如，下面代码演示了带重复量词的回溯。

var str = "<p>Para 1.</p>" +"<img src='smiley.jpg'>" +"<p>Para 2.</p>" +"<div>Div.</div>";
/<p>.*<\/p>/i.test(str);

正则表达式先匹配了字符串开始的3个字母<p>，然后是.*。点号表示匹配除换行符以外的任意字符，星号这个“贪婪”量词表示重复零次或多次，匹配尽量多的次数。因为目标字符串中没有换行符，正则表达式将匹配剩下的全部字符串！不过由于正则表达式模板中还有更多内容需要匹配，所以正则表达式尝试匹配<。由于在字符串末尾匹配不成功，因此每次回溯一个字符，继续尝试匹配<，直到正则表达式回到</div>标签的<位置。接下来尝试匹配\/（转义反斜杠），匹配成功，然后匹配p，匹配不成功。正则表达式继续回溯，重复此过程，直到第二段末尾时终于匹配了</p>。匹配返回成功需要从第一段头部一直扫描到最后一个的末尾，这可能不是我们想要的结果。

将正则表达式中的“贪婪”量词*改为“懒惰”（又名“非贪婪”）量词*?，以匹配单个段落。“懒惰”量词的回溯工作以相反方式进行。当正则表达式/<p>.*?<\/p>/推进到.*?时，首先尝试全部跳过，然后继续匹配<\/p>。

这样做是因为*?匹配零次或多次，尽可能少重复，尽可能少意味着可以重复零次。但是，当随后的<在字符串的这一点上匹配失败时，正则表达式回溯并尝试下一个最小的字符数：1个。正则表达式继续像这样向前回溯到第一段的末尾，在那里量词后面的<\/p>得到完全匹配。

如果目标字符串只有一个段落，那么此正则表达式的“贪婪”版本和“懒惰”版本是等价的，但尝试匹配的过程不同。

当一个正则表达式占用浏览器几秒甚至更长时间时，问题原因很可能是回溯失控。为说明此问题，给出下面的正则表达式，它的目标是匹配整个HTML文件。此表达式被拆分成多行是为了适合页面显示。与其他正则表达式不同，JavaScript在没有选项时可使点号匹配任意字符，包括换行符，所以此例中以[\s\S]匹配任意字符。

/<html>[\s\S]*?<head>[\s\S]*?<title>[\s\S]*?<\/title>[\s\S]*?<\/head>
[\s\S]*?<body>[\s\S]*?<\/body>[\s\S]*?<\/html>/

此正则表达式匹配在正常HTML 字符串时工作良好，但当目标字符串缺少一个或多个标签时，就会变得十分糟糕。例如</html>标签缺失，最后一个[\s\S]*?将扩展到字符串的末尾，因为在那里没有发现</html>标签，然后正则表达式将查看此前的[\s\S]*?队列记录的回溯位置，使它们进一步扩大。正则表达式尝试扩展倒数第二个[\s\S]*?—用它匹配</body>标签，就是此前匹配过正则表达式模板<\/body>的那个标签，然后继续查找第二个</body>标签，直到字符串的末尾。当所有这些步骤都失败时，倒数第三个[\s\S]*?将被扩展，直至字符串的末尾，依此类推。

此类问题的解决办法在于尽可能具体地指出分隔符之间的字符匹配形式，如模板“.*?”用于匹配双引号包围的一个字符串。用更具体的[^"\rn]*取代过于宽泛的.*?就去除了回溯时可能发生的几种情况，如尝试用点号匹配引号，或者扩展搜索超出预期范围。

在HTML 的例子中解决办法不是那么简单。不能使用否定字符类型，如用[^<]替代[\s\S]，因为在搜索过程中可能会遇到其他类型的标签。但是，可以通过重复一个非捕获组来达到同样效果，它包含一个回溯（阻塞下一个所需的标签）和[\s\S]（任意字符）元序列。这样可以确保中间位置上查找的每个标签都会失败。然后，更重要的是，[\s\S]模板在回溯过程中阻塞的标签在被发现之前不能被扩展。应用此方法后对正则表达式的最终修改如下：

/<html>(?:(?!<head>)[\s\S])*<head>(?:(?!<title>)[\s\S])*<title>

(?:(?!<\/title>)[\s\S])*<\/title>(?:(?!<\/head>)[\s\S])*<\/head>

(?:(?!<body>)[\s\S])*<body>(?:(?!<\/body>)[\s\S])*<\/body>
(?:(?!<\/html>)[\s\S])*<\/html>/

虽然这样做消除了潜在的回溯失控，并允许正则表达式在匹配不完整HTML字符串失败时的使用时间与文本长度呈线性关系，但是正则表达式的效率并没有提高。像这样为每个匹配字符进行多次前瞻，缺乏效率，而且成功匹配过程也相当慢。匹配较短字符串时使用此方法相当不错，而匹配一个HTML 文件可能需要前瞻并测试上千次。

php正则怎么去掉href?问题描述：php 正则表达式去除href及数据要把这段<a target="_blank" href="./Itemxteal_8000-0000_1.htm">8000-0000</a>替换为<a target="_blank" >80

2021-11-24 11:40:14

php 正则函数怎么实现匹配替换？php正则表达式的匹配与替换只介绍两个与Perl兼容的正则表达式函数：1.preg_match_all 函数执行正则表达式匹配与搜索；2.preg_replace 函数执行正

2021-11-15 15:29:25

本文是小编参考其他有关js正则表达式资料整理的，主要目的有两个：一：自我复习归纳总结。二：共享方便大家搜索
。js正则表达式感兴趣的朋友可以一起学习，没有写的知识点，欢迎大家补

2021-11-07 22:30:22

在JavaScript代码中使用正则表达式进行模式匹配经常会用到String对象和RegExp对象的一些方法，例如replace、match、search等方法，下面所述是对相关方法使用的总结，需要的朋友参

2021-11-07 22:30:21

熟练地掌握正则表达式的话，能够使你的开发效率得到极大的提升。正则表达式经常被用于字段或任意字符串的校验，如下面这段校验基本日期格式的JavaScript代码：var reg = /^(\\d{1

2021-11-07 22:30:19

一、贪婪与非贪婪什么叫贪婪，比如说要从字符串中<td>面包一</td><td>面包二</td>吃面包，本来你只可以吃面包一，可是你贪心，于是就把第一个<td>到最后一个</td>里面的两个面包取

2021-11-07 22:30:17

正则表达式对象的方法1、test,返回一个 Boolean 值，它指出在被查找的字符串中是否存在模式。如果存在则返回 true，否则就返回 false。
2、exec,用正则表达式模式在字符串中运

2021-11-07 22:30:15

许多语言，包括Perl、PHP、Python、JavaScript和JScript，都支持用正则表达式处理文本，一些文本编辑器用正则表达式实现高级“搜索-替换”功能。所以JAVA语言也不例外。正则表达

2021-11-07 22:30:13

我有以下几行：d:\Projects\qqq\Development\qqq.MySol1.sln
d:\Projects\qqq\qqqDevelopment\qqqMySol2.sln
d:\Projects\qqq\Development\MyInstaller.sln
d:\Projects\q

2021-11-07 22:30:11

Extjs的Regex的验证属性分两种情况,一种是只有红色提示框；另一种是在提示框边会出现一个类似批注的提示信息，不过在页面加载时要加上Ext.QuickTips.init();提示框才能正常显示

2021-11-07 22:30:10

正则表达式是做文本解析工作必不可少的技能。如Web服务器日志分析，网页前端开发等。很多高级文本编辑器都支持正则表达式的一个子集，熟练掌握正则表达式，经常能够使你的一些工

2021-11-07 22:30:08

密码形式可以根据开发需求自己设定，下面是几个匹配密码的例子：正则表达式 ^[a-zA-Z]\w{5,17}$
匹配以字母开头，长度在6~18之间，只能包含字符、数字和下划线
不匹配
正则表达式

2021-11-07 22:30:07

正则表达式也称为模式表达式，自身具有一套非常完整的、可以编写模式的语法体系，提供了一种灵活且直观的字符串处理方法。正则表达式通过构建具有特定规则的模式，与输入的字符串

2021-11-07 22:30:05

相关阅读：IOS开发常用的正则表达式Java正则表达式过滤出字母、数字和中文正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、

2021-11-07 22:30:04

　　"^/d+$"　　 //非负整数(正整数 + 0)　　"^[0-9]*[1-9][0-9]*$"　　 //正整数　　"^((-/d+)|(0+))$"　　 //非正整数(负整数 + 0)　　"^-[0-9]*[1-9][0-9]*$"　　 //负

2021-11-07 22:30:02

虽然以前发不过不少的正则表达式教程，但这篇文章还是不错的，无废话都是比较实际的，前提就是需要你之前懂点正则表达式，要不还是先看些基本的正则表达式教程比较好。------------

2021-11-07 22:30:00

正则表达式：对字符串中的信息实现查找、替换和提取操作。（不支持注释和空白，必须写在一行内）
正则表达式的创建：包含在一对斜杠之间的字符（直接量语法）
例如：
var pattern = /s$/;

2021-11-07 22:29:58

正则表达式的语法就不多说了，大家可以自己搜索查阅相关资料学习。本文所举例子是在《JavaScript语言精粹》上看到的，看完之后对正则表达式有了进一步的理解，故分享之。例子
//

2021-11-07 22:29:56

本教程旨在帮助你驾驭Java正则表达式，同时也帮助我复习正则表达式。什么是正则表达式?正则表达式定义了字符串的模式。正则表达式可以用来搜索、编辑或处理文本。正则表

2021-11-07 22:29:54

在javascript中，使用正则表达式匹配换行可能会遇到各种问题，下面就通过实例介绍一下如何实现此功能。<div id=”main”> <div id=”left”> </div> <div id=”right”> </div>

2021-11-07 22:29:52

正则表达式是用于处理字符串的强大工具，它并不是Python的一部分。其他编程语言中也有正则表达式的概念，区别只在于不同的编程语言实现支持的语法数量不同。它拥有自己独特的语

2021-11-07 22:29:50

正则表达式，又称正规表示法、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合

2021-11-07 22:29:48

as3代码：var str = ""; var reg = /(\d{}) \/gx; // \ 即为反向分组，代表前一个分组相同的匹配结果字符。如\d{} 匹配了，那么\也只能为匹配， var first=str.match(reg); //match

2021-11-07 22:29:45

常用正则表达式大全！（例如：匹配中文、匹配html）
匹配中文字符的正则表达式： [u4e00-u9fa5] 　　
评注：匹配中文还真是个头疼的事，有了这个表达式就好办了　
　匹配双字节字符(包

2021-11-07 22:29:43

在php中preg_match()函数是用来执行正则表达式的一个常用的函数。正则表达式几乎在所有编程语言里面都会用到，本实例介绍php中正则表达式preg_match函数的应用。preg_match()

2021-11-07 22:29:42

第一：限制只能是整数<input type = "text" name= "number" id = 'number' onkeyup= "if(! /^d+$/.test(this.value)){alert('只能整数');this.value='';}" />如果不是整数就

2021-11-07 22:29:40

var reCat = new RegExp("cat", "gi"); //RegExp构造函数可以带一个或两个参数，第一个参数描述需要进行匹配的模式字符串，第二个参数指定了额外的处理命令 var reCat = /cat/g

2021-11-07 22:29:38

一、js正则表达式之replace函数用法：函数功能：replace函数返回根据正则表达式进行文字替换后的字符串的复制。
函数格式：stringObj.replace(rgExp, replaceText)
参数：字符串s

2021-11-07 22:29:37

js中的正则表达式使用function myValid() { var errorMsg = ""; var res = true; //拿到要验证的值. var receiveName = $("#receiveName").val();//姓名 var receiveM

2021-11-07 22:29:35

正则表达式是一个描述字符模式的对象。首先，此片文章并不是直接告诉你，url的正则表达式是什么，以及怎么使用这个正则表达式去解析一个URL地址，相信这种问题在网络上已经能找到很

2021-11-07 22:29:34

2020-04-15

2021-01-27

2019-08-06

2019-08-11

2019-08-07

2020-04-19

2019-08-06

2019-10-05

编写高质量的js之正确理解正则表达式回溯

php正则怎么去掉href

php 正则函数怎么实现匹配替换

JavaScript正则表达式(总结篇）

String字符串匹配javascript 正则表达式

可以少写1000行代码的正则表达式

php正则表达式中贪婪与非贪婪介绍

js正则表达式常用函数详解（续）

Java正则表达式入门学习

正则表达式的字符串替换方法

ExtJS4的文本框(textField)使用正则表达式进行验证(Regex)的方法

正值表达式匹配html标签的属性值

正则表达式匹配用户密码

正则表达式如何在PHP里灵活的应用

常用的正则表达式大全(数字、字符、固定格式)

java常用正则表达式

半小时精通正则表达式-精华版

js正则表达式学习笔记

仅1个例子轻松学习正则表达式

Java正则表达式学习教程

实例代码详解正则表达式匹配换行

Python正则表达式之基础篇

去掉字符串前后所有空格的正则表达式

AS3 js正则表达式反向引用(backreference)

日常收集整理正则表达式验证大全

PHP preg match正则表达式函数的操作实例

JS通过正则限制 input 输入框只能输入整数、小数(金额或者现金) 两位小数

超全的js正则表达式整理笔记

js正则表达式常用函数详解

学习正则表达式（js、C#）

JavaScript正则表达式解析URL的技巧

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道