深入浅析正则表达式re模块（部分）_正则表达式-免费资源网

来自：网络

时间：2021-11-07

阅读：

正则表达式：

官方定义：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

什么是正则表达式: 一套规则 - 匹配字符串的

谈到正则，就只和字符串相关了。我们要考虑的是在同一个位置上可以出现的字符的范围。

 正则表达式能做什么：

•1.检测一个输入的字符串是否合法 -- web开发项目表单验证 ◦用户输入一个内容的时候,我们要提前做检测
◦能够提高程序的效率并且减轻服务器的压力

•2.从一个大文件中找到所有符合规则的内容 -- 日志分析\爬虫 ◦能够高效的从一大段文字中快速找到符合规则的内容

字符组： [字符组]

在同一个位置可能出现的各种字符组成了一个字符组，在正则表达式中用[]表示。一个中括号只表示一个字符位置
字符分为很多类，比如数字、字母、标点等等。假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
     字符组描述的是一个位置上能出现的所有可能性
    # 接受范围,可以描述多个范围,连着写就可以了
    # [abc]    一个中括号只表示一个字符位置,匹配a或者b或者c
    # [0-9]     匹配数字0-9，根据ASCII进行范围的比对
    # [a-z]     匹配所有的小写字母
    # [A-Z]     匹配所有的大写字母
    # [a-zA-Z] 匹配所有的大小写字母
    # [0-9a-z]
    # [0-9a-zA-Z_]

元字符：

字符：

        元字符           匹配内容的规则
        .               匹配除换行符以外的任意字符
        \w              匹配字母或数字或下划线
        \s              匹配任意的空白符
        \d              匹配数字
        \n              匹配一个换行符
        \t              匹配一个制表符
        \b              匹配一个单词的结尾
        ^               匹配一个字符串的开始
        $               匹配一个字符串的结尾
        \W              匹配非字母或数字或下划线
        \D              匹配非数字
        \S              匹配非空白符
        a|b             匹配字符a或字符b
        a表达式|b表达式   匹配a或者b表达式中的内容,如果匹配a成功了,不会继续和b匹配，所以,如果两个规则有重叠部分,总是把长的放在前面
        ()              分组，匹配括号内的表达式，也表示一个组。约束某一个元字符的作用范围，只在（）内生效
        []              字符组，匹配字符组中的字符
        [^]             非字符组，匹配除了字符组中字符的所有字符
        在正则表达式中能够帮助我们表示匹配的内容的符号都是正则中的元字符
        # [0-9]        --> \d   表示匹配一位任意数字 digit
        # [0-9a-zA-Z_] --> \w   表示匹配数字字母下划线 word
        # 空格 -->
        # tab --> \t
        # enter回车 --> \n
        # 空格,tab和回车 --> \s 表示所有空白包括空格 tab和回车
        # [\d] \d 表示匹配数字
        # [\d\D] [\w\W] [\s\S] 表示匹配所有
        # [^\d] 匹配所有的非数字
        # [^1] 匹配除数字1以外的所有
        # [1-9]\d 匹配两位整数
        # [1357]\d 匹配1,3,5,7，开头的两位整数
              例1：匹配多个网址：
             www\.oldboy\.com|www\.baidu\.com|www\.jd\.com|www\.taobao\.com     #\.表示取消.的特殊意义
             www\.(oldboy|baidu|jd|taobao)\.com    #用（）来约束 | 描述的内容的范围
        记忆元字符 : 都是表示能匹配哪些内容,一个元字符总是表示一个字符位置上的内容
        # \d \w \s \t \n \D \W \S
        # [] [^] .
        # ^ $
        # | ()

量词：

        量词用法说明
        *      重复0次或更多次，表示0次或多次    {0,}
        +      重复1次或更多次，表示1次或多次    {1,}
        ?      重复0次或1次，表示匹配0次或1次    {0,1}
        {n}    重复n次，表示匹配n次
        {n,}   重复n次或更多次，表示匹配至少n次
        {n,m} 重复n到m次，表示至少匹配n次,至多m次
        例：
            匹配整数 \d+
            匹配小数 \d+\.\d+
            匹配整数或小数 : \d+\.?\d* #存在问题，比如1.也会被匹配到   ---> 分组的作用 : \d+(\.\d+)?
        例：匹配手机号码，手机号以1开头，第二位为3-9，总共11位
            1[3-9]\d{9}

            #判断用户输入的内容是否合法,如果用户输入的对就能查到结果,如果输入的不对就不能查到结果
                 ^1[3-9]\d{9}$
            # 从一个大文件中找到所有符合规则的内容
                 1[3-9]\d{9}

转义符：

原本有特殊意义的字符,到了表达它本身的意义的时候,需要转义。

. 有特殊的意义,取消特殊的意义\.

  有一些有特殊意义的内容,放在字符组中,会取消它的特殊意义
                #只表示符号本身
          [().*+?] 所有的内容在字符组中会取消它的特殊意义
         #表示：a-c (a减c)
          [a\-c] -在字符组中表示范围,如果不希望它表示范围,需要转义,或者放在字符组的最前面\最后面。
取消一个元字符的特殊意义有两种方法：
        1. 在这个元字符前面加\
        2. 对一部分字符生效,把这个元字符放在字符组里
            # [.()+?*]

贪婪匹配：

 1.贪婪匹配：在量词范围允许的情况下,尽量多的匹配内容   
  .*x 表示匹配任意字符 任意多次数 遇到最后一个x才停下来  
  回溯算法： 
 2.非贪婪(惰性)匹配： 总是在量词范围内尽量少的匹配内容。前面的*,+等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配  
  .*?x 表示匹配任意字符 任意多次数 但是一旦遇到x就停下来
  .+?x 匹配任意内容至少1次 遇到x就停止  
  元字符+量词+？ ---> 惰性匹配  
  几个常用的非贪婪匹配：
   *? 重复任意次，但尽可能少重复
   +? 重复1次或更多次，但尽可能少重复
   ?? 重复0次或1次，但尽可能少重复
   {n,m}? 重复n到m次，但尽可能少重复
   {n,}? 重复n次以上，但尽可能少重复
   例：匹配身份证号码：18/15位的身份证号
 # 15位：首位数字为1-9，总共15位
  [1-9]\d{14}
 # 18位：首位数字为1-9，末位为0-9或者X，总共18位
   [1-9]\d{16}[\dx]
   [1-9]\d{16}[0-9x]
 #1：
  [1-9]\d{16}[0-9x]|[1-9]\d{14}   #从一个大文件中找到所有符合规则的内容。表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}
  ^([1-9]\d{16}[0-9x]|[1-9]\d{14})$  #检测一个输入的字符串是否合法
 #2：简化
  [1-9]\d{14}(\d{2}[\dx])?  #从一个大文件中找到所有符合规则的内容
  ^[1-9]\d{14}(\d{2}[\dx])?$  #检测一个输入的字符串是否合法 。()表示分组，将\d{2}[\dx]分成一组，就可以整体约束他们出现的次数为0-1次
  例：
 规则：1\d*?3 待匹配内容：1243333344  匹配结果：1243
 规则：1\d*3  待匹配内容：1243333344  匹配结果：12433333
re模块：
# findall 还是按照完整的正则进行匹配,只是显示括号里匹配到的内容。 取所有符合条件的,优先显示分组中的。
 ret = re.findall('9\d\d','19740ash93010uru')
 print(ret)#['974', '930']
 ret = re.findall('9(\d)\d','19740ash93010uru')
 print(ret)#['7', '3']
# search 还是按照完整的正则进行匹配,显示也显示匹配到的第一个内容,但是我们可以通过给group方法传参数,来获取具体分组，即（）中的内容。
 search 只取第一个符合条件的,没有优先显示这件事儿
 得到的结果是一个变量
  变量.group() 的结果 完全和 变量.group(0)的结果一致
  变量.group(n) 的形式来指定获取第n个分组中匹配到的内容
 ret = re.search('9(\d)(\d)','19740ash93010uru')
 print(ret) # 变量 <_sre.SRE_Match object; span=(1, 4), match='974'>
 if ret:
  print(ret.group())#974 #ret.group(0) 0 默认不写
  print(ret.group(1))#7
  print(ret.group(2))#4
# 为什么在search中不需要分组优先 而在findall中需要?
 加上括号是为了对真正需要的内容进行提取。 为什么要用分组? 把想要的内容放分组里
 如果我们要查找的内容在一个复杂的环境中，我们要查的内容并没有一个突出的 与众不同的特点 甚至会和不需要的杂乱的数据混合在一起，这个时候我们就需要把所有的数据都统计出来,然后对这个数据进行筛选,把我们真正需要的数据对应的正则表达式用()圈起来，这样我们就可以筛选出真正需要的数据了。
# 如何取消分组优先
 如果在写正则的时候由于不得已的原因，导致不要的内容也得写在分组里，通过 ?: 取消这个分组的优先显示
 # (?:) 取消这个分组的优先显示
#findall
 ret = re.findall('<\w+>(\w+)</\w+>','<h1>askh930s02391j192agsj</h1>')
 print(ret)#['askh930s02391j192agsj']
# search
 ret = re.search('<(\w+)>(\w+)</\w+>','<h1>askh930s02391j192agsj</h1>')
 print(ret.group())#<h1>askh930s02391j192agsj</h1>
 print(ret.group(1))#h1
 print(ret.group(2))#askh930s02391j192agsj
#从exp中匹配出第一个加法，第一个减法， a+b 或者是a-b 并且计算他们的结果
  exp = '2-3*(5+6)'
  ret = re.search('(\d+)[+](\d+)',exp)
  print(ret)
  print(ret.group(1))#5
  print(ret.group(2))#6
  print(int(ret.group(1)) + int(ret.group(2)))#11
 #将豆瓣源码放到douban.html，从中获取电影名：
 with open('douban.html',encoding='utf-8') as f:
  content = f.read()
 ret = re.findall('<span class="title">(.*?)</span>(?:\s*<span class="title">.*?</span>)?',content)
 print(ret)
 #除了 霸王别姬，其他电影都是 肖申克的救赎 这种格式的。
 (.*?) 要显示的电影名 其中 ？是非贪婪匹配的标志
 (?:\s*<span class="title">.*?</span>)?
 ?: 取消这个分组的优先显示，整个（）内都不显示  \s* 两行代码之间所有的空字符 
 .*? 电影英文名         ？ 该部分出现0次 或者1次
# 什么是爬虫
 # 通过代码获取到一个网页的源码,需要的是源码中嵌着的网页上的内容 -- 正则表达式
 #先安装扩展模块 File--Settings--Project Interpreter-- + --找到包---Install Package
 import requests
 ret = requests.get('https://movie.douban.com/top250?start=0&filter=')
 print(ret.content.decode('utf-8'))

总结

以上所述是小编给大家介绍的深入浅析正则表达式re模块（部分）,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

php正则怎么去掉href?问题描述：php 正则表达式去除href及数据要把这段<a target="_blank" href="./Itemxteal_8000-0000_1.htm">8000-0000</a>替换为<a target="_blank" >80

2021-11-24 11:40:14

php 正则函数怎么实现匹配替换？php正则表达式的匹配与替换只介绍两个与Perl兼容的正则表达式函数：1.preg_match_all 函数执行正则表达式匹配与搜索；2.preg_replace 函数执行正

2021-11-15 15:29:25

本文是小编参考其他有关js正则表达式资料整理的，主要目的有两个：一：自我复习归纳总结。二：共享方便大家搜索
。js正则表达式感兴趣的朋友可以一起学习，没有写的知识点，欢迎大家补

2021-11-07 22:30:22

在JavaScript代码中使用正则表达式进行模式匹配经常会用到String对象和RegExp对象的一些方法，例如replace、match、search等方法，下面所述是对相关方法使用的总结，需要的朋友参

2021-11-07 22:30:21

熟练地掌握正则表达式的话，能够使你的开发效率得到极大的提升。正则表达式经常被用于字段或任意字符串的校验，如下面这段校验基本日期格式的JavaScript代码：var reg = /^(\\d{1

2021-11-07 22:30:19

一、贪婪与非贪婪什么叫贪婪，比如说要从字符串中<td>面包一</td><td>面包二</td>吃面包，本来你只可以吃面包一，可是你贪心，于是就把第一个<td>到最后一个</td>里面的两个面包取

2021-11-07 22:30:17

正则表达式对象的方法1、test,返回一个 Boolean 值，它指出在被查找的字符串中是否存在模式。如果存在则返回 true，否则就返回 false。
2、exec,用正则表达式模式在字符串中运

2021-11-07 22:30:15

许多语言，包括Perl、PHP、Python、JavaScript和JScript，都支持用正则表达式处理文本，一些文本编辑器用正则表达式实现高级“搜索-替换”功能。所以JAVA语言也不例外。正则表达

2021-11-07 22:30:13

我有以下几行：d:\Projects\qqq\Development\qqq.MySol1.sln
d:\Projects\qqq\qqqDevelopment\qqqMySol2.sln
d:\Projects\qqq\Development\MyInstaller.sln
d:\Projects\q

2021-11-07 22:30:11

Extjs的Regex的验证属性分两种情况,一种是只有红色提示框；另一种是在提示框边会出现一个类似批注的提示信息，不过在页面加载时要加上Ext.QuickTips.init();提示框才能正常显示

2021-11-07 22:30:10

正则表达式是做文本解析工作必不可少的技能。如Web服务器日志分析，网页前端开发等。很多高级文本编辑器都支持正则表达式的一个子集，熟练掌握正则表达式，经常能够使你的一些工

2021-11-07 22:30:08

密码形式可以根据开发需求自己设定，下面是几个匹配密码的例子：正则表达式 ^[a-zA-Z]\w{5,17}$
匹配以字母开头，长度在6~18之间，只能包含字符、数字和下划线
不匹配
正则表达式

2021-11-07 22:30:07

正则表达式也称为模式表达式，自身具有一套非常完整的、可以编写模式的语法体系，提供了一种灵活且直观的字符串处理方法。正则表达式通过构建具有特定规则的模式，与输入的字符串

2021-11-07 22:30:05

相关阅读：IOS开发常用的正则表达式Java正则表达式过滤出字母、数字和中文正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、

2021-11-07 22:30:04

　　"^/d+$"　　 //非负整数(正整数 + 0)　　"^[0-9]*[1-9][0-9]*$"　　 //正整数　　"^((-/d+)|(0+))$"　　 //非正整数(负整数 + 0)　　"^-[0-9]*[1-9][0-9]*$"　　 //负

2021-11-07 22:30:02

虽然以前发不过不少的正则表达式教程，但这篇文章还是不错的，无废话都是比较实际的，前提就是需要你之前懂点正则表达式，要不还是先看些基本的正则表达式教程比较好。------------

2021-11-07 22:30:00

正则表达式：对字符串中的信息实现查找、替换和提取操作。（不支持注释和空白，必须写在一行内）
正则表达式的创建：包含在一对斜杠之间的字符（直接量语法）
例如：
var pattern = /s$/;

2021-11-07 22:29:58

正则表达式的语法就不多说了，大家可以自己搜索查阅相关资料学习。本文所举例子是在《JavaScript语言精粹》上看到的，看完之后对正则表达式有了进一步的理解，故分享之。例子
//

2021-11-07 22:29:56

本教程旨在帮助你驾驭Java正则表达式，同时也帮助我复习正则表达式。什么是正则表达式?正则表达式定义了字符串的模式。正则表达式可以用来搜索、编辑或处理文本。正则表

2021-11-07 22:29:54

在javascript中，使用正则表达式匹配换行可能会遇到各种问题，下面就通过实例介绍一下如何实现此功能。<div id=”main”> <div id=”left”> </div> <div id=”right”> </div>

2021-11-07 22:29:52

正则表达式是用于处理字符串的强大工具，它并不是Python的一部分。其他编程语言中也有正则表达式的概念，区别只在于不同的编程语言实现支持的语法数量不同。它拥有自己独特的语

2021-11-07 22:29:50

正则表达式，又称正规表示法、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合

2021-11-07 22:29:48

as3代码：var str = ""; var reg = /(\d{}) \/gx; // \ 即为反向分组，代表前一个分组相同的匹配结果字符。如\d{} 匹配了，那么\也只能为匹配， var first=str.match(reg); //match

2021-11-07 22:29:45

常用正则表达式大全！（例如：匹配中文、匹配html）
匹配中文字符的正则表达式： [u4e00-u9fa5] 　　
评注：匹配中文还真是个头疼的事，有了这个表达式就好办了　
　匹配双字节字符(包

2021-11-07 22:29:43

在php中preg_match()函数是用来执行正则表达式的一个常用的函数。正则表达式几乎在所有编程语言里面都会用到，本实例介绍php中正则表达式preg_match函数的应用。preg_match()

2021-11-07 22:29:42

第一：限制只能是整数<input type = "text" name= "number" id = 'number' onkeyup= "if(! /^d+$/.test(this.value)){alert('只能整数');this.value='';}" />如果不是整数就

2021-11-07 22:29:40

var reCat = new RegExp("cat", "gi"); //RegExp构造函数可以带一个或两个参数，第一个参数描述需要进行匹配的模式字符串，第二个参数指定了额外的处理命令 var reCat = /cat/g

2021-11-07 22:29:38

一、js正则表达式之replace函数用法：函数功能：replace函数返回根据正则表达式进行文字替换后的字符串的复制。
函数格式：stringObj.replace(rgExp, replaceText)
参数：字符串s

2021-11-07 22:29:37

js中的正则表达式使用function myValid() { var errorMsg = ""; var res = true; //拿到要验证的值. var receiveName = $("#receiveName").val();//姓名 var receiveM

2021-11-07 22:29:35

正则表达式是一个描述字符模式的对象。首先，此片文章并不是直接告诉你，url的正则表达式是什么，以及怎么使用这个正则表达式去解析一个URL地址，相信这种问题在网络上已经能找到很

2021-11-07 22:29:34

2020-04-15

2021-01-27

2019-08-06

2019-08-11

2019-08-07

2020-04-19

2019-08-06

2019-10-05

深入浅析正则表达式re模块（部分）

php正则怎么去掉href

php 正则函数怎么实现匹配替换

JavaScript正则表达式(总结篇）

String字符串匹配javascript 正则表达式

可以少写1000行代码的正则表达式

php正则表达式中贪婪与非贪婪介绍

js正则表达式常用函数详解（续）

Java正则表达式入门学习

正则表达式的字符串替换方法

ExtJS4的文本框(textField)使用正则表达式进行验证(Regex)的方法

正值表达式匹配html标签的属性值

正则表达式匹配用户密码

正则表达式如何在PHP里灵活的应用

常用的正则表达式大全(数字、字符、固定格式)

java常用正则表达式

半小时精通正则表达式-精华版

js正则表达式学习笔记

仅1个例子轻松学习正则表达式

Java正则表达式学习教程

实例代码详解正则表达式匹配换行

Python正则表达式之基础篇

去掉字符串前后所有空格的正则表达式

AS3 js正则表达式反向引用(backreference)

日常收集整理正则表达式验证大全

PHP preg match正则表达式函数的操作实例

JS通过正则限制 input 输入框只能输入整数、小数(金额或者现金) 两位小数

超全的js正则表达式整理笔记

js正则表达式常用函数详解

学习正则表达式（js、C#）

JavaScript正则表达式解析URL的技巧

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道