当前位置:首页 >> 脚本专栏

Python正则表达式知识汇总

1. 正则表达式语法

  1.1 字符与字符类
     1 特殊字符:\.^$"(hello)\s+(",用来匹配"hello wangxing"和"hello world"只能匹配到后者的hello

  1.5 条件匹配
     ("#[\da-f]{6}\b", re.IGNORECASE|re.MULTILINE)
      2. 通过在正则表达式前面添加("""
          <img\s +) #标签的开始
           [^>]*"']) #左引号
           (""",re.VERBOSE|re.IGNORECASE)

2. Python正则表达式模块

   2.1 正则表达式处理字符串主要有四大功能

     1. 匹配 查看一个字符串是否符合正则表达式的语法,一般返回true或者false
    2. 获取 正则表达式来提取字符串中符合要求的文本
     3. 替换 查找字符串中符合正则表达式的文本,并用相应的字符串替换
     4. 分割 使用正则表达式对字符串进行分割。

   2.2 Python中re模块使用正则表达式的两种方法

     1. 使用re.compile(r, f)方法生成正则表达式对象,然后调用正则表达式对象的相应方法。这种做法的好处是生成正则对象之后可以多次使用。
     2. re模块中对正则表达式对象的每个对象方法都有一个对应的模块方法,唯一不同的是传入的第一个参数是正则表达式字符串。此种方法适合于只使用一次的正则表达式。

   2.3 正则表达式对象的常用方法

     1. rx.findall(s,start, end):
      返回一个列表,如果正则表达式中没有分组,则列表中包含的是所有匹配的内容,
       如果正则表达式中有分组,则列表中的每个元素是一个元组,元组中包含子分组中匹配到的内容,但是没有返回整个正则表达式匹配的内容
     2. rx.finditer(s, start, end):
      返回一个可迭代对象
       对可迭代对象进行迭代,每一次返回一个匹配对象,可以调用匹配对象的group()方法查看指定组匹配到的内容,0表示整个正则表达式匹配到的内容
     3. rx.search(s, start, end):
      返回一个匹配对象,倘若没匹配到,就返回None
      search方法只匹配一次就停止,不会继续往后匹配
     4. rx.match(s, start, end):
      如果正则表达式在字符串的起始处匹配,就返回一个匹配对象,否则返回None
    5. rx.sub(x, s, m):
      返回一个字符串。每一个匹配的地方用x进行替换,返回替换后的字符串,如果指定m,则最多替换m次。对于x可以使用/i或者/g<id>id可以是组名或者编号来引用捕获到的内容。
       模块方法re.sub(r, x, s, m)中的x可以使用一个函数。此时我们就可以对捕获到的内容推过这个函数进行处理后再替换匹配到的文本。
     6. rx.subn(x, s, m):
      与re.sub()方法相同,区别在于返回的是二元组,其中一项是结果字符串,一项是做替换的个数。
     7. rx.split(s, m):分割字符串
       返回一个列表
       用正则表达式匹配到的内容对字符串进行分割
       如果正则表达式中存在分组,则把分组匹配到的内容放在列表中每两个分割的中间作为列表的一部分,如:
       rx = re.compile(r"(\d)[a-z]+(\d)")
      s = "ab12dk3klj8jk9jks5"
      result = rx.split(s)
      返回['ab1', '2', '3', 'klj', '8', '9', 'jks5']
    8. rx.flags():正则表达式编译时设置的标志
     9. rx.pattern():正则表达式编译时使用的字符串

   2.4 匹配对象的属性与方法

    01. m.group(g, ...)
      返回编号或者组名匹配到的内容,默认或者0表示整个表达式匹配到的内容,如果指定多个,就返回一个元组
     02. m.groupdict(default)
      返回一个字典。字典的键是所有命名的组的组名,值为命名组捕获到的内容
       如果有default参数,则将其作为那些没有参与匹配的组的默认值。
     03. m.groups(default)
      返回一个元组。包含所有捕获到内容的子分组,从1开始,如果指定了default值,则这个值作为那些没有捕获到内容的组的值
     04. m.lastgroup()
      匹配到内容的编号最高的捕获组的名称,如果没有或者没有使用名称则返回None(不常用)
    05. m.lastindex()
      匹配到内容的编号最高的捕获组的编号,如果没有就返回None。
     06. m.start(g):
      当前匹配对象的子分组是从字符串的那个位置开始匹配的,如果当前组没有参与匹配就返回-1
    07. m.end(g)
      当前匹配对象的子分组是从字符串的那个位置匹配结束的,如果当前组没有参与匹配就返回-1
    08. m.span()
      返回一个二元组,内容分别是m.start(g)和m.end(g)的返回值
     09. m.re()
      产生这一匹配对象的正则表达式
     10. m.string()
      传递给match或者search用于匹配的字符串
     11. m.pos()
      搜索的起始位置。即字符串的开头,或者start指定的位置(不常用)
    12. m.endpos()
      搜索的结束位置。即字符串的末尾位置,或者end指定的位置(不常用)

  2.5 总结

     1. 对于正则表达式的匹配功能,Python没有返回true和false的方法,但可以通过对match或者search方法的返回值是否是None来判断
     2. 对于正则表达式的搜索功能,如果只搜索一次可以使用search或者match方法返回的匹配对象得到,对于搜索多次可以使用finditer方法返回的可迭代对象来迭代访问
     3. 对于正则表达式的替换功能,可以使用正则表达式对象的sub或者subn方法来实现,也可以通过re模块方法sub或者subn来实现,区别在于模块的sub方法的替换文本可以使用一个函数来生成
     4. 对于正则表达式的分割功能,可以使用正则表达式对象的split方法,需要注意如果正则表达式对象有分组的话,分组捕获的内容也会放到返回的列表中