Python教程-01-正则表达式

爬虫教程

  • 教程基于python3
  • 写一个简单的正则表达式教程吧!个人觉得正则表达式是学爬虫的第一步,因为你需要获取网页文件里的内容,那么就需要正则匹配出来
  • 我只会一些皮毛而已,随便说一点,有错误感谢指点。
  • 先说一点:本人英语极差,爬虫需要python的基础语法,列表字典之类的操作,不会的可以先学习一下py

re模块

  • re模块是python自带的模块,直接import re即可。

re.findall()

本教程只用这个(会这个就够了),深入的话当我没说。

re.findall(正则表达式,字符串,模式)
正则表达式:下面说
字符串: 需要匹配的字符串
模式: re.I 不区分大小写,其他的可以百度学习

开始

import re

a = 'lvfjfockjdne12'
b = re.findall('v.', a)
print(a)

01

显示['vf']
. 字符在正则表达式代表着可以代表任何一个字符(包括它本身)

import re

a = 'lvfjfockjdne12'

b = re.findall('v.+', a)
print(b)

02

+是匹配前一个字符或表达式1次或n次
.可以代表任何一个字符,v.+匹配v开头,.任意字符,+匹配n个.,所以就匹配到后面的所有字符了

a = 'http://baidu.com 和 https://www.baidu.com'
b = re.findall('https*://', a)
print(b)

03

*跟在其他符号后面表达可以匹配到它0次或多次
显然字符串里有http`https两个,https://匹配1次或0次,第一个http没有s就匹配`号前0次,就是没有,第二个有匹配了一次

深入学习

唯心不易大佬讲的不错,通俗易懂,建议去看看。不用太深入,基础就行