python使用re模块爬取豆瓣Top250电影代码示例

作者:袖梨 2020-10-20

本篇文章小编给大家分享一下python使用re模块爬取豆瓣Top250电影代码示例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看。

爬蟲四步原理:

1、发送请求:requests

2、获取相应数据:对方及其直接返回

3、解析并提取想要的数据:re

4、保存提取后的数据:with open()文件处理

爬蟲三步曲:

1、发送请求

2、解析数据

3、保存数据

注意:豆瓣网页爬虫必须使用请求头,否则服务器不予返回数据

import re
import requests

# 爬蟲三部曲:
# 1.获取请求
def get_data(url, headers):
  response = requests.get(url, headers=headers)
  # 如果爬取的是html文本就是用.text方法获取文本数据,如果爬取的是音视频就用.content方法获取二进制流数据
  # print(response.text)  # 获取相应文本,比如html代码
  return response.text

# 2.解析数据
def parser_data(text):
  # re.findall("正则表达式", "过滤的文本", re.S) # 匹配模式:re.S 全局模式
  data = re.findall(
    '

执行结果:

相关文章

精彩推荐