【爬虫基础】requests工具的使用

作者 : icbug 发布时间: 2020-08-28 文章热度:101 共704个字,阅读需2分钟。 本文内容有更新 手机浏览

网络资源访问工具:requests

  • 1、requests介绍
    • 1)什么是requests?
      • 用于访问网页(url)的工具包
    • 2)如何安装?
      • 首先检查自己有没有requests:pip show requests
        • 【爬虫基础】requests工具的使用-icbug创客
      • 如果没有,直接安装:pip install requests
      • 直接导入requests:import requests
  • 2、发送url请求
    • 以豆瓣网为例:https://book.douban.com/tag/%E7%BB%8F%E5%85%B8
    • 1)直接访问
      • 【爬虫基础】requests工具的使用-icbug创客
    • 2)响应信息解读
      • ① 状态码
        • 【爬虫基础】requests工具的使用-icbug创客
          【爬虫基础】requests工具的使用-icbug创客
      • ② 响应头
        • 【爬虫基础】requests工具的使用-icbug创客
      • ③ 网页编码
        • 注意:如果网页出现乱码,一般是编码出现问题
          • 【爬虫基础】requests工具的使用-icbug创客
        • 如何查看真实编码
          • 【爬虫基础】requests工具的使用-icbug创客
        • 一劳永逸解决编码问题
          • 【爬虫基础】requests工具的使用-icbug创客
      • ④ 源代码内容
      • 【爬虫基础】requests工具的使用-icbug创客
  • 3、如何设置登录信息 → cookie
    • 1)首先登陆网页
    • 2)右键 → 检查 → 找到【Network】→ 选择【Doc】 → 选择【Headers】 → 找到【Requests Headers】
      • 【爬虫基础】requests工具的使用-icbug创客
    • 3)构建一个函数,将headers信息变成一个字典
      • 【爬虫基础】requests工具的使用-icbug创客
    • 4)requests访问网页,加载headers信息
      • 【爬虫基础】requests工具的使用-icbug创客
    • 5)一些注意点
      • 一般情况,一个机构/平台的网页,用一个headers登录信息足够
      • 对于复杂的网页,【分页网页】使用一个headers信息,【数据信息网页】使用一个headers信息
  • 4、错误与异常解决
    • 1)什么时候会出现错误异常?
      • 连不上服务器
      • 远程的服务不存在
      • BeautifulSoup解析网页标签时,由于数据源问题,无法准确识别
    • 2)处理方法
      • try...except...语句
      • 目的是什么?
        • 报错情况下,爬虫继续进行
      • 示例
        • 有5个网址需要访问,其中第三个由于网址错误,会出现404,通过try...except...实现
        • 不进行报错处理,在第3个网页访问时报错
        • 【爬虫基础】requests工具的使用-icbug创客
        • 进行报错处理,并输出提示
        • 【爬虫基础】requests工具的使用-icbug创客

常见问题FAQ

本站资源是否全部免费?
本站文章和普通速度下载资源免费,高速下载资源和讲解视频需要成为SVIP才能查看哦!
本站采用标准 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明!
icbug创客 » 【爬虫基础】requests工具的使用

发表评论

CAPTCHAis initialing...