最新公告
  • 欢迎光临icbug创客,本站所有的文章全部开放!部分资源需付费!立即加入我们会员
  • 【爬虫基础】requests工具的使用

    网络资源访问工具:requests

    • 1、requests介绍
      • 1)什么是requests?
        • 用于访问网页(url)的工具包
      • 2)如何安装?
        • 首先检查自己有没有requests:pip show requests
        • 如果没有,直接安装:pip install requests
        • 直接导入requests:import requests
    • 2、发送url请求
      • 以豆瓣网为例:https://book.douban.com/tag/%E7%BB%8F%E5%85%B8
      • 1)直接访问
      • 2)响应信息解读
        • ① 状态码

        • ② 响应头
        • ③ 网页编码
          • 注意:如果网页出现乱码,一般是编码出现问题
          • 如何查看真实编码
          • 一劳永逸解决编码问题
        • ④ 源代码内容
    • 3、如何设置登录信息 → cookie
      • 1)首先登陆网页
      • 2)右键 → 检查 → 找到【Network】→ 选择【Doc】 → 选择【Headers】 → 找到【Requests Headers】
      • 3)构建一个函数,将headers信息变成一个字典
      • 4)requests访问网页,加载headers信息
      • 5)一些注意点
        • 一般情况,一个机构/平台的网页,用一个headers登录信息足够
        • 对于复杂的网页,【分页网页】使用一个headers信息,【数据信息网页】使用一个headers信息
    • 4、错误与异常解决
      • 1)什么时候会出现错误异常?
        • 连不上服务器
        • 远程的服务不存在
        • BeautifulSoup解析网页标签时,由于数据源问题,无法准确识别
      • 2)处理方法
        • try...except...语句
        • 目的是什么?
          • 报错情况下,爬虫继续进行
        • 示例
          • 有5个网址需要访问,其中第三个由于网址错误,会出现404,通过try...except...实现
          • 不进行报错处理,在第3个网页访问时报错
          • 进行报错处理,并输出提示
    icbug创客严格遵守文章协议!请勿侵犯作者权益复制直接转载,如需转载请标明出处!
    icbug创客 » 【爬虫基础】requests工具的使用

    发表评论

    • 650会员总数(位)
    • 189资源总数(个)
    • 3本周发布(个)
    • 0 今日发布(个)
    • 224稳定运行(天)

    提供最优质的资源集合

    立即查看 了解详情