爬虫基础学习记录 高清迅雷下载

抓取的数据大多是无用的不能根据用户的需求来精准获取数据聚焦爬虫

功能

设计思路

1.确定要爬取的url
如何获取Url2.模拟阅读器通过http协议访问url,获取服务器返回的html代码
如何访问3.解析html字符串(根据一定规则提取需要的数据)
如何解析反爬手段

1.User‐:

User 中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU
类型、阅读器及版本、阅读器渲染引擎、阅读器语言、阅读器插件等。

2.代理IP

西次代理

快代理

什么是高匿名、匿名和透明代理?它们有什么区别?

1.使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。2.使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。3.使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP。

3.验证码访问

4.动态加载网页 网站返回的是js数据 并不是网页的真实数据

5.数据加密

库的使用使用来获取百度首页的源码第一次实现(返回的是二进制)
 . . = '' = ..(url) = .read()()
请求对象的定制UA介绍:User 中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、阅读器及版本。阅读器内核、阅读器渲染引擎、阅读器语言、阅读器插件等
不写会发现少了很多内容
 . = '' = {'User-':'/5.0 ( NT 10.0; ; x64) /537.36 (, like ) /114.0.0.0 ''/537.36 Edg/114.0.1823.37 '} = ..(url=url, =) = ..() = .read().('utf-8')()
编解码一个或少量..('周杰伦')
 . . = ''name = ..('周杰伦')url = url + name(name)  = {'User-':'/5.0 ( NT 10.0; ; x64) /537.36 (, like ) /114.0.0.0 ''/537.36 ''Edg/114.0.1823.37 '} = ..(url=url,=) = ..() = .read().("utf-8")()
多个..(data)
 . . = ''data = {'wd':'周杰伦','sex': '男','':'中国台湾省'} = ..(data)url=+ = {'User-':'/5.0 ( NT 10.0; ; x64) /537.36 (, like ) /114.0.0.0 ''/537.36 ''Edg/114.0.1823.37 '} = ..(url=url,=) = ..() = .read().("utf-8")()
爬虫实战和小结爬取豆瓣网前250的电影中文名
 from bs4   = {"User-": "/5.0 ( NT 10.0; ; x64) /537.36 (, like ) /114.0.0.0 ""/537.36 Edg/114.0.1823.43 "}for  in (0,250,25): = .get(f"{}=", =)html = . = (html, "html.") = soup.("span",={"": ""})for  in : = .if "/" not in :()




小结

其实如果爬取简单的内容,爬虫并不是多么的复杂,模拟发送一个http请求,然后将获取的内容根据需要进行解析即可。但是,另一方面,爬虫所包含的内容很多,需要不断的接触才能熟练的使用。就拿上面这个案例来说,其中涉及到了一个反扒手段,通过给其一个来解决的,同时,获取到的内容通过插件进行解析,比我们自己手动快了很多,然后根据页面布局,将其中为的电影名摘取出来。这些对于不同的需求以及页面都是不一样的,都需要我们会根据不同的情况进行相应的分析。同时,刚刚的案例只是将其打印出来,但有时候还需要做一个持久化处理或者对获取到的数据进行分析,这些都需要别的技术的支持。所以说,爬虫入门很简单,基本就那么几步,但是想要粗通并且获取各种不同的信息进行处理还需要学习各种各样的知识。

对于第一阶段的爬虫学习到这里就算结束了,次要是一直以来都觉得爬虫很牛逼,所以一直想搞一搞,但学过后发现并没有那么的高深,所以说,还是要不断学习,只有不断地学习,才能将那些不懂的觉得很牛逼的东西变成一些小角色。当然,对于爬虫的学习并不会止于此,后期有空我还会接着学习从而将其具体的使用到所需要的场景中。

爬虫基础学习记录的下载地址 · · · · · ·