当前位置:聪少自媒体网 > 豆瓣 > 正文

豆瓣博主怎么赚钱,抓取、下载某位博主的豆瓣日记

2020-11-02 豆瓣 聪少自媒体

豆瓣算是一个对爬虫比较友好的网站了,没有反爬虫机制,结构也简单,比较容易爬。

试着爬了一个陌生博主的豆瓣日记,并且下载到了本地。

实现如下:

1.引用模块与库

首先召唤需要用到的模块和库,其中requests、BeautifulSoup4需要另外下载

2.设置代理、获取响应

通过代码与对方服务器交换数据时,对方得到你的身份是‘python’,一些网站会拒绝这种访问,所以我们要设置代理,假装自己是在通过mac系统的浏览器访问。

访问对方网站是一个请求对方服务器资源的过程,这一过程在这里通过requests.get()实现。

3.获取html文档

对方服务器响应请求后,会发送一个html文档。正常情况下这个文档会被发出请求的服务器接受,然后解析成一般的网页。

现在,python接受到的是一个文本组成的文档。

4.筛选出每篇日志的链接

在Chrome浏览器豆瓣日志页面按下‘F12’,或者点击右键‘检查’,会出现当前页的源代码,源代码窗口左上角有个箭头和框的图标,可以通过它找到网页中元素对应的具体标签。

在这个页面,日志标题链接被放在‘台词本’中。链接地址为‘href’的值。

利用find_all找到所有href属性的值,而其中以“title”结尾的则是我们想要的所有日志的链接,引入正则表达式,筛选出以“title”结尾的链接。

5.获取文章正文

逐个打开获取到的日志链接,在日志内容页获得正文。

6.过滤内容

7.保存爬取到的内容

完整代码:

不足之处:

1.变量、文件夹命名太随意。

2.如果日志列表页面需要翻页的话,这段代码只能抓取到第一页的日志。

3.好像多转了一次格式。