「这是我参与11月更文挑战的第17天,活动详情查看:2021最后一次更文挑战」。
前言
利用Python爬取QQ音乐评论。废话不多说。
让我们愉快地开始吧~
开发工具
Python版本: 3.6.4
相关模块:
requests模块;
re模块;
pymysql模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
通过这次爬取,学习了数据库MySQL,因为之前都是在windows上操作,而这回需要在Mac上操作,所以就在Mac上安装了MySQL以及MySQL的管理工具Sequel Pro,最后也是安装成功,数据库连接也没有问题。
接下来创建数据库,表格及主键信息。
1 | python复制代码import pymysql |
针对QQ音乐中去年夏天的网页进行分析,查看了所有评论的尾页,发现时间缩水了,因为热评中有一条评论的时间7月12号,而所有评论最后一页的时间却是7月16号。很明显,所有评论并不是货真价实的所有评论,不知这算不算QQ音乐的BUG。
还有一个就是直接点击最后一页的时候,并不能直接返回真正的信息,需要从最后一页往前翻,到了真正的信息页时,然后再往后翻,才能得到最后一页的真正信息。
同样是Ajax请求,确认网址后,分析一下请求头,发现主要是三个参数发生变化:jsoncallback
pagenum
lasthotcommentid
pagenum不难理解,就是页数。jsoncallback经过实验后,发现并不会影响请求,所以设置时无需改动,lasthotcommentid的值对应的是上一页最后一个评论者的ID,所以需要随时改动。
即改变pagenum,lasthotcommentid的值,就可成功实现请求。
部分代码
1 | python复制代码import re |
最后成功获取评论信息
本文转载自: 掘金