这是我参与8月更文挑战的第5天
Python爬虫鲁迅先生《经典语录》保存到Excel表格(附源码)
前言
今天用Python 爬取鲁迅先生《经典语录》,直接开整~
代码运行效果展示
开发工具
Python版本: 3.6.4
相关模块
requests
lxml
pandas
以及Python自带的模块
思路分析
1、获取数据
通过“好句子迷”网站,获取网页。
1 | python复制代码http://www.shuoshuodaitupian.com/writer/128_1 |
利用request模块,通过URL链接,获取html网页,下一步进行网页分析。
其中,URL只有最后一部分发生改变(1-10 :代表第1页–第10页的全部内容)
1 | python复制代码# 1、获取数据 |
2、解析数据
通过Xpath语句解析,分别获取句子的内容、来源和评分等,如图所示。
把获取的每一组数据,放在一个字典里,再把字典追加到一个列表中。
源码:
1 | python复制代码# 2、解析数据 |
3、保存数据
1 | python复制代码df = pd.DataFrame(item_list) # 把数据存成csv文件 |
按照评分进行排序之后的结果,如下图。
如果想生成多条个人信息,可以利用for循环,把每个字典在添加到列表里,导出一个DataFrame
文章到这里就结束了,感谢你的观看,Python数据分析系列,下篇文章分享Python爬虫豆瓣话题下的短评数据分析
为了感谢读者们,我想把我最近收藏的一些编程干货分享给大家,回馈每一个读者,希望能帮到你们。
干货主要有:
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)
All done~详见个人简介获取完整源代码。。
往期回顾
本文转载自: 掘金