「这是我参与11月更文挑战的第17天,活动详情查看:2021最后一次更文挑战」
中药材在橡皮擦眼中,只有 马钱子、决明子、苍耳子、还有莲子、黄药子、苦豆子、川楝子、我要面子,这是少时从《本草纲目》学来的。
其余的也就知道个枸杞、三七、藿香正气水、板蓝根了,为了摆脱不认识中药材的困境,我决定要爬取一下中药材数据存储在本地,这就是本文的写作背景。
首先把 刚才提到的中药材在贴出图片来,认识一下吧(还真认出来一个,小时候在地里走路会沾到腿上的一个苍耳子)。
爬取前的分析工作
本次的目标网站为:www.zhongyaocai.com/,打开中药材库发现合计 752 页数据,每页大概 12 条数据,将近 10000 种药材,咱们今天的目标就是存储这些数据。
正则表达式部分单独获取即可,具体待匹配部分的 HTML 源码如下:
1 | html复制代码<div class="poem-head"> |
正则表达式部分如下:
1 | python复制代码 pattern = re.compile( |
数据匹配成功之后,本次将数据存储到本地,格式为 JSON 格式,主要避免存储成 Excel 中间因为 <br>
符号导致的乱版问题,当然直接存储到数据库就不会存在该问题了。
编码时间
本案例作为爬虫小课的第 9 讲,内容非常简单,对于现在的你非常简单,开启多线程之后直接爬取即可。
1 | python复制代码import requests |
数据存储到本地,格式如下图所示,每页一行数据,每行都是 JSON 格式,读取之后可以任意操作。
爬虫小课整体总结时间
本系列课程主要为大家分享了 requests
库的基础知识,希望大家在 9 次课程之后对该库有一个相对全面的认识,其他未涉及的知识点随着你学习编程时间的延长而自动【学会】,该学习方式已经有很多“云学长”给出了相同的答案。
requests
库中最重要的就是发送请求,获取数据。其中核心的方法有 get
、post
、以及两个常见的属性 text
、content
,其他内容都属于扩展部分知识。
爬虫小课之 requests
库,到此结束。
今天是持续写作的第 1/100 天。
如果你有想要交流的想法、技术,欢迎在评论区留言。
本文转载自: 掘金