WebMagic是一个开源爬虫框架,本项目通过在SpringBoot项目中使用WebMagic去抓取数据,最后使用MyBatis将数据入库。
本项目代码地址:ArticleCrawler: SrpingBoot+WebMagic+MyBaties实现爬虫和数据入库 (gitee.com)
创建数据库:
本示例中库名为article,表名为cms_content,表中包含contentId、title、date三个字段。
1 | mysql复制代码CREATE TABLE `cms_content` ( |
新建SpringBoot项目:
1、配置依赖pom.xml
1 | xml复制代码<?xml version="1.0" encoding="UTF-8"?> |
2、创建CmsContentPO.java
数据实体,和表中3个字段对应。
1 | java复制代码package site.exciter.article.model; |
3、创建CrawlerMapper.java
1 | java复制代码package site.exciter.article.dao; |
4、配置映射文件CrawlerMapper.xml
在resources下新建mapper文件夹,在mapper下创建CrawlerMapper.xml
1 | xml复制代码<?xml version="1.0" encoding="UTF-8"?> |
5、配置application.properties
配置数据库和mybatis映射关系。
1 | bash复制代码# mysql |
6、创建ArticlePageProcessor.java
解析html的逻辑。
1 | java复制代码package site.exciter.article; |
7、创建ArticlePipeline.java
处理数据的持久化。
1 | java复制代码package site.exciter.article; |
8、创建ArticleTask.java
执行抓取任务。
1 | java复制代码package site.exciter.article; |
9、修改Application
1 | java复制代码package site.exciter.article; |
10、执行application,开始抓数据并入库
本文转载自: 掘金