WebMagic是一个开源爬虫框架,本项目通过在SpringBoot项目中使用WebMagic去抓取数据,最后使用MyBatis将数据入库。
本项目代码地址:ArticleCrawler: SrpingBoot+WebMagic+MyBaties实现爬虫和数据入库 (gitee.com)
创建数据库:
本示例中库名为article,表名为cms_content,表中包含contentId、title、date三个字段。
1  | mysql复制代码CREATE TABLE `cms_content` (  | 
新建SpringBoot项目:
1、配置依赖pom.xml
1  | xml复制代码<?xml version="1.0" encoding="UTF-8"?>  | 
2、创建CmsContentPO.java
数据实体,和表中3个字段对应。
1  | java复制代码package site.exciter.article.model;  | 
3、创建CrawlerMapper.java
1  | java复制代码package site.exciter.article.dao;  | 
4、配置映射文件CrawlerMapper.xml
在resources下新建mapper文件夹,在mapper下创建CrawlerMapper.xml
1  | xml复制代码<?xml version="1.0" encoding="UTF-8"?>  | 
5、配置application.properties
配置数据库和mybatis映射关系。
1  | bash复制代码# mysql  | 
6、创建ArticlePageProcessor.java
解析html的逻辑。
1  | java复制代码package site.exciter.article;  | 
7、创建ArticlePipeline.java
处理数据的持久化。
1  | java复制代码package site.exciter.article;  | 
8、创建ArticleTask.java
执行抓取任务。
1  | java复制代码package site.exciter.article;  | 
9、修改Application
1  | java复制代码package site.exciter.article;  | 
10、执行application,开始抓数据并入库
本文转载自: 掘金