上篇 基金列表获取之Java”伪”爬虫 简单讲解了如何获取基金列表详情,浅显易懂,没有什么难度。加下来将要继续分享如何使用 Java 爬虫分析如何抓取基金的详情信息及内容的展示。
2.基金详情抓取
1 | bash复制代码 # 这里直接给大家一个基金的详情页面地址,进行分析 |
基金详情页面展示如下:
点击基金概况进入该基金的相关内容介绍信息,如下:
在基金的概况页面,可以获取基金全称,基金简称、发行日期、成立日期/规模等等相关信息,可以让基民快速的了解当前基金的一些信息,用户根据自己的需要进行收藏关注、后期购买等相关操作。
小伙伴可能会疑惑,进入基金页面后,如何自动进入基金概况页面呢,如何去解析对应的 “基金概况” 访问链接呢。额,其实我也不知道,你信吗 。
1 | shell复制代码 # 基金概况访问地址 |
根据页面进行分析,获取对应信息在Html 中的标签内容,如图,可以根据**class= " txt_cont "
** 标签进行解析对应的数据信息
怎么分析呢,Java 爬虫常用 Jsoup 进行Html 网页的分析。
1 | xml复制代码 <!-- 引入Jsoup 依赖 --> |
1 | ini复制代码 // 实现具体逻辑如下 |
1 | erlang复制代码 基金全称: 易方达消费精选股票型证券投资基金 |
以上就是对基金概况信息的简单解析。
可以选择官方文档进行查看,官方地址,可以根据自己的需要进行选择合适的方法进行 Html 文档的解析。
本文主要使用了 getsByClass
和 select
两个方法,简单讲解下。
getElementsByClass
通过 class 标签属性获取对应的 Html 元素
select
返回的是 Elements 元素集合
1 | dart复制代码Element 元素里面存在超链接等 Html 属性,所以最终获取文本的时候使用 ".text()" 方法 |
喜欢的小伙伴记得点赞,欢迎留言进行探讨
【参考文章】 juejin.cn/post/703119…
本文转载自: 掘金