比如这个网站:
http://www.xuekeedu.com/c1-g1.html

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-2-17 21:37

沙发
xandy 论坛元老 发表于 2016-2-17 19:16:09 | 只看该作者
点击tree后抓内容是很容易的,这个tree很简单,在MS谋数台的DOM分析中,这些都加载好了。
另外,因为这个tree只有固定的2级,抓层次关系比较容易,整理箱里面的抓取内容可以变成容器节点,只要给一个抓取内容下创建子内容,就变成了容器节点,这样就能存储层次关系了。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-2-17 21:34:42 | 只看该作者
你是想点击这个tree然后抓内容呢?还是只是抓这个tree?

这个tree的结构是相当规整的,而且只有两级,是个静态的,虽然html源代码中看起来树的内容是动态加载的,如下图

但是,对于GooSeeker网络爬虫来说,这样的内容算作静态内容,GooSeeker所见即所得抓取网页,不管源代码怎样。我们说的动态树是只点击展开那种,而且层次深度不限。


而对于这个网页,说他很规整如下图:


第一层对应一些LI,第二层是第一层LI中的另一个UL列表。那么做个两层样例复制品就能完整抓下这个tree来。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
Fuller 管理员 发表于 2016-2-17 21:37:12 | 只看该作者
因为tree结构很规整,除了抓tree本身很容易以外,也很容易定义连续动作,连续点击树上的每个节点,所有LI都使用类似的@class,很容易写动作施加点的定位XPath,通过连续点击,就能把所有内容抓下来。
连续动作的教程:http://www.gooseeker.com/doc/article-141-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 17:08