3 11229

集搜客可不可以抓tree?

思秋忆 于 2016-2-17 19:11 发表 [复制链接]
比如这个网站:
http://www.xuekeedu.com/c1-g1.html
QQ图片20160217191004.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-2-17 21:37

xandy 论坛元老 发表于 2016-2-17 19:16:09 | 显示全部楼层
点击tree后抓内容是很容易的,这个tree很简单,在MS谋数台的DOM分析中,这些都加载好了。
另外,因为这个tree只有固定的2级,抓层次关系比较容易,整理箱里面的抓取内容可以变成容器节点,只要给一个抓取内容下创建子内容,就变成了容器节点,这样就能存储层次关系了。
举报 使用道具
Fuller 管理员 发表于 2016-2-17 21:34:42 | 显示全部楼层
你是想点击这个tree然后抓内容呢?还是只是抓这个tree?

这个tree的结构是相当规整的,而且只有两级,是个静态的,虽然html源代码中看起来树的内容是动态加载的,如下图
tree抓图的源代码.png

但是,对于GooSeeker网络爬虫来说,这样的内容算作静态内容,GooSeeker所见即所得抓取网页,不管源代码怎样。我们说的动态树是只点击展开那种,而且层次深度不限。


而对于这个网页,说他很规整如下图:

tree结构.png

第一层对应一些LI,第二层是第一层LI中的另一个UL列表。那么做个两层样例复制品就能完整抓下这个tree来。

举报 使用道具
Fuller 管理员 发表于 2016-2-17 21:37:12 | 显示全部楼层
因为tree结构很规整,除了抓tree本身很容易以外,也很容易定义连续动作,连续点击树上的每个节点,所有LI都使用类似的@class,很容易写动作施加点的定位XPath,通过连续点击,就能把所有内容抓下来。
连续动作的教程:http://www.gooseeker.com/doc/article-141-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 09:19