增强版爬虫软件的连续动作, 新添加一个点击的动作, 高级设置里有这3个参数:"交互对象值","判断继续","清除老数据"请问下这3个参数分别是做什么用的, 应该填什么值?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-2-20 11:23

沙发
内容分析应用 金牌会员 发表于 2021-2-20 10:33:14 | 只看该作者
本帖最后由 内容分析应用 于 2021-2-20 11:39 编辑

前2个我也不清楚。
第3个“清除老数据”, 是根据一个xpath表达式来删除页面上已经采集的数据。比如瀑布流的页面,随着滚屏次数的增加, 页面会越来越长,会占用很多内存。如果启用了这个“清除老数据”功能, 就会在每次滚屏采集了当前页面的信息后, 把页面上旧的数据清除掉。


举报 使用道具
板凳
Fuller 管理员 发表于 2021-2-20 11:15:41 | 只看该作者
内容分析应用 发表于 2021-2-20 10:33
前2个我也不清楚。
第3个“清除老数据”, 是根据一个xpath表达式来删除页面上已经采集的数据。比如瀑布流 ...

交互对象值:要填一个xpath,这个xpath定位到一个节点,这个节点的nodeValue会被采集下来放在结果文件中。

为什么不在整理箱中定义采集规则,而是在动作中定义?

因为,如果想采集的内容是相对于点击位置的,比如,网页上有10个微博头像要点击,那么要记录下来当前点击的头像的微博id,而不是记录下来10个id的列表,那么就得在点击动作这里指定交互对象的xpath。这个xpath必须是一个相对的xpath,就是以 ./ 开头的xpath,不能是以 / 开头的绝对xpath。相对的节点就是点击节点。
举报 使用道具
地板
Fuller 管理员 发表于 2021-2-20 11:20:26 | 只看该作者
判断连续是这样用的:如果在连续动作循环中,想根据某个条件中断循环,那么就用判断连续这个参数,这个xpath应该得到一个bool类型的值,而不是得到一个节点集合。比如,contains()函数,count() > 10 这样的比较,都会得到bool类型的结果。如果结果是true,就继续进行下一轮循环。
举报 使用道具
5#
Fuller 管理员 发表于 2021-2-20 11:23:15 | 只看该作者
连续动作的高级选项的解释在这个文档中:https://www.gooseeker.com/doc/article-376-1.html

注意,最新的集搜客网络爬虫叫数据管家,界面风格变了,参数名做了调整,不过功能没有改变,对应起来应该不难。

例如,
新版本的“判断继续”,在老版本叫“合用表达式”,参看:https://www.gooseeker.com/doc/thread-6018-1-3.html
新版本的“交互对象值”,在老版本叫“内容表达式”,参看:https://www.gooseeker.com/doc/thread-6017-1-3.html

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 01:26