打开网页----点击查看详情----提取详情内的数据----需点击后退----点击下一条详情----继续读取数据,这样怎么做?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-2-15 23:46

沙发
Fuller 管理员 发表于 2017-2-15 23:41:42 | 只看该作者
集搜客网络爬虫能够回退,而且可以处理两种不同情形:

情形1:网页上没有回退按钮或者超链接,必须点击浏览器的回退按钮才能回退。比如,一般的论坛都是这样,先看帖子列表,然后点击某个帖子,看完详情后点击浏览器工具条上的回退按钮退回到列表页。

集搜客的连续动作有回退动作,就是实现这个目的的。具体参看教程《连续动作:设置自动返回上级页面

情形2:网页上有返回按钮,或者是一个超链接。

这样就用连续动作的点击动作,点击页面上的这个按钮或超链接
举报 使用道具
板凳
Fuller 管理员 发表于 2017-2-15 23:46:00 | 只看该作者
请注意,如果在 列表-〉详情-〉列表-〉详情 这样的模式下,每个详情页都有独立网址,就不要做连续动作了,而是定义层级采集规则,层级采集才是标准的爬虫工作模式,而且可以分布式并行采集,速度快。

如果点击列表上的超链接,是在新的窗口中显示详情,那么也不用定义回退动作,只需定义点击动作,同时勾上飞掠模式,那么飞掠模式会自动关闭新窗口。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 12:00