样本页面:https://d.guduomedia.com/

这个页面有【网络剧】【网络大电影】【网络综艺】等好几个选项卡,且每个选项卡没有独立页面,所以想通过两级模拟点击来分别抓取每一个选项卡打开后的内容。

第一级主题名:骨朵传媒_网络综艺_模拟点击
映射了【网络综艺】选项卡作为关键内容,并设置了一个点击动作,连接到第二级主题,勾上了窗口可见。

第二级主题名:骨朵传媒_网络综艺
在点击动作做完的页面结构上,映射好了所需要的字段内容。

做好两级主题之后,把主题加入爬虫群,
其中第一级主题设置样本页面为待抓取线索,“抓取数据”和“结果入库”都勾上;
第二级主题没有线索,只勾了“结果入库”

启动爬虫群后,第一级主题运行,成功完成点击动作到第二级主题所要抓取的页面,但停留时间特别短,就结束了抓取。
关掉打数机后,第二级主题没有数据。T.T
不知道问题出在哪儿呢?~

目前做的其他模拟点击其他选项卡并且能成功的主题有
第一级:骨朵传媒_网络大电影_模拟点击
第二级:骨朵传媒_网络大电影
我想打开以上已经成功的主题的调度设置看看,但是这两个主题的调度页面都404了

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-6-18 11:19

沙发
shenzhenwan10 金牌会员 发表于 2017-6-17 23:51:02 | 只看该作者
本帖最后由 shenzhenwan10 于 2017-6-18 00:09 编辑

你的2个规则,我另存后,通过爬虫群调度,第一级勾选”抓取“和”结果入库“,第二级只勾选”结果入库“,参数都是默认值
启动爬虫群窗口后抓取正常,并且可以正常导出数据
你看一下第二级的本地结果文件有没有生成和打包成zip压缩文件
如果没有文件生成,有可能是太快页面还没加载,可以在第一级的连续动作里定义2秒的延迟,在爬虫群第一级的参数里设置:滚屏次数=2, 延迟抓取=15


举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2017-6-17 23:53:52 | 只看该作者
你说的调度页面点击后是404,我测试你的规则没有遇到相同的错误,下图是你第一级调度参数的截图:


你是用什么浏览器进行调度设置的?404错误是偶发还是固定会出现?
如果到周一还有碰到这种情况,我们可以约一下远程诊断一下


举报 使用道具
地板
closeyoo 中级会员 发表于 2017-6-18 11:19:07 | 只看该作者
shenzhenwan10 发表于 2017-6-17 23:53
你说的调度页面点击后是404,我测试你的规则没有遇到相同的错误,下图是你第一级调度参数的截图:

好的~ 我试试调整一下参数再试试!我用的是Gooseeker浏览器,默认配置。

404的问题我再观察一下~

谢谢shenzhenwan10~ 那么晚还在工作!辛苦了!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 23:27