做了模拟点击和连续动作之后是直接跑目标主题吗?还是给目标主题生成一条线索,等有空的时候再爬?
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-9-9 10:31

沙发
HJLing 版主 发表于 2016-9-7 17:00:36 | 只看该作者
直接跑目标主题 是连贯动作 不同于层级抓取
举报 使用道具
板凳
ym 版主 发表于 2016-9-7 17:19:56 | 只看该作者
模拟点击和连续动作都不会给下级主题生成线索。
只有在整理箱中把网址采下来并设置下级线索,才会给下级主题生成线索。
举报 使用道具
地板
TonyJiang 高级会员 发表于 2016-9-7 17:42:43 | 只看该作者
HJLing 发表于 2016-9-7 17:00
直接跑目标主题 是连贯动作 不同于层级抓取

我用爬虫群跑连续动作的规则,前面一级跑完了,页面显示正常,但是打数机的主题没有切换到下一级,而且没过多久打数机窗口就空白了,但是下级的规则实际是采集了数据的,在本地找得到,这种情况是正常的吗
举报 使用道具
5#
HJLing 版主 发表于 2016-9-7 17:48:42 | 只看该作者
TonyJiang 发表于 2016-9-7 17:42
我用爬虫群跑连续动作的规则,前面一级跑完了,页面显示正常,但是打数机的主题没有切换到下一级,而且没 ...

主题名是什么?
举报 使用道具
6#
TonyJiang 高级会员 发表于 2016-9-7 17:51:44 | 只看该作者
HJLing 发表于 2016-9-7 17:48
主题名是什么?

quyixuan_12306_余票查询
目标主题:quyixuan_12306_余票信息
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-7 21:24:16 | 只看该作者
TonyJiang 发表于 2016-9-7 17:51
quyixuan_12306_余票查询
目标主题:quyixuan_12306_余票信息

第四步的xpath如下,是不正确的
  1. //*[@class='so']/text()=‘9’
复制代码
举报 使用道具
8#
TonyJiang 高级会员 发表于 2016-9-9 10:08:42 | 只看该作者
HJLing 发表于 2016-9-7 17:48
主题名是什么?

12306余票查询页面,我想做连续动作,把日期里面从今天到月末的所有日期全部查询一遍,之前工作人员给我修改了日期选择的连续动作的xpath,但是我不太明白,能不能麻烦讲解一下
“//*[@class='cal']/*[@class='cal-cm']/div[.//text()='今天']/div|//*[@class='cal']/*[@class='cal-cm']/div[.//text()='今天']/following-sibling::div”
举报 使用道具
9#
HJLing 版主 发表于 2016-9-9 10:17:30 | 只看该作者
TonyJiang 发表于 2016-9-9 10:08
12306余票查询页面,我想做连续动作,把日期里面从今天到月末的所有日期全部查询一遍,之前工作人员给我 ...

日期里每一个日期的class值都是相同的 所以无法通过class值来找到今天及以后的日期 那就通过匹配“今天”字样来找到表示今天日期的节点
//*[@class='cal']/*[@class='cal-cm'] 这里可以找到包含整个日历的节点
div[.//text()='今天'] 是指子节点的text()=今天
联立起来就能找到“今天”这个节点

由于还需要后面的日期 就加上“|” 表示或
following-sibling::div表示当前节点后面的所有div兄弟节点

所以就有//*[@class='cal']/*[@class='cal-cm']/div[.//text()='今天']/div|//*[@class='cal']/*[@class='cal-cm']/div[.//text()='今天']/following-sibling::div完整的xpath

举报 使用道具
10#
TonyJiang 高级会员 发表于 2016-9-9 10:31:19 | 只看该作者
HJLing 发表于 2016-9-9 10:17
日期里每一个日期的class值都是相同的 所以无法通过class值来找到今天及以后的日期 那就通过匹配“今天” ...

好的,这下明白了,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 09:35