11#
smthsiwei 初级会员 发表于 2015-9-30 16:32:02 | 只看该作者
啊,找到问题了,成功翻页!
就是那个点击保存按钮顺序的问题。在点完保存以后,直接打开DS,单搜就可以了。
最后成功运行的脚本是:
//*[contains(.//text(), "下一页") and contains(@class,'page')]
也不管是哪一级class了,反正都有page。

赞大神!
举报 使用道具
12#
ym 版主 发表于 2015-9-30 16:38:48 | 只看该作者
本帖最后由 ym 于 2015-9-30 16:41 编辑

手工修改规则程序是点击旁边的“保存修改”来保存的,然后直接点击爬数据来检验修改是否合适,不能再点击工具栏上的保存按钮或者查看按钮,否则就变回原来的规则程序了,下次加载规则查看到的就是没有修改规则程序的状态,只要不点保存就还是手工修改的程序,只是不能显示出来而已
举报 使用道具
13#
smthsiwei 初级会员 发表于 2015-9-30 16:48:20 | 只看该作者
感谢两位大神。
请教stop mark怎么用?
现在翻页倒是OK了,一翻就停不下来了  -_-
最后一页还是有"下一页"按钮,只是class='end page',试了下直接把stop mark设置成end page不起作用,还在不停地抓,每过一个超时时长就抓下来一页。
举报 使用道具
14#
Fuller 管理员 发表于 2015-9-30 16:55:24 | 只看该作者
smthsiwei 发表于 2015-9-30 16:48
感谢两位大神。
请教stop mark怎么用?
现在翻页倒是OK了,一翻就停不下来了  -_-

stop mark好像不是那样用的,我们得跟技术确认一下,这个用得很少

可以这样停下:手工修改翻页规则,用“保存修改”进行保存。规则可以用上not()函数,大概是这样
xxx and not(contains(@class, 'end page'))
xxx表示原有的条件,再加一个and条件,两层函数,表示不包含的意思
根据你前一个帖子,这个规则应该是  //*[contains(.//text(), "下一页") and contains(@class,'page') and not(contains(@class, 'end page'))]
举报 使用道具
15#
Fuller 管理员 发表于 2015-9-30 16:57:35 | 只看该作者
smthsiwei 发表于 2015-9-30 16:24
不能在工作台->爬虫路线页面点"查看"是吗?
一点这个,刚才手工改过的线索规则也没有了。
这完全就看不出来 ...

手工改动部分,我们会在下个版本用一种合理的方法保存起来
举报 使用道具
16#
smthsiwei 初级会员 发表于 2015-9-30 16:59:57 | 只看该作者
OK,感谢Fuller,我搞定了。  
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 08:52