在设置翻页采集时,网站是用123456翻页的,我用了相对线索但发现这个网站翻页区无法选定,如下图所示,一直在点击,但就是没有办法选中整个翻页区
能选中单个数字
找DOM没找到对应的div或者span,我试过设置它的上级节点为翻页区,实测无效只能抓取第一页....

试了一下午没有办法了,有没其他规则可以翻页?我看他每一页的网址都是.....page=1/2/3/4,可以设置样式线索吗?但我按照论坛搜到的旧版教程操作,规则无法保存....




举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2018-9-2 19:07

沙发
Fuller 管理员 发表于 2018-9-2 09:38:04 | 只看该作者
如果这个网站是公开的,那么就把主题名发出来,管理员能加载分析你的规则,帮你诊断一下。

我看你的截图,P节点上面那个UL就是翻页区
举报 使用道具
板凳
HydraL 新手上路 发表于 2018-9-2 09:49:37 | 只看该作者
Fuller 发表于 2018-9-2 09:38
如果这个网站是公开的,那么就把主题名发出来,管理员能加载分析你的规则,帮你诊断一下。

我看你的截图, ...

规则名:优书网书评-已完结玄幻奇幻

那个UL我试过设置为翻页区但是还是不能翻页
举报 使用道具
地板
Fuller 管理员 发表于 2018-9-2 11:17:35 | 只看该作者
HydraL 发表于 2018-9-2 09:49
规则名:优书网书评-已完结玄幻奇幻

那个UL我试过设置为翻页区但是还是不能翻页

我测试了你的规则,翻页没有问题。

整理箱的样例复制有点问题,重新做了样例复制映射,就好了。
举报 使用道具
5#
Fuller 管理员 发表于 2018-9-2 11:18:45 | 只看该作者
你那里还有问题吗?不能翻页是不是第一页抓取失败造成的?看DS打数机下部的日志窗口部分,有没有显示日志信息?
举报 使用道具
6#
HydraL 新手上路 发表于 2018-9-2 13:17:09 | 只看该作者
Fuller 发表于 2018-9-2 11:18
你那里还有问题吗?不能翻页是不是第一页抓取失败造成的?看DS打数机下部的日志窗口部分,有没有显示日志信 ...

不行...我运行的时候设置了‘重复抓取’作为终点,然后抓取时就这样提示

抓到的内容转成EXCEL后发现是3页一样的内容

而不设置的话会一直抓取,但最后导出也全都是第一页
举报 使用道具
7#
HydraL 新手上路 发表于 2018-9-2 13:40:38 | 只看该作者
Fuller 发表于 2018-9-2 11:18
你那里还有问题吗?不能翻页是不是第一页抓取失败造成的?看DS打数机下部的日志窗口部分,有没有显示日志信 ...

按照原来的规则新建了一个'优书网抓取1'
实测后还是那样...
不设置重复内容就一直抓,没有提示
设置了就抓了3次第一页后停止
举报 使用道具
8#
HydraL 新手上路 发表于 2018-9-2 13:56:44 | 只看该作者
目前通过excel批量添加网址线索完成采集啦...估计是这个网站结构的原因吧..
举报 使用道具
9#
Fuller 管理员 发表于 2018-9-2 16:16:39 | 只看该作者
HydraL 发表于 2018-9-2 13:56
目前通过excel批量添加网址线索完成采集啦...估计是这个网站结构的原因吧..

你把规则删除了吗?我没有发现这个新规则
举报 使用道具
10#
Fuller 管理员 发表于 2018-9-2 16:17:15 | 只看该作者
HydraL 发表于 2018-9-2 13:56
目前通过excel批量添加网址线索完成采集啦...估计是这个网站结构的原因吧..

现在可以采集了?翻页没有问题了?批量添加的网址也能正常运行?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 06:06