11#
Fuller 管理员 发表于 2021-9-7 12:02:37 | 只看该作者
jesscia_2020 发表于 2021-9-7 11:58
点击代替回退,点击定位xpath就是返回那个位置是吗?

对,是://*[@class='btn pull-right returnUrl']
举报 使用道具
12#
jesscia_2020 高级会员 发表于 2021-9-7 12:08:05 | 只看该作者
Fuller 发表于 2021-9-7 12:02
对,是://*[@class='btn pull-right returnUrl']

用这个只采集到了前两个,是不是要双击返回?
举报 使用道具
13#
jesscia_2020 高级会员 发表于 2021-9-7 12:08:42 | 只看该作者
Fuller 发表于 2021-9-7 12:02
对,是://*[@class='btn pull-right returnUrl']

    使用这个只采集到了两个人的信息,是不是要双击返回
举报 使用道具
14#
jesscia_2020 高级会员 发表于 2021-9-7 12:09:05 | 只看该作者
用这个只能采集前两个,是不是要双击返回
举报 使用道具
15#
jesscia_2020 高级会员 发表于 2021-9-7 12:10:16 | 只看该作者
Fuller 发表于 2021-9-7 12:02
对,是://*[@class='btn pull-right returnUrl']



用这个返回只能采集到前两个人的,是不是要双击返回
举报 使用道具
16#
Fuller 管理员 发表于 2021-9-7 12:20:52 | 只看该作者
jesscia_2020 发表于 2021-9-7 12:10
用这个返回只能采集到前两个人的,是不是要双击返回

不能用双击,双击就出错了。这里只能是单击。

我估计你设置了重复内容中断,因为每次回退以后,又要重复采集上一级内容,所以,不能设置重复内容中断


举报 使用道具
17#
jesscia_2020 高级会员 发表于 2021-9-7 14:20:35 | 只看该作者
Fuller 发表于 2021-9-7 12:20
不能用双击,双击就出错了。这里只能是单击。

我估计你设置了重复内容中断,因为每次回退以后,又要重复 ...

  刚才这个规则,在采集中,发现一直是重复数据,怎么解决。跑了1200多条,大部分都是重复的,然后结束了。怎么破

重复数据.png (1.4 MB, 下载次数: 534)

重复数据.png
举报 使用道具
18#
Fuller 管理员 发表于 2021-9-7 15:18:37 | 只看该作者
jesscia_2020 发表于 2021-9-7 14:20
刚才这个规则,在采集中,发现一直是重复数据,怎么解决。跑了1200多条,大部分都是重复的,然后结束了 ...

我对比了你现在的规则和以前规则的区别,你把 浙江省律师主页信息 这一级的翻页的模拟点击去掉了,你勾上模拟点击试试。我一中午都翻页到70页了


举报 使用道具
19#
jesscia_2020 高级会员 发表于 2021-9-7 16:33:23 | 只看该作者
Fuller 发表于 2021-9-7 15:18
我对比了你现在的规则和以前规则的区别,你把 浙江省律师主页信息 这一级的翻页的模拟点击去掉了,你勾上 ...

勾选之后,跑着跑着中断了,并且还是有重复数据,请在帮忙看看规则,谢谢

重复.jpeg (95.3 KB, 下载次数: 539)

重复.jpeg
举报 使用道具
20#
Fuller 管理员 发表于 2021-9-7 16:45:47 | 只看该作者
jesscia_2020 发表于 2021-9-7 16:33
勾选之后,跑着跑着中断了,并且还是有重复数据,请在帮忙看看规则,谢谢
...

翻到多少页中断的?可以看看生成了多少采集结果文件。每翻一页,会在第三级规则生成10个结果文件。

第二级规则生成的结果文件会有大量的重复,因为第三级通过点击返回第二级的时候,每次都会生成一个结果文件,内容要重复10次
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 19:05