主题名:IT互联网行业薪酬
打数机翻页到某一页就翻不下去了,一直在那一页重复,设置重复停止的话就中断了,而且每次中断的位置页数都不一样,请问这是什么原因


举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2018-5-3 14:36

沙发
yangwenge 金牌会员 发表于 2018-4-28 09:46:23 | 只看该作者
采集的网站无法访问,可以在浏览器中手工翻页看看,看是否也会翻不了页。
举报 使用道具
板凳
数据集 高级会员 发表于 2018-4-28 09:48:40 | 只看该作者
规则的样本网址需要翻墙还是公司内部网站?这边打不开,观察翻到哪一页会一直重复,再分析那一页的网页结构与其他页是否不一样,再可以重新加载规则,跳转到重复翻页的那一页,再分析规则是否适应页面
举报 使用道具
地板
hulili 初级会员 发表于 2018-4-28 10:04:11 | 只看该作者
浏览器内可以翻页,没发现中断页有什么不一样
举报 使用道具
5#
hulili 初级会员 发表于 2018-4-28 10:12:30 | 只看该作者
数据集 发表于 2018-4-28 09:48
规则的样本网址需要翻墙还是公司内部网站?这边打不开,观察翻到哪一页会一直重复,再分析那一页的网页结构 ...

每次重复中断的位置不一样,上一次在第9页,下一次重新开始爬又在23页,再下次又在第4页
举报 使用道具
6#
数据集 高级会员 发表于 2018-4-28 10:12:45 | 只看该作者
本帖最后由 数据集 于 2018-4-28 10:18 编辑

给抓取内容做上定位标志映射,精确采集范围

有些网页之间的结构存在细微的不同,直接看是发现不了的,要把发生重复采集的那一页加载到规则去 ,后续分析看规则是否报错

中断的页数不一样,是不是网速问题,如果网页加速速度慢,超时时长一到网页还没加载出来就会采集结束,如果是这样,在打数机的配置中把超时时长调大,同时把滚屏打开,在滚屏参数中设置滚屏次数不为0即可


1.png (16.49 KB, 下载次数: 625)

1.png
举报 使用道具
7#
hulili 初级会员 发表于 2018-4-28 10:37:16 | 只看该作者
之前抓取内容错乱,同一行的字段总是抓到第一个字段,没有独立的class或ID值,所以选用了绝对定位,超时时长页设置了5000秒,滚屏次数也是2次,但每次都是因为网页重复中断。

微信图片_20180428103526.png (142.67 KB, 下载次数: 605)

微信图片_20180428103526.png
举报 使用道具
8#
umsung 高级会员 发表于 2018-4-28 11:22:08 | 只看该作者
hulili 发表于 2018-4-28 10:37
之前抓取内容错乱,同一行的字段总是抓到第一个字段,没有独立的class或ID值,所以选用了绝对定位,超时时 ...

相对线索翻页试试
举报 使用道具
9#
hulili 初级会员 发表于 2018-4-28 12:23:21 | 只看该作者
umsung 发表于 2018-4-28 11:22
用相对线索翻页试试

试了,还是不行
举报 使用道具
10#
umsung 高级会员 发表于 2018-4-28 15:21:44 | 只看该作者
最好不要用绝对定位,绝对定位会降低规则的适应性

每一页都有独立网址吗?如果每一页都有独立网址,知道总页数就可以批量构造出全部页码的网址,然后直接添加到规则里,同时要删掉规则里的翻页设置,就可以单页采集,不用担心采漏某一页或者是重复翻页。《构造网址》的方式
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 02:25