请问一下如何解决爬取数据页面不一致的问题呢?
爬取好大夫在线的医生数据,但是医生有的有开通个人网站有的没有开通,而我又希望能进入个人网站爬取数据,因此把医生的个人网站设置成下级搜索(不是关键字段),结果爬取数据时有个人网站的数据爬取成功了,但中途出现没有个人网站的医生的数据显示爬取失败,并且之后不管医生有没有个人网站都显示爬取失败。
是什么原因造成的呢?
规则名为 肿瘤一级、肿瘤二级、肿瘤三级、肿瘤四级、肿瘤五级
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-9-8 16:03

沙发
Fuller 管理员 发表于 2018-9-7 16:49:23 | 只看该作者


第一级规则有个错误,应该在同一个样例中选择内容进行内容映射,你跨了两个样例,这样采集结果就对应错了,而且最后一个网址采集不到
举报 使用道具
板凳
Fuller 管理员 发表于 2018-9-7 16:51:37 | 只看该作者
第二级你特意只想采集四川省的?
举报 使用道具
地板
Fuller 管理员 发表于 2018-9-7 16:59:48 | 只看该作者


第二级你选择了偏好id,那么只有最高层的body节点才有id,这样生成xpath太长了,换两个网页一定会失败。

我不明白这一级只采集四川吗?如果只采集四川,就不要做一级和二级了,两级加起来采集到的网址也就7-8个,直接得到每一个科室的四川省的网址就行了,直接把网址导入给第三级去执行
举报 使用道具
5#
Fuller 管理员 发表于 2018-9-7 17:08:33 | 只看该作者
第三级规则,我建议把定位偏好设置成 偏好class。这样生成的规则的适应性更好。xpath的定位起点是那个列表区域

举报 使用道具
6#
Fuller 管理员 发表于 2018-9-7 17:15:35 | 只看该作者
四级和五级刚才还在,现在搜不到了,估计你把他们删了
举报 使用道具
7#
瑛姑 高级会员 发表于 2018-9-8 10:44:40 | 只看该作者
Fuller 发表于 2018-9-7 16:51
第二级你特意只想采集四川省的?

我按照你的方法修改了   不过不知道是不是网页结构的原因    爬取出来的数据有空白   因为怕爬取不到数据  所以我把爬取的内容都不设置成关键字段    会不会原因就出现再这里?   肿瘤一级   肿瘤二级   肿瘤三级

举报 使用道具
8#
Fuller 管理员 发表于 2018-9-8 16:03:31 | 只看该作者
瑛姑 发表于 2018-9-8 10:44
我按照你的方法修改了   不过不知道是不是网页结构的原因    爬取出来的数据有空白   因为怕爬取不到数据 ...

这是哪一级的结果?漏数据的网址发出一个或者多个来,我测试一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 11:03