请问一下如何解决爬取数据页面不一致的问题呢？爬取好大夫在线的医生数据，但是医生有的有开通个人网站有的没有开通，而我又希望能进入个人网站爬取数据，因此把医生的个人网站设...

瑛姑

请问一下如何解决爬取数据页面不一致的问题呢？
爬取好大夫在线的医生数据，但是医生有的有开通个人网站有的没有开通，而我又希望能进入个人网站爬取数据，因此把医生的个人网站设置成下级搜索（不是关键字段），结果爬取数据时有个人网站的数据爬取成功了，但中途出现没有个人网站的医生的数据显示爬取失败，并且之后不管医生有没有个人网站都显示爬取失败。
是什么原因造成的呢？
规则名为肿瘤一级、肿瘤二级、肿瘤三级、肿瘤四级、肿瘤五级

Fuller · 发表于 2018-9-7 16:49:23

第一级规则有个错误，应该在同一个样例中选择内容进行内容映射，你跨了两个样例，这样采集结果就对应错了，而且最后一个网址采集不到

Fuller · 发表于 2018-9-7 16:51:37

第二级你特意只想采集四川省的？

Fuller · 发表于 2018-9-7 16:59:48

第二级你选择了偏好id，那么只有最高层的body节点才有id，这样生成xpath太长了，换两个网页一定会失败。

我不明白这一级只采集四川吗？如果只采集四川，就不要做一级和二级了，两级加起来采集到的网址也就7-8个，直接得到每一个科室的四川省的网址就行了，直接把网址导入给第三级去执行

Fuller · 发表于 2018-9-7 17:08:33

第三级规则，我建议把定位偏好设置成偏好class。这样生成的规则的适应性更好。xpath的定位起点是那个列表区域

Fuller · 发表于 2018-9-7 17:15:35

四级和五级刚才还在，现在搜不到了，估计你把他们删了

瑛姑 · 发表于 2018-9-8 10:44:40

Fuller 发表于 2018-9-7 16:51
第二级你特意只想采集四川省的？

我按照你的方法修改了不过不知道是不是网页结构的原因爬取出来的数据有空白因为怕爬取不到数据所以我把爬取的内容都不设置成关键字段会不会原因就出现再这里？肿瘤一级肿瘤二级肿瘤三级

Fuller · 发表于 2018-9-8 16:03:31

瑛姑发表于 2018-9-8 10:44
我按照你的方法修改了不过不知道是不是网页结构的原因爬取出来的数据有空白因为怕爬取不到数据 ...

这是哪一级的结果？漏数据的网址发出一个或者多个来，我测试一下

请问一下如何解决爬取数据页面不一致的问题呢？爬取好大夫在线的医生数据，但是医生有的有开通个人网站有的没有开通，而我又希望能进入个人网站爬取数据，因此把医生的个人网站设...

共 7 个关于本帖的回复最后回复于 2018-9-8 16:03

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

请问一下如何解决爬取数据页面不一致的问题呢？ 爬取好大夫在线的医生数据，但是医生有的有开通个人网站有的没有开通，而我又希望能进入个人网站爬取数据，因此把医生的个人网站设...

共 7 个关于本帖的回复 最后回复于 2018-9-8 16:03

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

请问一下如何解决爬取数据页面不一致的问题呢？爬取好大夫在线的医生数据，但是医生有的有开通个人网站有的没有开通，而我又希望能进入个人网站爬取数据，因此把医生的个人网站设...

共 7 个关于本帖的回复最后回复于 2018-9-8 16:03