举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2020-1-3 08:12

沙发
hooan2006 初级会员 发表于 2016-10-19 20:25:03 | 只看该作者
我在爬取客车等级数据,参照教程,用记号爬到第7页http://www.ztauto.com/index.php?g=Search&a=search&page=7,显示:抓取失败(超时),....,请问我怎么检查问题,并修正?我是新手
举报 使用道具
板凳
Fuller 管理员 发表于 2016-10-19 21:28:04 | 只看该作者
hooan2006 发表于 2016-10-19 20:25
我在爬取客车等级数据,参照教程,用记号爬到第7页http://www.ztauto.com/index.php?g=Search&a=search&pag ...

肯定是到第7页以后网页结构变化了。

1)用MS某数台把规则加载上来,
2)MS谋数台工具条中间的“内容定位”不要选
3)在MS谋数台的浏览器中翻页,翻到7
4)选择菜单 规则-》刷新网页结构
5)选择菜单 规则-》分析页面
看看报什么错误,一般来说,会报告第几个抓取内容没有定位到,然后就分析为什么那个抓取内容定位不到了,怎样把抓取规则调整得更加优适应性
举报 使用道具
地板
lxacoder 初级会员 发表于 2016-12-1 11:51:28 | 只看该作者
翻页的时候电脑死机了两次,然后重新启动,翻页很多(1000页),会不会重新从上次断掉的那里翻页啊,翻页采用的相对线索,当前位置和下一页位置定位定的是text()文本,虽然说下一页也有@href属性有调到下一页的网址。
举报 使用道具
5#
ym 版主 发表于 2016-12-1 17:15:54 | 只看该作者
本帖最后由 ym 于 2017-4-21 09:51 编辑
lxacoder 发表于 2016-12-1 11:51
翻页的时候电脑死机了两次,然后重新启动,翻页很多(1000页),会不会重新从上次断掉的那里翻页啊,翻页采 ...

激活线索重新采集的话,不会从断掉的页码开始,而是从第一页开始重新采集一遍。
如果每一页都有独立网址的话,你可以查看最新抓到的xml文件,里面的pageno记录了页码,fullpath字段记录了页面网址,你把这个网址添加到规则里,就可以从断掉的页码那里开始采集了。

举报 使用道具
6#
lxacoder 初级会员 发表于 2016-12-2 13:15:53 | 只看该作者
ym 发表于 2016-12-1 17:15
激活线索重新采集的话,不会从断掉的页码开始,而是从第一页开始重新采集一遍。
如果每一页都有独立网址 ...

哎。。能不能教我一下你的那个《汽车采集——帖子详情》怎么弄得啊。网页结构楼主和层主结构不一样,我定位标志设置了//div[@class="clearfix contstxt outer-section"]这个还是不行,500积分好贵啊。。。跪求指导
举报 使用道具
7#
TAN黄金分割线 初级会员 发表于 2017-3-4 08:52:52 | 只看该作者
第6666个
举报 使用道具
8#
caowenlin 初级会员 发表于 2017-4-19 21:25:57 | 只看该作者
Fuller 发表于 2016-10-19 21:28
肯定是到第7页以后网页结构变化了。

1)用MS某数台把规则加载上来,

我的是网页结构发生了变化,这样的情况该怎么处理?
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-19 22:02:57 | 只看该作者
caowenlin 发表于 2017-4-19 21:25
我的是网页结构发生了变化,这样的情况该怎么处理?

到第二页网页结构变化了?如果变换不大,设法调整规则,让规则适用于两种网页。如果确实无法适用,那么就在同一个主题名下定义两个规则,DS打数机运行的时候会自动选择
举报 使用道具
10#
caowenlin 初级会员 发表于 2017-4-20 20:53:55 | 只看该作者
我现在的情况是爬取微博内容时展开更多按钮不知道怎么处理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-21 20:13