本帖最后由 ym 于 2015-11-30 16:02 编辑
问:页面上可以点击进入下一级网址,但是这里却没有@href。就是想模拟点击进入“动产抵押登记信息”这个下级网址去
答:这个标签是JavaScript显示,是没有网址的,可以用到模拟点击来实现,看中级教程的模拟点击吧,或者用连续动作的点击,看高级教程的连续动作
问:如果第一级的网址不同,点击进入的第二级的网页结构页可能不同,有什么办法可以解决这个问题吗~
http://gsxt.gdgs.gov.cn/aiccips/ ... 7KQ4nGmhDsd45OSUw==
http://gsxt.gdgs.gov.cn/aiccips/ ... EMGFTLGxUL9onBo8A==
好像这两个网页第一个的下一级是“备案信息”
第二个的网页的下一级是“动产抵押登记信息”
这个可以解决吗~?
答:你是用的模拟点击还是连续动作里的点击?只是你这个网页的标签顺序会变,模拟点击就不适用了;标签的名字是不变的,可以在连续动作的点击里用xpath限定点击的文本和路径,应该能实现
问:主要是点击进去以后“备案信息”和“动产抵押登记信息”的网页结构是不一样的
答:网页结构不一样的话就得做多个规则,一个主题名下可以有多个规则,主题名相同,辅名不同
问:我在第二级规则里建立两个整理箱的话,从第一级跳到第二级他会怎么选择执行那个整理箱里的规则?不会报错吗~?我在两个整理箱里做规则的话是在不同网址下做的,提示这个
答:不同网页的要分开两个规则来做,而不是两个整理箱,一个主题下多个规则怎么做看这篇http://www.gooseeker.com/doc/for ... =%E8%A7%84%E5%88%99
问:那像这样,有很多企业,第二级进去的网址结构有一些是不一样的,是不是没有办法定义规则自动抓取~
答:这种情况,爬数据如果遇到不同网页结构就会报错,到时把线索编号加载到MS里调整规则或创建新的规则来解决啦
问:哦哦,但数据量很大不就很大工作量了~?
答:毕竟一开始人工是很难识别有多少种网页结构的,DS爬数据的时候就会识别出不适用规则的网页,然后再针对新的网页结构做规则会更好
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 3 个关于本帖的回复 最后回复于 2016-3-3 09:28