本帖最后由 ym 于 2015-11-30 16:02 编辑

问:页面上可以点击进入下一级网址,但是这里却没有@href。就是想模拟点击进入“动产抵押登记信息”这个下级网址去

答:这个标签是JavaScript显示,是没有网址的,可以用到模拟点击来实现,看中级教程的模拟点击吧,或者用连续动作的点击,看高级教程的连续动作

问:如果第一级的网址不同,点击进入的第二级的网页结构页可能不同,有什么办法可以解决这个问题吗~

http://gsxt.gdgs.gov.cn/aiccips/ ... 7KQ4nGmhDsd45OSUw==

http://gsxt.gdgs.gov.cn/aiccips/ ... EMGFTLGxUL9onBo8A==

好像这两个网页第一个的下一级是“备案信息”


第二个的网页的下一级是“动产抵押登记信息”

这个可以解决吗~?

答:你是用的模拟点击还是连续动作里的点击?只是你这个网页的标签顺序会变,模拟点击就不适用了;标签的名字是不变的,可以在连续动作的点击里用xpath限定点击的文本和路径,应该能实现

问:主要是点击进去以后“备案信息”和“动产抵押登记信息”的网页结构是不一样的

答:网页结构不一样的话就得做多个规则,一个主题名下可以有多个规则,主题名相同,辅名不同

问:我在第二级规则里建立两个整理箱的话,从第一级跳到第二级他会怎么选择执行那个整理箱里的规则?不会报错吗~?我在两个整理箱里做规则的话是在不同网址下做的,提示这个


答:不同网页的要分开两个规则来做,而不是两个整理箱,一个主题下多个规则怎么做看这篇http://www.gooseeker.com/doc/for ... =%E8%A7%84%E5%88%99

问:那像这样,有很多企业,第二级进去的网址结构有一些是不一样的,是不是没有办法定义规则自动抓取~

答:这种情况,爬数据如果遇到不同网页结构就会报错,到时把线索编号加载到MS里调整规则或创建新的规则来解决啦

问:哦哦,但数据量很大不就很大工作量了~?

答:毕竟一开始人工是很难识别有多少种网页结构的,DS爬数据的时候就会识别出不适用规则的网页,然后再针对新的网页结构做规则会更好



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-3-3 09:28

沙发
shendf 新手上路 发表于 2016-3-3 05:37:20 | 只看该作者
请问如何在不知道企业名称的前提下,获得http://gsxt.gdgs.gov.cn/aiccips/ ... 7KQ4nGmhDsd45OSUw== 这样的网址?
举报 使用道具
板凳
Fuller 管理员 发表于 2016-3-3 09:28:05 | 只看该作者
shendf 发表于 2016-3-3 05:37
请问如何在不知道企业名称的前提下,获得http://gsxt.gdgs.gov.cn/aiccips/GSpublicity/GSpublicityList.ht ...

直接构造网址,对于这样的URL似乎有点难,因为URL中没有公司名作为参数,像是一个序列号。而这个序列号是采集上级网页的时候找到的。所以,还得从上级开始
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 12:48