采集全国企业信用信息公示系统遇到的一些问题

ym

本帖最后由 ym 于 2015-11-30 16:02 编辑

问：页面上可以点击进入下一级网址，但是这里却没有@href。就是想模拟点击进入“动产抵押登记信息”这个下级网址去

答：这个标签是JavaScript显示，是没有网址的，可以用到模拟点击来实现，看中级教程的模拟点击吧，或者用连续动作的点击，看高级教程的连续动作

问：如果第一级的网址不同，点击进入的第二级的网页结构页可能不同，有什么办法可以解决这个问题吗~

http://gsxt.gdgs.gov.cn/aiccips/ ... 7KQ4nGmhDsd45OSUw==

http://gsxt.gdgs.gov.cn/aiccips/ ... EMGFTLGxUL9onBo8A==

好像这两个网页第一个的下一级是“备案信息”

第二个的网页的下一级是“动产抵押登记信息”

这个可以解决吗~?

答：你是用的模拟点击还是连续动作里的点击？只是你这个网页的标签顺序会变，模拟点击就不适用了；标签的名字是不变的，可以在连续动作的点击里用xpath限定点击的文本和路径，应该能实现

问：主要是点击进去以后“备案信息”和“动产抵押登记信息”的网页结构是不一样的

答：网页结构不一样的话就得做多个规则，一个主题名下可以有多个规则，主题名相同，辅名不同

问：我在第二级规则里建立两个整理箱的话，从第一级跳到第二级他会怎么选择执行那个整理箱里的规则？不会报错吗~？我在两个整理箱里做规则的话是在不同网址下做的，提示这个

答：不同网页的要分开两个规则来做，而不是两个整理箱，一个主题下多个规则怎么做看这篇http://www.gooseeker.com/doc/for ... =%E8%A7%84%E5%88%99

问：那像这样，有很多企业，第二级进去的网址结构有一些是不一样的，是不是没有办法定义规则自动抓取~

答：这种情况，爬数据如果遇到不同网页结构就会报错，到时把线索编号加载到MS里调整规则或创建新的规则来解决啦

问：哦哦，但数据量很大不就很大工作量了~？

答：毕竟一开始人工是很难识别有多少种网页结构的，DS爬数据的时候就会识别出不适用规则的网页，然后再针对新的网页结构做规则会更好

shendf · 发表于 2016-3-3 05:37:20

请问如何在不知道企业名称的前提下，获得http://gsxt.gdgs.gov.cn/aiccips/ ... 7KQ4nGmhDsd45OSUw== 这样的网址？

Fuller · 发表于 2016-3-3 09:28:05

shendf 发表于 2016-3-3 05:37
请问如何在不知道企业名称的前提下，获得http://gsxt.gdgs.gov.cn/aiccips/GSpublicity/GSpublicityList.ht ...

直接构造网址，对于这样的URL似乎有点难，因为URL中没有公司名作为参数，像是一个序列号。而这个序列号是采集上级网页的时候找到的。所以，还得从上级开始

采集全国企业信用信息公示系统遇到的一些问题

共 3 个关于本帖的回复最后回复于 2016-3-3 09:28

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集全国企业信用信息公示系统遇到的一些问题

共 3 个关于本帖的回复 最后回复于 2016-3-3 09:28

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2016-3-3 09:28