资质信息为JS结构的下层链接,已按教程连续动作的方法按偏好CLASS方式,在点击动作选项中设置了XPATH。在整理箱中设置了资质信息作为下级链接的线索
在本页基本信息中采集企业名称。因为谋数台校验规则时提示资质信息的下级链接与基本信息采集的iframe结构不同,故采用了两个整理箱。
以上规则设置好后,用DS打数机无法采集到数据。请各位大神指点。
https://glxy.mot.gov.cn/company/base.do?id=ff8080816851bdfa01686f026aaa04db&type=0,采集的网址见左
已将规则分享:https://www.gooseeker.com/secure/me/mc_0082000_preview/share483246.html

举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2019-11-27 10:48

沙发
wangyong 版主 发表于 2019-11-26 15:38:39 | 只看该作者
你把这个规则取消分享了吗,现在打不开了,管理员检查规则,不用分享,把规则名发出来就可以了
举报 使用道具
板凳
mc_0082000 新手上路 发表于 2019-11-26 15:56:00 | 只看该作者
任务名称:全国公路建设市场信用信息管理系统
规则名称:规则1
举报 使用道具
地板
mc_0082000 新手上路 发表于 2019-11-26 16:05:56 | 只看该作者
wangyong 发表于 2019-11-26 15:38
你把这个规则取消分享了吗,现在打不开了,管理员检查规则,不用分享,把规则名发出来就可以了 ...

现在能查看了吗?

举报 使用道具
5#
wangyong 版主 发表于 2019-11-26 16:21:12 | 只看该作者
mc_0082000 发表于 2019-11-26 16:05
现在能查看了吗?

你那里可以在集搜客正常打开要采集的这个网址吗
举报 使用道具
6#
mc_0082000 新手上路 发表于 2019-11-26 16:33:51 | 只看该作者
wangyong 发表于 2019-11-26 16:21
你那里可以在集搜客正常打开要采集的这个网址吗

可以正常打开的
举报 使用道具
7#
mc_0082000 新手上路 发表于 2019-11-26 16:39:02 | 只看该作者

图片大小有限制,无法上传图片

举报 使用道具
8#
wangyong 版主 发表于 2019-11-26 17:08:12 | 只看该作者
mc_0082000 发表于 2019-11-26 16:39
图片大小有限制,无法上传图片

加载这个规则发现只采集了第一条数据,如果要采整页的数据需要做上样例复制,需要翻页的话得做上翻页采集

另外这个网页的下级链接不是href,是直接可以打开的网址,需要采集下来之后用Excel构造出下级网址,再手动添加到二级规则上

https://glxy.mot.gov.cn/company/base.do?id=ff8080816851bdfa01686f026aaa04db&type=0

javaScript:showInfo('ff8080816851bdfa01686f026aaa04db','ff8080816851bdfa01686f0268ac04d2','阿坝君泰建设工程有限公司')

需要把这部分内容截选出来ff8080816851bdfa01686f026aaa04db,构造链接
举报 使用道具
9#
mc_0082000 新手上路 发表于 2019-11-26 17:27:42 | 只看该作者
wangyong 发表于 2019-11-26 17:08
加载这个规则发现只采集了第一条数据,如果要采整页的数据需要做上样例复制,需要翻页的话得做上翻页采集 ...

下级链接只能手动构造吗?
举报 使用道具
10#
wangyong 版主 发表于 2019-11-26 18:01:10 | 只看该作者
mc_0082000 发表于 2019-11-26 17:27
下级链接只能手动构造吗?

对,这个下级链接只能手动构造
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 20:03