本帖最后由 jiangsuxincheng2 于 2017-7-6 13:41 编辑

http://pub.jsds.gov.cn/col/col59514/index.html  我采集这个网站里面的处罚信息,先做连续动作点击采集规则名,处罚11;然后正常采集一级目录处罚2,做好采集二级目录处罚3,可以爬虫一级目录采集好后,二级目录也显示对应的线索数量,采集完成后本地却没有二级目录信息文件夹,请大神指教

举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-7-6 15:32

沙发
shengchengx 金牌会员 发表于 2017-7-6 12:03:11 | 只看该作者
我这边测试的时候是没问题呢,你那边对处罚3做了采集么?
举报 使用道具
板凳
jiangsuxincheng 初级会员 发表于 2017-7-6 13:40:38 | 只看该作者
做采集的,但是本地没有,然后我在爬虫里面搜索主题名右击统计线索,我看里面显示规则不适用
举报 使用道具
地板
ym 版主 发表于 2017-7-6 14:20:23 | 只看该作者
显示规则不适用,说明采集失败,失败就不会得到xml数据文件,也就不会建立相应的存储文件夹。所以你要加载第二级规则,分析一下失败的原因,再来优化规则,参考教程《怎样解决规则采集失败/遗漏的问题》
举报 使用道具
5#
jiangsuxincheng 初级会员 发表于 2017-7-6 14:34:34 | 只看该作者
你测试本地有对应的文件夹吗,我做了两个城市全是这样的,主要是规则3所有的数据都是规则不适用,这个应该和网址没关系吧
举报 使用道具
6#
shengchengx 金牌会员 发表于 2017-7-6 14:40:07 | 只看该作者
jiangsuxincheng 发表于 2017-7-6 14:34
你测试本地有对应的文件夹吗,我做了两个城市全是这样的,主要是规则3所有的数据都是规则不适用,这个应该 ...



我这边测试的时候是没问题的呢,我再看下你的规则吧

举报 使用道具
7#
shengchengx 金牌会员 发表于 2017-7-6 14:48:03 | 只看该作者
jiangsuxincheng 发表于 2017-7-6 14:34
你测试本地有对应的文件夹吗,我做了两个城市全是这样的,主要是规则3所有的数据都是规则不适用,这个应该 ...

你看下你的处罚3里面有错误呢
举报 使用道具
8#
jiangsuxincheng 初级会员 发表于 2017-7-6 15:00:49 | 只看该作者
处罚3里面规则错误?处罚3的规则就是直观标注啊
举报 使用道具
9#
jiangsuxincheng 初级会员 发表于 2017-7-6 15:29:44 | 只看该作者
我规则3做了个定位标志映射   这下采集成功了
举报 使用道具
10#
shengchengx 金牌会员 发表于 2017-7-6 15:32:31 | 只看该作者
jiangsuxincheng 发表于 2017-7-6 15:29
我规则3做了个定位标志映射   这下采集成功了

做完映射之后最好是都加上定位标志
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 17:12