我采集 二级页面具体详情的时候 采集不到   主题名称是  养生资讯_第二级  ,规则编号是  规则_1,

   页面地址是 http://www.cnys.com/zixun/77964.html

1.png (18.46 KB, 下载次数: 480)

1.png
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2018-4-9 14:27

来自 6#
allen_E 新手上路 发表于 2018-4-9 13:52:53 | 只看该作者
现在生成了二级规则的xml文件  但就是一直在生成内容相同的xml文件 和一级规则定义的xml文件不对应啊
举报 使用道具
沙发
数据集 高级会员 发表于 2018-4-9 11:32:20 | 只看该作者
运行你的规则没问题,文章内容也能采集下来,你说的采集不到是没有生成xml文件? 还是xml文件是空的?还是采集的时候报错了?
举报 使用道具
板凳
allen_E 新手上路 发表于 2018-4-9 13:30:13 | 只看该作者
没有生成二级规则的xml文件
举报 使用道具
地板
allen_E 新手上路 发表于 2018-4-9 13:31:49 | 只看该作者
一级规则的xml文件保存到我的本地了  二级规则的xml文件没有
举报 使用道具
5#
allen_E 新手上路 发表于 2018-4-9 13:33:20 | 只看该作者
生成的本地文件 一级 和关联的二级 可以合并成一个xml文件吗
举报 使用道具
7#
wangyong 版主 发表于 2018-4-9 14:08:18 | 只看该作者
一级和二级数据的合并可以在Excel里做,https://www.gooseeker.com/doc/thread-752-1-1.html
举报 使用道具
8#
数据集 高级会员 发表于 2018-4-9 14:14:15 | 只看该作者
allen_E 发表于 2018-4-9 13:31
一级规则的xml文件保存到我的本地了  二级规则的xml文件没有

层级采集的两个规则不是连贯的,都需要手动启动采集,运行第一级规则,生成线索给第二级规则,再运行第二级规则抓取
举报 使用道具
9#
allen_E 新手上路 发表于 2018-4-9 14:20:10 | 只看该作者
先生成 第一规则  然后 再运行第二级规则 是这样子吗  
举报 使用道具
10#
数据集 高级会员 发表于 2018-4-9 14:27:57 | 只看该作者
allen_E 发表于 2018-4-9 14:20
先生成 第一规则  然后 再运行第二级规则 是这样子吗

是先运行第一级规则,第一级规则会给第二级规则生成线索数,然后再运行第二级规则,运行第二级规则之前要统计一下二级规则中有多少条待采集的线索,有多少条待采集的线索,单搜的时候就输入多少条
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 21:50