https://bj.lianjia.com/ershoufang/pg3co32/
一级规格是采集该网页里的房源基本信息,例如价格户型面积等,二级规则是采集下级线索里的挂牌时间等,一共采集3个网址,两个规格点击集搜,分别为3和90,也就是说一级规则应该有3个xml文档,二级规则采集应该有90个文档,可二级的每次都只有30个文档,求解,谢谢!
举报 使用道具
| 回复

共 32 个关于本帖的回复 最后回复于 2018-3-13 10:48

shengchengx 金牌会员 发表于 2018-3-9 10:25:24 | 显示全部楼层
本帖最后由 shengchengx 于 2018-3-9 10:29 编辑

如果采集中有翻页的话,是采集一页就会产生一个xml文件,你可以先去采集一级规则中的数据,采集完一级规则的数据之后,去查看下二级规则一共有多少条线索,采集完了之后再去检查数据是否采集完整
举报 使用道具
希渺 初级会员 发表于 2018-3-9 10:40:28 | 显示全部楼层
shengchengx 发表于 2018-3-9 10:25
如果采集中有翻页的话,是采集一页就会产生一个xml文件,你可以先去采集一级规则中的数据,采集完一级规则 ...

没有翻页,我是一页一页采集的啊
举报 使用道具
yangwenge 金牌会员 发表于 2018-3-9 10:43:51 | 显示全部楼层
希渺 发表于 2018-3-9 10:40
没有翻页,我是一页一页采集的啊

规则名是什么?
举报 使用道具
希渺 初级会员 发表于 2018-3-9 10:46:20 | 显示全部楼层

标题列表页-lj0308和详情列表页-lj0308
刚试了下,连标题列表页采集到的数量也不对了。。

举报 使用道具
yangwenge 金牌会员 发表于 2018-3-9 11:26:14 | 显示全部楼层
本帖最后由 yangwenge 于 2018-3-9 11:30 编辑
希渺 发表于 2018-3-9 10:46
标题列表页-lj0308和详情列表页-lj0308
刚试了下,连标题列表页采集到的数量也不对了。。

B9(~(730%V86XU}QY{B$OIE.png
我这边测试一点问题都没,先删除所以采集的xml文件和两个规则的线索,然后重新添加线索采集看看;
另外单搜的时候输入的线索数要大于等于待抓取的线索数。

举报 使用道具
希渺 初级会员 发表于 2018-3-9 12:54:56 | 显示全部楼层
yangwenge 发表于 2018-3-9 11:26
我这边测试一点问题都没,先删除所以采集的xml文件和两个规则的线索,然后重新添加线索采集看看;
另外单 ...

我试了好几次,还是只有30个二级线索采集数据。。。
把xml文件全部删除了,而且在打数机里激活了所有线索和所有失败线索啊
删除两个规则的线索是什么意思啊?

举报 使用道具
yangwenge 金牌会员 发表于 2018-3-9 14:01:41 | 显示全部楼层
希渺 发表于 2018-3-9 12:54
我试了好几次,还是只有30个二级线索采集数据。。。
把xml文件全部删除了,而且在打数机里激活了所有线索 ...

~6[L)AHJ2}@{Z2~6`PY5@5J.png
这是输入的几?
举报 使用道具
希渺 初级会员 发表于 2018-3-9 14:59:49 | 显示全部楼层

一级输入的是5二级输入的是100
举报 使用道具
yangwenge 金牌会员 发表于 2018-3-9 15:08:48 | 显示全部楼层
希渺 发表于 2018-3-9 14:59
一级输入的是5二级输入的是100

打数机右键规则名-统计线索,分别统计两个规则的线索看看

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 16:47