使用层级抓取时,第二层比第一层搜集到的线索个数多,虽然使用VLOOKUP,也能使他们合并的正好,但是能否解释一下,为何第二层线索多于第一层?
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-11-26 17:49

沙发
Fuller 管理员 发表于 2016-11-26 15:50:41 | 只看该作者
一般情况下,第二层都是比第一层多,因为第一层是列表,第二层是详情。
你的主题名是什么?
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2016-11-26 15:51:27 | 只看该作者
第二层的线索数你是怎么得到的?
举报 使用道具
地板
A2467800302 初级会员 发表于 2016-11-26 16:29:07 | 只看该作者
阿里数据管家11.26.1
阿里数据管家11.26.2
阿里数据管家11.26.3
第一层和第二层的线索数一样,但实际搜到的信息多
第二层比第三层的线索数多
举报 使用道具
5#
shenzhenwan10 金牌会员 发表于 2016-11-26 16:48:38 | 只看该作者
从这3个规则的线索数看不出问题
第1级   1
第2级  210
第3级  659
举报 使用道具
6#
shenzhenwan10 金牌会员 发表于 2016-11-26 16:50:23 | 只看该作者
你所说的线索数是不是指结果文件数量?
举报 使用道具
7#
A2467800302 初级会员 发表于 2016-11-26 17:17:08 | 只看该作者
嗯嗯,就是直接导入EXCEL后,图2信息多于图1,我一直觉得他们应该是两两相匹配的,第一层是帖子目录,对应的直接就是第二层的具体帖子信息,一个目录对应一个信息,数量应该一样啊?
图1

图2
我的结果是如图所示,是我的操作错误,还是就是这样的,再用VLOOKUP处理一下就好,希望解释原因
举报 使用道具
8#
shenzhenwan10 金牌会员 发表于 2016-11-26 17:34:18 | 只看该作者
从你的截图看,图2的记录有重复的
第二级的结果入到excel里后,你需要整理去重
举报 使用道具
9#
shenzhenwan10 金牌会员 发表于 2016-11-26 17:36:00 | 只看该作者
如果还有和第一级对应不上的,那就找出多的记录和网址,通过比对和重新抓取测试,看看问题出在哪个环节
举报 使用道具
10#
A2467800302 初级会员 发表于 2016-11-26 17:49:38 | 只看该作者
我直接用VLOOKUP,他都对应上了,是不是说明我的操作木有失误,爬虫软件就是这样哒?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 17:09