快捷导航
50 89056

线索是什么意思?

gdzxLyzh 于 2016-1-23 20:18 发表 [复制链接]
涉及到翻页后,切换到DS 让我输入线索数,是不是我想抓几页就输入多少线索?
请解释该名词,谢谢。
举报 使用道具
| 回复

共 50 个关于本帖的回复 最后回复于 2016-10-26 10:08

xandy 论坛元老 发表于 2016-1-23 20:29:23 | 显示全部楼层
目标页面用网址表示,所以,一条线索对应一个目标页面的网址。你用DS打数机加载目标页面并抓取目标页面的内容以及新的线索,这个过程可以形象理解成顺着一条线索达到了一个页面,而在这个页面抓取到的新线索就为爬虫拓展了更大的爬行范围。
举报 使用道具
Fuller 管理员 发表于 2016-1-23 20:43:34 | 显示全部楼层
如果做翻页抓取规则的时候,勾选了“连贯抓取”,那么翻页过程是一口气完成的,无论是有50个分页还是500个分页,只有一个线索,翻页期间,不会为每个分页生成线索。这一点要注意区分一下。
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 21:02:48 | 显示全部楼层
这个问题还不是很明白,线索是不是一个网页上能到达多少网页就是多少线索,总之概念很混乱。。。。
举报 使用道具
xandy 论坛元老 发表于 2016-1-23 21:09:35 | 显示全部楼层
gdzxLyzh 发表于 2016-1-23 21:02
这个问题还不是很明白,线索是不是一个网页上能到达多少网页就是多少线索,总之概念很混乱。。。。
...

不是指网页数,举个例子,你要采集天猫所有女装的商品详情,首先你建立的第一个规则是抓“女装”关键词的搜索列表,每一件衣服都对应一个url,通往这个衣服的详情列表,这样采到n个女装就生成了n个url,而这些url就是你采集这些女装商品详情的线索,通俗而言,没有这些线索你就抵达不到每件衣服的详情页。 你的第二个规则是抓取女装的详情页,这些url就是第二个规则的线索数。
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 21:22:58 | 显示全部楼层
xandy 发表于 2016-1-23 21:09
不是指网页数,举个例子,你要采集天猫所有女装的商品详情,首先你建立的第一个规则是抓“女装”关键词的 ...

大致看懂了。我自己再举一反三一下,例如在某论坛里的一个版块,总共100页,每页有20个帖子。
我的目的是抓取所有100页乘以20 等于2000个帖子的标题,时间以及所有回复。
那么我开始建立第一个规则,先采集100页所有帖子的标题,发表时间,作者到整理箱中。
然后建立第二个规则,目的是采集每个帖子的“详情页”(也就是每个帖子中所有的回复),第二个规则的线索是2000(因为总共是2000个帖子)
再建立第三个规则(因为有些帖子是高楼),用于采集高楼贴中的所有内容
说的好乱,,请版主多包涵!
举报 使用道具
xandy 论坛元老 发表于 2016-1-23 21:30:53 | 显示全部楼层
gdzxLyzh 发表于 2016-1-23 21:22
大致看懂了。我自己再举一反三一下,例如在某论坛里的一个版块,总共100页,每页有20个帖子。
我的目的是 ...

逻辑是对的,但是第二个规则应该就可以采集帖子的内容了,为什么还要建第三个规则呢?
举报 使用道具
Fuller 管理员 发表于 2016-1-23 21:31:39 | 显示全部楼层
第二个和第三个规则应该合成一个规则,在第二个规则中也定义个翻页线索,因为像Discuz这样的论坛,高楼分成了很多页,翻页抓每一楼。

如果有个帖子没有分页,也能抓到。
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 21:34:00 | 显示全部楼层
Fuller 发表于 2016-1-23 21:31
第二个和第三个规则应该合成一个规则,在第二个规则中也定义个翻页线索,因为像Discuz这样的论坛,高楼分成 ...

明白! 就是在第二个规则中定义翻页线索,如果是矮楼则不影响,如果是高楼贴,那么规则2也可以顺利抓取,是这个意思吧?!
举报 使用道具
gdzxLyzh 初级会员 发表于 2016-1-23 21:39:04 | 显示全部楼层
xandy 发表于 2016-1-23 21:30
逻辑是对的,但是第二个规则应该就可以采集帖子的内容了,为什么还要建第三个规则呢? ...

恩恩, 规则1也要定义翻页线索,因为版块有20页。 规则2也要有翻页线索,因为要抓高楼贴。那么再问下主题和规则的关系:
1  我所有的目的可以是一个主题
2 然后我在这个主题下建立两个规则
3两个规则下各有一个整理箱,和一个线索
那么gooseeker运行时,对于规则1,规则2的执行顺序是怎样的?也就是说先抓取2000个帖子的标题作者等基本信息,再逐个抓取所有回复?还是抓取玩第一个帖子的所有内容,再抓第二个?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 11:17