快捷导航
有个列表,含有20条信息,每个都是超链接,能点击进入详细页,怎样循环抓所有信息,并且挨个点进去抓详情,然后回退出来再翻页抓下一个列表,循环往复全部抓完
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-4-26 12:57

Fuller 管理员 发表于 2016-10-18 09:23:21 | 显示全部楼层
集搜客网络爬虫是个大型网络爬虫,不是采集器小软件,所以,像百度爬虫一样,网页是一层层抓取的。抓取某个网址的时候,除了抓取内容,还把网页中的链接抓下来,形成下级线索,供爬虫去爬,但是,不是当前运行的爬虫窗口紧接着去爬下层,而是可以分配给其他爬虫,甚至是分布在世界各地的爬虫一起来爬。所以,看起来是大循环套小循环,外循环套内循环,其实运行的时候是层层分拆开的。

抓列表-》抓详情是典型的层级抓取,尽量不要用“连续动作”,虽然连续动作更像循环套循环,但是,连续动作是一口气完成的,无法分布式快速爬数据。


首选层级抓取,在层级抓取不能使用的时候采用连续动作,比如,在列表中,每个超链接看起来像个超链接,但是没有独立的网址,而是一段javascript代码,比如,onclick="javascript:void(0)",这样的代码,此时不得不用连续动作。

把层级抓取规则定义好以后,在会员中心把每一层加入爬虫群罗盘中,可以大批量并行抓取。
举报 使用道具
LIUTING0529 新手上路 发表于 2019-4-26 04:46:13 | 显示全部楼层
Fuller 发表于 2016-10-18 09:23
集搜客网络爬虫是个大型网络爬虫,不是采集器小软件,所以,像百度爬虫一样,网页是一层层抓取的。抓取某个 ...

请问超链接,选择连续动作来爬首页和详细页数据(携程民宿),在第一层规则应该设置整理箱爬民宿名称价格等,然后设置连续动作点击民宿名称,并且在高级设置里循环吗?加上翻页循环,然后第二层规则爬详细页?
举报 使用道具
Fuller 管理员 发表于 2019-4-26 07:58:34 | 显示全部楼层
LIUTING0529 发表于 2019-4-26 04:46
请问超链接,选择连续动作来爬首页和详细页数据(携程民宿),在第一层规则应该设置整理箱爬民宿名称价格 ...

如果你在第一层用连续点击的方式点击民宿名称,就会直接进入到民宿的详情页,立马就执行了第二层。这种情形下,你去统计第二层的线索数,永远不变的。
通常不用这种方法,因为要一口气点击完,然后翻页,再点击,中间很容易断掉。那么,如果在第一层能看到第二层的A节点的有效的href网址,那就用普通的层级采集。第一层和第二层可以并行采集,也可以多台电脑分工采集,断掉也仅仅影响一个网页。

如果用连续动作那个方案,就不要在整理箱那里勾下级线索了,否则,点击和下级线索就重复采集了。
举报 使用道具
LIUTING0529 新手上路 发表于 2019-4-26 12:57:27 | 显示全部楼层
Fuller 发表于 2019-4-26 07:58
如果你在第一层用连续点击的方式点击民宿名称,就会直接进入到民宿的详情页,立马就执行了第二层。这种情 ...

好的,谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-19 14:27