21#
hexu123 新手上路 发表于 2020-8-4 17:10:59 | 只看该作者
运行多个规则是不是要进行模糊匹配呢?怎样进行模糊匹配呢?
举报 使用道具
22#
wangyong 版主 发表于 2020-8-4 17:42:18 | 只看该作者
多个规则一起运行用爬虫群就可以,教程:https://www.gooseeker.com/doc/article-474-1.html

如果是连续动作的规则,则只需要运行第一级规则也就是编写动作的步骤的这个规则
举报 使用道具
23#
Fuller 管理员 发表于 2020-8-4 18:58:50 | 只看该作者
hexu123 发表于 2020-8-4 17:10
运行多个规则是不是要进行模糊匹配呢?怎样进行模糊匹配呢?

你说的运行多个规则是什么意思?可能会有以下几种理解,你说的是哪一种?

1,你给好几个网站做了规则,所以就有了好几个规则,你想运行爬虫,而且想同时采集这些网站。那么就在会员中心的任务管理那里设置调度参数,并启动爬虫群

2,如果你在同一个任务名下做了多个规则,为了能适应多种网页结构,如果规则做的好,爬虫能够自动选择该用哪个规则。你只需选中任务名,启动 单搜/集搜 ,为这个任务把爬虫启动起来就行了
举报 使用道具
24#
hexu123 新手上路 发表于 2020-8-5 08:37:17 | 只看该作者
Fuller 发表于 2020-8-4 18:58
你说的运行多个规则是什么意思?可能会有以下几种理解,你说的是哪一种?

1,你给好几个网站做了规则, ...

属于第二种情况,可是我并没有看到有点击

举报 使用道具
25#
hexu123 新手上路 发表于 2020-8-5 08:38:42 | 只看该作者
hexu123 发表于 2020-8-5 08:37
属于第二种情况,可是我并没有看到有点击

并没有看到系统执行我设定的规则
举报 使用道具
26#
Fuller 管理员 发表于 2020-8-5 08:58:28 | 只看该作者
hexu123 发表于 2020-8-5 08:38
并没有看到系统执行我设定的规则

要为两个规则都设置“关键内容”,而且要靠关键内容把两种结构区分出来,爬虫按照“规则编号”的顺序依次尝试,如果遇到关键内容都能采集到的规则,就用那个规则。如果“关键内容”不能区分多个规则,只会用前面那个规则。

因为有这个限制,相同任务名下多个规则只是用来解决同一批网页结构有变化的情况,不能把网址本来就不在一起的网页规则放在同一个任务下。

比如,采集电商商品详情,遇到了下架商品,网页结构变了,但是这些网址你是区分不开的,就让爬虫来区分。

又如,一批网址是采集商品详情,另一批网址是采集评论,这就不应该放在同一个任务下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 02:30