11#
Givent 中级会员 发表于 2016-12-18 08:31:17 | 只看该作者
Fuller 发表于 2016-12-17 20:29
天天有货车源1  和 天天有货车源12  这两个主题名都没有找到

规则里面用的是连续动作的点击动作吗?不用 ...

1、天天有货车源1  和 天天有货车源12  这两个主题名是我随便填写的,其他都没错是吧。我那么写就可实现每10分钟自己激活一次,再重新抓取是吧。



2、规则1是用的连续点击动作啊,这是您当时说的


3、我还是没搞清楚点击20屏,怎么实现。问了群里,感觉每个技术人员都说一种方法。已经晕了。麻烦告诉我下怎么设置,谢谢~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
scraper 论坛元老 发表于 2016-12-18 09:19:16 | 只看该作者
我是这样做的
1,第一级规则的连续动作:只定义点击动作

假设要点击19次,那么就这么写 //div[@class='truck-item' and position() < 20]//*[@class='title']
如果想点击100次,那么就这么写 //div[@class='truck-item' and position() < 101]//*[@class='title']
用position()函数控制点击次

2,第二级做回退动作




注意,目标主题虚构了一个,按理说应该回退以后再次把主题名变成第一级,但是目前版本在这里这种环回的时候有点问题
对于虚构的主题名,做完动作以后发现没有抓取规则就只做回退,不往前走了,刚好达到目的

3,crontab规定滚屏次数



scrollWindowRatio = 2
scrollMorePages = 20
如果第二个红框的主题是第二级的,那么就不能要,第二级主题不用出现,因为是连续动作,一口气执行到底的
scrollMorePages只能控制一个大概,=20的话,一般滚屏次数会大于20次
这样就能实现你要求的抓取模式




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
13#
Givent 中级会员 发表于 2016-12-26 08:12:02 | 只看该作者
Givent 发表于 2016-12-18 08:31
1、天天有货车源1  和 天天有货车源12  这两个主题名是我随便填写的,其他都没错是吧。我那么写就可实现 ...

Fuller,你好。设置没10分钟自动激活抓取,这两天开始,重复率非常高。每天抓1000多个只有100多条有效。现在需要修改下那些设置么?不然这样太浪费资源了!
举报 使用道具
14#
Fuller 管理员 发表于 2016-12-26 10:40:21 | 只看该作者
Givent 发表于 2016-12-26 08:12
Fuller,你好。设置没10分钟自动激活抓取,这两天开始,重复率非常高。每天抓1000多个只有100多条有效。 ...

如果保持10分钟重新激活的话,就把点击次数变小,现在是点击100个?

重复激活肯定会有重复数据,也不能调整太厉害了,防止有漏掉的数据
举报 使用道具
15#
Givent 中级会员 发表于 2016-12-26 10:44:14 | 只看该作者
Fuller 发表于 2016-12-26 10:40
如果保持10分钟重新激活的话,就把点击次数变小,现在是点击100个?

重复激活肯定会有重复数据,也不能 ...

现在是点击20个,已经很小了!还是这么多重复,我感觉这个网站好像修改了,不是按照之前那种刷新了。
举报 使用道具
16#
Fuller 管理员 发表于 2016-12-26 10:51:58 | 只看该作者
Givent 发表于 2016-12-26 10:44
现在是点击20个,已经很小了!还是这么多重复,我感觉这个网站好像修改了,不是按照之前那种刷新了。
...

手工翻页看看,网站改版后内容有什么变化
举报 使用道具
17#
Givent 中级会员 发表于 2016-12-26 10:55:24 | 只看该作者
Fuller 发表于 2016-12-26 10:51
手工翻页看看,网站改版后内容有什么变化

没变化还是一样的。就是现在抓取重复率激增。您受累帮我看看。主题名:天天有货货源1  天天有货货源12
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-29 00:58