7 13712

联发弹仓功能使用

petergao0528 于 2018-6-26 20:48 发表 [复制链接]
有一个目标的搜索名单,想要在一个网站进行搜索后,爬取搜索后的结果数据,

但是目前用了旗舰版的联发弹仓功能,一直不成功,不知道是不是操作的不对,


目标网站是atobo.com,

一共做了两个规则

第一个规则做的连续动作,动作分了3个,点击搜索框上面的公司,输入关键词,提交搜索

设置了第二个规则,对结果页的内容做记录和爬取

第一个规则用联发弹仓配置了批量的关键词

但是目前由于第一个规则提交搜索后的页面里仍然有搜索框,就导致系统不停的做第一个规则的动作,搜索结果页面的数据一直没有记录下来。

如何能设置成规则1和规则2的动作是按顺序交替进行呢
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-6-27 09:11

Fuller 管理员 发表于 2018-6-26 21:17:17 | 显示全部楼层
运行第一级的时候,看到关键词输入进去了?搜索出来的结果对吗?

这两个规则的主题名是什么?帮你诊断一下
举报 使用道具
petergao0528 初级会员 发表于 2018-6-26 21:27:14 | 显示全部楼层
阿土伯搜索第一步

阿土伯搜索结果

这两个主题
举报 使用道具
petergao0528 初级会员 发表于 2018-6-26 21:27:29 | 显示全部楼层
Fuller 发表于 2018-6-26 21:17
运行第一级的时候,看到关键词输入进去了?搜索出来的结果对吗?

这两个规则的主题名是什么?帮你诊断一下 ...

阿土伯搜索第一步
和阿土伯搜索结果
举报 使用道具
petergao0528 初级会员 发表于 2018-6-26 21:28:39 | 显示全部楼层
Fuller 发表于 2018-6-26 21:17
运行第一级的时候,看到关键词输入进去了?搜索出来的结果对吗?

这两个规则的主题名是什么?帮你诊断一下 ...

看到关键词输进去了
也看到搜索结果页了

举报 使用道具
Fuller 管理员 发表于 2018-6-26 23:09:59 | 显示全部楼层
petergao0528 发表于 2018-6-26 21:28
看到关键词输进去了
也看到搜索结果页了

你的第一级规则有如下问题:
1,在“创建规则”工作台上,没有勾上关键内容,那么爬虫就无法判断一个规则是否适应这个网页了,很容易抓漏数据
2,每一个动作,应该勾选“高级设置”,设置额外延时,因为这个网站有些慢,尤其第二个输入 动作,输入以后网站还要做联想,如果不给他联想时间,它就会说“请输入查询条件”,这个动作的额外延时要长一些,比如,2秒,第一个动作可以不用延时,稳妥起见设置成1秒,第三个动作也要延时,因为点击以后需要一定时间才能查到结果

第二级的问题:
1,在“创建规则”工作台上,没有勾上关键内容

在会员中心的规则管理那里,添加关键词时,要填写动作名称,也就是第二个动作的名称,你的规则给这个动作起的名字是“输入”
举报 使用道具
petergao0528 初级会员 发表于 2018-6-26 23:54:30 | 显示全部楼层
Fuller 发表于 2018-6-26 23:09
你的第一级规则有如下问题:
1,在“创建规则”工作台上,没有勾上关键内容,那么爬虫就无法判断一个规则 ...

好的 感谢

联发弹仓这个功能 支持多个爬虫嘛

我试了一下 我第一个主题 设置了最多20个爬虫 但开了集群之后 最多也就只有3个爬虫再爬数据
举报 使用道具
Fuller 管理员 发表于 2018-6-27 09:11:15 | 显示全部楼层
petergao0528 发表于 2018-6-26 23:54
好的 感谢

联发弹仓这个功能 支持多个爬虫嘛

要设置两个地方:
1,在DS打数机上设置爬虫群,用菜单 爬虫群-》配置,添加窗口
2,在会员中心的规则管理那里设置调度参数,“最大允许爬虫数”

前者准备好了窗口,后者给窗口分配任务

如果这个都设置了,还是不行,那么检查有几条线索,如果线索数很多,在调度参数里面“一轮线索数量”设置得大一些,运行足够长的时间,那么再此期间分配的任务才会交给其他窗口。如果一轮运行时间很短,当前窗口空闲了,等有新任务,还是他抢到了,别的窗口总是没有机会。

如果有多台电脑运行,而且多台电脑是在同一个路由器下,那么,给每台电脑设置不同的名字,用菜单“文件”-》爬虫名字。如果名字相同,而且对外看来又是相同的网址,就会当成同一台电脑
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:01