11#
lilyzoo 初级会员 发表于 2017-3-24 20:12:35 | 只看该作者
Fuller 发表于 2017-3-23 22:40
刚才我把第二级改成连续动作了,做个点击动作,而且设置高级设置,勾上模拟点击,额外延迟3秒,所用的xpath ...

我重新设置成了连续动作,可以跳转到好评标签下的页面。但是我点集搜,输的5,它这个页面就一直在跳,好像停不下来了。。。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
lilyzoo 初级会员 发表于 2017-3-24 21:31:04 | 只看该作者
lilyzoo 发表于 2017-3-24 20:12
我重新设置成了连续动作,可以跳转到好评标签下的页面。但是我点集搜,输的5,它这个页面就一直在跳,好 ...

运行了一个多小时页面终于到最后也一页,可是打数机丝毫没有停止的意思啊。。。。。
还想请问一下这样搜集到的数据在哪里呢,怎样才能有直观的excel表数据?(自己制作了规则进行发布,再用DIY数据采集?)
举报 使用道具
13#
Fuller 管理员 发表于 2017-3-24 22:18:34 | 只看该作者
lilyzoo 发表于 2017-3-24 21:31
运行了一个多小时页面终于到最后也一页,可是打数机丝毫没有停止的意思啊。。。。。
还想请问一下这样搜 ...

你观察到在跳,那应该是在翻页,你是不是想只翻页5次?另外你想直接存入数据库并导出成excel,那么这两个问题都可以启用爬虫群调度来实现。在调度参数中,可以设定翻页次数,启用爬虫群模式的话,就会自动入库,跟数据DIY的运行几乎是一样的。但是数据DIY是官方发布的规则,你自己做的发布不到数据DIY上。

如果翻页到最后还停不下来,应该设置“重复内容中断”,爬虫群调度参数中有这个参数,菜单也有这个设置项
举报 使用道具
14#
lilyzoo 初级会员 发表于 2017-3-25 20:28:11 | 只看该作者
Fuller 发表于 2017-3-24 22:18
你观察到在跳,那应该是在翻页,你是不是想只翻页5次?另外你想直接存入数据库并导出成excel,那么这两个 ...

谢谢您的耐心解答,我操作了一下爬虫群。打开集搜客浏览器之后,我点击了DS打数机,然后点爬虫群配置,弹出来配置窗口(有线程名称,默认勾选自启动),关闭后就会弹出两个打数机窗口;
接着我点了爬虫群调度,出现自己的规则页面,是否只需调度三级规则最顶层一级呢?点击调度,有一些参数设置,我填成下图。

参数设置之后,点击确认会启动爬虫群,打开打数机。
在打数机运行完毕之后(打数机页面能够调到好评标签下的内容),可是我导出数据看发现只有第一层规则里抓取的内容,这是什么情况呢?



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
15#
shenzhenwan10 金牌会员 发表于 2017-3-25 20:31:47 | 只看该作者
本帖最后由 shenzhenwan10 于 2017-3-25 20:41 编辑

通过连续的模拟点击或连续动作自动顺序执行的多个规则,只需要调度第一个入口规则,就像你在单搜或集搜里只需要运行第一个规则是一样的
举报 使用道具
16#
shenzhenwan10 金牌会员 发表于 2017-3-25 20:32:36 | 只看该作者
爬虫群参数里的滚屏次数应该设置一个大于0的值,比如10,因为淘宝评论要滚屏才能加载出来
举报 使用道具
17#
shenzhenwan10 金牌会员 发表于 2017-3-25 21:22:08 | 只看该作者
shenzhenwan10 发表于 2017-3-25 20:31
通过连续的模拟点击或连续动作自动顺序执行的多个规则,只需要调度第一个入口规则,就像你在单搜或集搜里只 ...

如果你需要入库并且要入库的不是第一个入口规则,而是顺序执行的其它规则,那么在爬虫群的调度里也需要把最后实际抓取的1个或几个规则设置调度,调度的选项为:
不勾选“抓取”,勾选“结果入库”

举报 使用道具
18#
lilyzoo 初级会员 发表于 2017-3-25 21:34:04 | 只看该作者
shenzhenwan10 发表于 2017-3-25 21:22
如果你需要入库并且要入库的不是第一个入口规则,而是顺序执行的其它规则,那么在爬虫群的调度里也需要把 ...

我把滚屏次数设置成了5,把后两级规则都加入爬虫群了,启动爬虫群可是为什么打数机空白?
举报 使用道具
19#
shenzhenwan10 金牌会员 发表于 2017-3-25 23:28:30 | 只看该作者
你看一下是不是没有线索了
举报 使用道具
20#
lilyzoo 初级会员 发表于 2017-3-26 20:40:57 | 只看该作者
shenzhenwan10 发表于 2017-3-25 23:28
你看一下是不是没有线索了

激活线索我都试了的,可是打数机即使工作也抓取不了好评按钮下面的评论啊,下载爬虫群入库的评论,打开看只有第一个页面的商品名称和累计评论两行。。。。
要哭死了。。。
毕业设计的数据啊,谁帮帮我。。。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 06:54