本帖最后由 懵懵的girl 于 2016-12-29 12:58 编辑

连续动作的关键词抓取要设置两级规则,我设置的分别如下图:(麻烦帮我看一下,找找错误,运行出来的答案并不是我需要的)
规则一:将页面搜索标志设为关键词,并做内容映射
2016-12-29_123652.png 2016-12-29_124044.png
创建输入关键词步骤
2016-12-29_123800.png
创建提交步骤
2016-12-29_123822.png
规则二:设置要抓取的内容,并启用样例复制
2016-12-29_124020.png
设置翻页抓取


举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2016-12-29 17:03

ym 版主 发表于 2016-12-29 14:36:02 | 显示全部楼层
你设置的第一级规则的连续动作是没有问题的,但是有问题的是,点击搜索之后,是弹出一个新页签,这种弹窗网页的采集需要用到飞掠模式,这是旗舰版爬虫的功能,因为你没有这个功能,所以爬虫点击搜索之后没有执行成功。
另外,你这个网页的搜索结果是有独立网址的,所以,不用做两级规则,直接用第二级规则就好了,把搜索关键词之后的网址整理出来,再批量导入到第二级规则里,就可以批量采集了
举报 使用道具
懵懵的girl 初级会员 发表于 2016-12-29 14:56:34 | 显示全部楼层
那如果有多个关键词呢,怎样把多个关键词的采集结果整合到一起呢?
举报 使用道具
ym 版主 发表于 2016-12-29 15:00:15 | 显示全部楼层
免费版爬虫支持5个关键词的连续输入,用单分号;或双分号;;作为间隔
旗舰版爬虫支持1万个关键词,需要去会员中心添加,参考http://www.gooseeker.com/doc/thread-4327-1-1.html
举报 使用道具
懵懵的girl 初级会员 发表于 2016-12-29 15:05:36 | 显示全部楼层
ym 发表于 2016-12-29 15:00
免费版爬虫支持5个关键词的连续输入,用单分号;或双分号;;作为间隔
旗舰版爬虫支持1万个关键词,需要去 ...

我的意思是如果我手动输入关键词,得到独立网址,然后直接用规则抓取,那如果有多个关键词我去手动输入得到多个网址,那怎么样才能整合这些多个关键词的数据呢?
举报 使用道具
ym 版主 发表于 2016-12-29 15:10:55 | 显示全部楼层
建个标签,把输入框里的关键词也抓下来,后面汇总到excel就可以一目了然
举报 使用道具
懵懵的girl 初级会员 发表于 2016-12-29 15:18:38 | 显示全部楼层
ym 发表于 2016-12-29 15:10
建个标签,把输入框里的关键词也抓下来,后面汇总到excel就可以一目了然

好的,谢谢!能不能再麻烦你给我看看,这个弹出窗页的网址怎么找啊,感觉网址显示不出来 2016-12-29_150458.png

2016-12-29_150458.png
举报 使用道具
ym 版主 发表于 2016-12-29 15:43:23 | 显示全部楼层
在网址框里
举报 使用道具
懵懵的girl 初级会员 发表于 2016-12-29 16:08:25 | 显示全部楼层
本帖最后由 懵懵的girl 于 2016-12-29 16:20 编辑

已经找到了,谢谢
举报 使用道具
懵懵的girl 初级会员 发表于 2016-12-29 16:50:14 | 显示全部楼层

对了,还想问个问题:刚刚我通过手动输入关键词得到的独立网址里面的信息会自动更新加入到网址中吗?如果可以,那我抓取数据时应该怎样使抓取的数据能够不断更新添加呢?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 23:49