搜索页面的网址复制到谋数台就变了,怎么解决啊
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-12-15 14:44

沙发
ym 版主 发表于 2016-12-15 14:36:07 | 只看该作者
你这种情况,应该是搜索结果没有独立网址,搜索前后的网页地址都是同一个,所以,你搜索之后拷贝的网址打开还是刚开始的页面。
要采集没有独立网址的网页,就要做连续动作。像你这种搜索页面,就要做两级规则,第一级规则设置输入动作、点击动作,模拟人的输入关键词和点击搜索的操作,第二级规则就是对搜索结果页面做采集,操作可以参考《连续动作实战:自动输入查询条件抓取微信公众号》
举报 使用道具
板凳
森神君 初级会员 发表于 2016-12-15 14:37:41 | 只看该作者
哦哦,但是第二级规则要对搜索后的页面做采集,问题是如何进入到搜索页面再做规则啊,我就是不懂这里呀
举报 使用道具
地板
ym 版主 发表于 2016-12-15 14:43:47 | 只看该作者
1、如果你用的是GS爬虫浏览器,把网址拷贝到浏览器里访问,输入关键词获取到搜索结果后,再点击“定义规则”,就可以开始定义采集规则。
2、如果你用的是火狐插件版爬虫,把网址拷贝到MS谋数台后,先取消勾“内容定位”,就会恢复到普通网页模式,你再输入关键词搜索,再勾上“内容定位”,点击“规则”菜单->“刷新网页结构”,就可以开始做规则。
举报 使用道具
5#
森神君 初级会员 发表于 2016-12-15 14:44:28 | 只看该作者
好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 00:21