怎么在进入搜索网页里面做规则,我把网址拷贝到MS谋数台,打开的不是搜索结果的网页,而是搜索前的初始页面
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-12-15 14:50

沙发
ym 版主 发表于 2016-12-15 14:48:19 | 只看该作者
你这种情况,应该是搜索结果没有独立网址,搜索前后的网页地址都是同一个,所以,你搜索之后拷贝的网址打开还是刚开始的页面。
要采集没有独立网址的网页,就要做连续动作。像你这种搜索页面,就要做两级规则,第一级规则设置输入动作、点击动作,模拟人的输入关键词和点击搜索的操作,第二级规则就是对搜索结果页面做采集,操作可以参考《连续动作实战:自动输入查询条件抓取微信公众号》
举报 使用道具
板凳
Lau_Stone 初级会员 发表于 2016-12-15 14:49:58 | 只看该作者
问题是怎样进入到搜索结果的页面再做第二级规则呀,打开的都是初始页面呀
举报 使用道具
地板
ym 版主 发表于 2016-12-15 14:50:09 | 只看该作者
1、如果你用的是GS爬虫浏览器,把网址拷贝到浏览器里访问,输入关键词获取到搜索结果后,再点击“定义规则”,就可以开始定义采集规则。
2、如果你用的是火狐插件版爬虫,把网址拷贝到MS谋数台后,先取消勾“内容定位”,就会恢复到普通网页模式,你再输入关键词搜索,再勾上“内容定位”,点击“规则”菜单->“刷新网页结构”,就可以开始做规则。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 15:23