http://www.rainpat.com/Home/Index
采集此网站专利信息  (专利信息在点开的弹窗里)如下图(弹窗没有链接)

分三个规则抓取
第一个
模拟输入查询信息  
第二个
翻页和模拟点开弹窗
这里出现问题  采集是没有反应
翻页是按照教程设置的
模拟点开弹窗是按教程设置的  http://www.gooseeker.com/doc/article-139-1.html
教程中用的是悬浮 我用的是点击  不过在操作中发现不一样的地方  如图

下图是我的  发现节点结构不一样  另外发现dom节点数目也不一样
第三个规则
采集弹出框中的信息
取消了内容定位  点击出第一个内容的弹出框  然后又选择内容定位  然后刷新结构  然后采集信息

三个规格做出来是不对的  
求大神解答

{6XF3KF0XA[NN4JGOPBF839.png (6.32 KB, 下载次数: 677)

{6XF3KF0XA[NN4JGOPBF839.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-1-28 15:44

沙发
Fuller 管理员 发表于 2016-1-23 17:01:45 | 只看该作者
一共三级,在第一级定义了连续动作,在第二级定义了连续动作,是不是?
如果是这样,GooSeeker V5.6.x 版本确实支持不了,只能做两级,只能有一个抓取规则含有连续动作。能不能第一级不要用连续动作?我试了一下,是可以的,因为输入检索条件提交以后,进入的网页都有独立网址。有独立网址的不用连续动作。

我建议两个方案选一个

方案一:做两级规则,也就是对应你做的规则2和3,不自动输入检索条件,就像上边说的,检索条件生成的网址是独立网址,预先生成好网址,一次性导入进去,给第一级生成线索

方案二:自动输入检索条件,但是在这个页面上做所有动作:http://www.rainpat.com/Home/Pate ... a-9077-ab9d1791fe65
输入条件,点击每个专利,翻页等都可以用连续动作。通常翻页不用连续动作,而是在爬虫路线工作台上定义。都是可以的
举报 使用道具
板凳
qwe147258 新手上路 发表于 2016-1-28 12:06:11 | 只看该作者
怎么会这么复制啊??
举报 使用道具
地板
Fuller 管理员 发表于 2016-1-28 15:44:17 | 只看该作者
qwe147258 发表于 2016-1-28 12:06
怎么会这么复制啊??

有些网页需要很多动作,所以就显得比较复杂
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 05:08