采集遇到bug了，求破~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

hanwsn

http://www.rainpat.com/Home/Index
采集此网站专利信息  （专利信息在点开的弹窗里）如下图（弹窗没有链接）

分三个规则抓取
第一个
模拟输入查询信息
第二个
翻页和模拟点开弹窗
这里出现问题  采集是没有反应
翻页是按照教程设置的
模拟点开弹窗是按教程设置的  http://www.gooseeker.com/doc/article-139-1.html
教程中用的是悬浮我用的是点击  不过在操作中发现不一样的地方  如图

下图是我的  发现节点结构不一样  另外发现dom节点数目也不一样
第三个规则
采集弹出框中的信息
取消了内容定位  点击出第一个内容的弹出框  然后又选择内容定位  然后刷新结构  然后采集信息

三个规格做出来是不对的
求大神解答

Fuller · 发表于 2016-1-23 17:01:45

一共三级，在第一级定义了连续动作，在第二级定义了连续动作，是不是？
如果是这样，GooSeeker V5.6.x 版本确实支持不了，只能做两级，只能有一个抓取规则含有连续动作。能不能第一级不要用连续动作？我试了一下，是可以的，因为输入检索条件提交以后，进入的网页都有独立网址。有独立网址的不用连续动作。

我建议两个方案选一个

方案一：做两级规则，也就是对应你做的规则2和3，不自动输入检索条件，就像上边说的，检索条件生成的网址是独立网址，预先生成好网址，一次性导入进去，给第一级生成线索

方案二：自动输入检索条件，但是在这个页面上做所有动作：http://www.rainpat.com/Home/Pate ... a-9077-ab9d1791fe65
输入条件，点击每个专利，翻页等都可以用连续动作。通常翻页不用连续动作，而是在爬虫路线工作台上定义。都是可以的

qwe147258 · 发表于 2016-1-28 12:06:11

怎么会这么复制啊？？

Fuller · 发表于 2016-1-28 15:44:17

qwe147258 发表于 2016-1-28 12:06
怎么会这么复制啊？？

有些网页需要很多动作，所以就显得比较复杂

采集遇到bug了，求破~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

本帖子中包含更多资源

共 3 个关于本帖的回复最后回复于 2016-1-28 15:44

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集遇到bug了，求破~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

本帖子中包含更多资源

共 3 个关于本帖的回复 最后回复于 2016-1-28 15:44

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2016-1-28 15:44