样本页面:http://navi.cnki.net/knavi/journ ... TQ1OTNWK21lOUZFRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4ggI8Fm4gTkoUKaID8j8gFw!!
针对于这样的页面,我的想法是:既然集搜客的动作能够实现自动循环的编排,那么是否做三级规则就够了呢? 1、点击栏目浏览 分别点击各栏目 2、抓取链接线索 3、抓取文章详情

目前我用了两个点击步骤 分别点击  【栏目浏览】和【依次点击不同栏目】然后  意图分栏目的 抓取 篇名 作者等 信息 ,在确认两个动作的xpath均能够对应到目标点击位置后,打数机依然只能够实现点击栏目浏览 。

请各位技术大神指点,应该如何解决该问题?

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-8-5 21:07

Fuller 管理员 发表于 2016-8-5 17:31:44 | 显示全部楼层
你的规则有没有存过?存了的话告诉我名字,我加载上来看看
举报 使用道具
Fuller 管理员 发表于 2016-8-5 17:41:42 | 显示全部楼层
如果超链接有独立的网址,那么尽量不要用连续动作,连续动作比较复杂,调试麻烦。

如果超链接是一个javascript代码,比如,这个网站,网址是javascript:void(0),就只能用连续动作。

这个应该这样编排:
动作1:点击“栏目浏览”
动作2:连续点击目录下面的翻页区的>号,设置高级选项,不要选 必做
动作3:挨个点击左边目录中的条目

上面是规则A,然后做个规则B,针对点击后的结果,把篇名,作者,年期抓下来

上面这个规划有个缺陷,在第二步会过早点击了翻页。目前这个版本会这样,如果确属必要,可以联络我们定制一个版本
举报 使用道具
Automobile86 中级会员 发表于 2016-8-5 18:20:02 | 显示全部楼层
Fuller 发表于 2016-8-5 17:31
你的规则有没有存过?存了的话告诉我名字,我加载上来看看

第一级规则名字:知网_杂志_动作   第二级规则名字 知网_杂志_线索   拜托帮忙看看哈~
举报 使用道具
Automobile86 中级会员 发表于 2016-8-5 18:25:55 | 显示全部楼层
Fuller 发表于 2016-8-5 17:41
如果超链接有独立的网址,那么尽量不要用连续动作,连续动作比较复杂,调试麻烦。

如果超链接是一个javasc ...

栏目细项中并无独立网址,所以只能够用连续动作了。

OK,我先按照你指点的规划路径做个规则去尝试下。

如果在你的规划中,第二步会过早点击了翻页的话,那么看来动作的智能化编排还是有局限性啊。

感谢指点哦~

举报 使用道具
Fuller 管理员 发表于 2016-8-5 21:07:22 | 显示全部楼层
Automobile86 发表于 2016-8-5 18:25
栏目细项中并无独立网址,所以只能够用连续动作了。

OK,我先按照你指点的规划路径做个规则去尝试下。

前面说的连续动作的路线有缺陷,不是说这个问题就解决不了。那个条路线有缺陷,那么再找一条路线补充他,就能完美解决。

上面那条路线的动作2跳过了第一页,这个问题很好解决,再规划一条路线,不要动作2。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 08:13