http://acad.cnki.net/kns55/oldNa ... F%E7%A0%94%E7%A9%B6
要在这个网页中抓取文章标题和页码信息,需要把所有年份和期数都点击一遍。
使用了连续点击动作,xPath写的是//*[@class='list1 prepub']/li,但循环不起来(只抓取了当前页面,没有点击其他年份和期数)。请问应该怎样做?
举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2016-7-25 22:17

沙发
ym 版主 发表于 2016-6-29 09:46:21 | 只看该作者
本帖最后由 ym 于 2016-6-29 09:50 编辑

连续动作执行失败或不执行,可参见集搜客网络爬虫之连续动作常见错误。简单总结错误情况,有以下几点:

1、连续动作的原理就是模拟人浏览网页数据的操作,所以,连续动作的步骤和顺序要与人的操作顺序一致,注意:部分网页会涉及鼠标悬浮的隐性动作,在自定义xpath准确的情况下,请多测试一下动作步骤及顺序。

2、如果是施加动作后再来翻页,那么就要拆成两级规则执行,第一级规则设置连续动作,第二级规则才是建整理箱抓数据并设置翻页。

3、要在MS谋数台的xpath搜索框中测试一下自定义的xpath是否定位到所有动作施加的节点,注意:动作施加的节点要选择合适的节点,一般不要定位到text()节点,在排除前面原因的情况下,请调整xpath定位再做测试。

4、采集时DS打数机窗口不够大,导致需要点击的网页位置没有显示出来,程序找不到要点击的位置,就会报错,这种情况多见于使用笔记本电脑,因为屏幕太小。解决方法:可以选择“集搜”或者使用“爬虫群”,并最大化DS打数机窗口,确保需要点击的网页位置可见。
举报 使用道具
板凳
keithkang 初级会员 发表于 2016-6-29 09:55:48 | 只看该作者
ym 发表于 2016-6-29 09:46
连续动作执行失败或不执行,可参见集搜客网络爬虫之连续动作常见错误。简单总结错误情况,有以下几点:

1 ...

已排除以上原因,仍然无法循环,抓取完当前页面之后就结束了。能否给一些案例或者帮忙看看我的这个问题?网址是
http://acad.cnki.net/kns55/oldNa ... F%E7%A0%94%E7%A9%B6
举报 使用道具
地板
keithkang 初级会员 发表于 2016-6-29 10:03:13 | 只看该作者
ym 发表于 2016-6-29 09:46
连续动作执行失败或不执行,可参见集搜客网络爬虫之连续动作常见错误。简单总结错误情况,有以下几点:

1 ...

网址是
http://acad.cnki.net/kns55/oldNa ... F%E7%A0%94%E7%A9%B6
举报 使用道具
5#
HJLing 版主 发表于 2016-6-29 10:09:05 | 只看该作者
keithkang 发表于 2016-6-29 10:03
网址是
http://acad.cnki.net/kns55/oldNavi/n_CNKIPub.aspx?naviid=110&BaseID=CJYJ&NaviLink=%E8%B4%A2 ...

你确定你的动作定位表达式没写错吗?你确定那个表达式找到的节点数跟网页上一致吗?
举报 使用道具
6#
keithkang 初级会员 发表于 2016-6-29 10:16:01 | 只看该作者
HJLing 发表于 2016-6-29 10:09
你确定你的动作定位表达式没写错吗?你确定那个表达式找到的节点数跟网页上一致吗? ...

各个节点的xpath表达式分别是
//*[@class='list1 prepub']/li[position()=1]
//*[@class='list1 prepub']/li[position()=2]
//*[@class='list1 prepub']/li[position()=3]
等等
我设置的点击表达式是//*[@class='list1 prepub']/li或者//*[@class='list1 prepub']/li/a
但都没有循环
举报 使用道具
7#
HJLing 版主 发表于 2016-6-29 10:22:39 | 只看该作者
keithkang 发表于 2016-6-29 10:16
各个节点的xpath表达式分别是
//*[@class='list1 prepub']/li
//*[@class='list1 prepub']/li

DS下面报什么错
举报 使用道具
8#
keithkang 初级会员 发表于 2016-6-29 10:34:42 | 只看该作者

DS没有报错,抓取完当前页面就结束。
举报 使用道具
9#
tanyaohua123 中级会员 发表于 2016-7-16 18:32:12 | 只看该作者
我也碰到这样的问题,头都大了也想不明白,楼主最后解决了吗?
举报 使用道具
10#
Fuller 管理员 发表于 2016-7-16 18:51:41 | 只看该作者
tanyaohua123 发表于 2016-7-16 18:32
我也碰到这样的问题,头都大了也想不明白,楼主最后解决了吗?

把规则名帖出来,管理员帮你看看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 02:30