求问大神我用连续动作抓取微博评论,设置两层规则
第一层规则设置了连续动作   主题名:于欢评论5
第二层规则为抓取评论  主题名:于欢评论55

我设置重复连续动作为6次,但是只进行了一次就结束了。
日志显示的错误是,后面五次都是:无法定位到节点:步骤一(编号从1开始)

我之前用相同的规则抓取了几百条或者几千条评论的微博,都没有出现这样的问题,基本都展开了6次,但是抓取三个几万条的微博,就出现了不同次数的连续点击,大概只有三次,一次,五次,而且那个这个一次重新抓取了好几次,都是只展开一次。
另外,在打数机运行过程中,没有出现评论消失的情况,都是正常页面,只是不再点击展开更多。
求大神指点,万分感激。

举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-10-26 17:19

沙发
Fuller 管理员 发表于 2017-10-7 12:13:27 | 只看该作者
有几万个的微博网址是什么?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-10-7 12:14:39 | 只看该作者
这个规则加载失败,似乎网页上没有“点击更多”
举报 使用道具
地板
Fuller 管理员 发表于 2017-10-7 12:20:33 | 只看该作者
Fuller 发表于 2017-10-7 12:14
这个规则加载失败,似乎网页上没有“点击更多”

第二级规则,没有设置关键内容,这样很容易抓漏。另外,似乎你设置的样例复制有问题,加载失效。

原来你是用点击动作实现类似于翻页的功能。

一定要把动作后的额外延时设置长一些,微博很慢的。另外,注意国庆假后要发布一个新版本,8.3.1,能防止出现加载很多以后造成内存耗完
举报 使用道具
5#
Fuller 管理员 发表于 2017-10-7 16:43:17 | 只看该作者
用一个规则就够了,点击动作的目标主题还是当前主题,因为网页结构没有改变
举报 使用道具
6#
Fuller 管理员 发表于 2017-10-7 17:08:26 | 只看该作者
我又测试了几遍。要注意一个关键点:

DS打数机屏幕要尽量大,因为用连续点击动作,动作完成以后再也不滚屏,那么,没有滚屏的话,很可能“加载更多”没有显示全,那么点击动作就会出现没有点击到的提示。

另外,点击动作的定位xpath不对,应该是
  1. //*[@class='more_txt']
复制代码

否则到下一页就失效了。
举报 使用道具
7#
杨帆fancy 新手上路 发表于 2017-10-7 18:15:43 | 只看该作者
啊太感动了,你回复的好详细,我重新改了一下xpath,现在可以了。可是为什么我之前用这一个定位xpath 搜索找不DOM节点,然后再加上往上找一级的(就是你看到的我的)搜索就能找到那一个DOM节点,而且我这样写,之前都能点开相应的次数......
我还有两个问题,麻烦大神帮我解惑
1、为什么每次想要重新修改一下已经编辑好的规则,内容定位和样例复制经常就没有了,需要重新设立或者出错了呢?
2、咱们这个网站用台式机是打不开微博评论下的互动吗?想要做样例复制,一点击开就收缩回去了,完全不显示,导致没办法用台式机(屏幕大啊)抓取评论下面的互动?心塞.......

坐等大神回复
举报 使用道具
8#
Fuller 管理员 发表于 2017-10-7 21:44:58 | 只看该作者
杨帆fancy 发表于 2017-10-7 18:15
啊太感动了,你回复的好详细,我重新改了一下xpath,现在可以了。可是为什么我之前用这一个定位xpath 搜索 ...

加载规则就出现定位失败的最主要原因是没有做定位标志映射,定位标志映射可以精确地划定范围,如果不用定位标志映射,爬虫会自动找定位标志,有时候找的不合适,比如,网页上有相同的class值,经常会造成混淆

网页上有很多动态的内容,比如悬浮出来的内容,也有点击出来的内容。把他们先是出来以后,不要动鼠标,按alt键,就会选中 规则 菜单,按向下箭头键,选择菜单 冻结页面。这样就能冻结住,就可以移动鼠标了,下一个操作是选择 刷新页面结构 菜单,DOM就能反映出来最新的动态内容
举报 使用道具
9#
chengyiling 初级会员 发表于 2017-10-25 20:30:22 | 只看该作者
Fuller 发表于 2017-10-7 21:44
加载规则就出现定位失败的最主要原因是没有做定位标志映射,定位标志映射可以精确地划定范围,如果不用定 ...

您好,我也想抓取评论下方的回复,请问怎么设置连续点击动作的xpath呢,十分感谢
举报 使用道具
10#
Fuller 管理员 发表于 2017-10-25 22:23:36 | 只看该作者
杨帆fancy 发表于 2017-10-7 18:15
啊太感动了,你回复的好详细,我重新改了一下xpath,现在可以了。可是为什么我之前用这一个定位xpath 搜索 ...

加载规则定位丢失是映射的不合适,最好用上定位标志映射。但是有些定位标志(class)有太多相同内容了,也可能不适合定位。这都需要调试。

收缩回去是指哪里?可以截个图看看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 18:42