本帖最后由 saly123 于 2018-12-22 09:52 编辑

为什么网页里面的数据还没有全都抓完,剩余线索那边就显示0 FIN?而且去存储数据的路径下面看,也没有XML文件。注:抓网页设置规则的时候用到了连续动作


举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2018-12-25 20:59

沙发
Fuller 管理员 发表于 2018-12-22 12:23:26 | 只看该作者
请作这些检查:
1,连续动作的目标主题名填写以后,一定要为这个主题定义一个规则
2,抓取内容的整理箱中有没有设置关键内容?没有关键内容就容易抓成空的
3,DS打数机最底下中间边沿按住往上拉,就能看到日志,有什么提示?
举报 使用道具
板凳
saly123 中级会员 发表于 2018-12-24 10:36:26 | 只看该作者
Fuller 发表于 2018-12-22 12:23
请作这些检查:
1,连续动作的目标主题名填写以后,一定要为这个主题定义一个规则
2,抓取内容的整理箱中有 ...

你说的那三点我都检查了一下
1.连续动作目标主题已经定义规则
2. 将所有的抓取内容都设为了关键内容
3. 打数机中的日志只有warn,提示爬虫参数可以优化,但是并没有出现error!
但是还是没抓完就显示FIN了,要不我把规则名给你,你帮我查下?谢谢!
主题名:JD_huawei20

举报 使用道具
地板
Fuller 管理员 发表于 2018-12-24 11:47:06 | 只看该作者
saly123 发表于 2018-12-24 10:36
你说的那三点我都检查了一下
1.连续动作目标主题已经定义规则
2. 将所有的抓取内容都设为了关键内容

你是想抓取京东评论,但是你的网址是详情页,其实有点差别,要爬虫自动滚屏,滚动到评论那里才有内容显示出来,才能正确抓取。不太好控制,所以,通常我们这样做:
在详情页上点击“商品评价”,才能显示出来评价列表。也就是说要做两级规则,第一级负责点击到第二级

做这个点击动作很容易,跟翻页抓取道理是一样的,翻页是“下一页”作为标志,这里是“商品评价”作为标志,参看:https://www.gooseeker.com/doc/article-437-1.html
举报 使用道具
5#
saly123 中级会员 发表于 2018-12-24 16:02:09 | 只看该作者
Fuller 发表于 2018-12-24 11:47
你是想抓取京东评论,但是你的网址是详情页,其实有点差别,要爬虫自动滚屏,滚动到评论那里才有内容显示 ...

但是评论的前95页的内容按照我的那个规则都是可以抓下来的,从第96页开始就抓不下来了,显示FIN,这是为什么??
举报 使用道具
6#
Fuller 管理员 发表于 2018-12-24 16:32:19 | 只看该作者
saly123 发表于 2018-12-24 16:02
但是评论的前95页的内容按照我的那个规则都是可以抓下来的,从第96页开始就抓不下来了,显示FIN,这是为 ...

DS打数机窗口下边沿中部,按住往上拉,就能打开日志窗口,看看里面有没有错误提示?

如果没有下一页了,就会正常停止,就不会有提示,如果是网页出现了结构变化,会提示错误原因
举报 使用道具
7#
saly123 中级会员 发表于 2018-12-24 20:18:14 | 只看该作者
Fuller 发表于 2018-12-24 16:32
DS打数机窗口下边沿中部,按住往上拉,就能打开日志窗口,看看里面有没有错误提示?

如果没有下一页了, ...

我手动的查看网页的时候发现96页往后也是有内容的,而且评论都是不一样的,但是日志里面显示出现重复内容的warn,而不是error,请问是哪里出了问题?
举报 使用道具
8#
Fuller 管理员 发表于 2018-12-24 20:50:23 | 只看该作者
saly123 发表于 2018-12-24 20:18
我手动的查看网页的时候发现96页往后也是有内容的,而且评论都是不一样的,但是日志里面显示出现重复内容 ...

看起来是爬虫点击以后,网页内容没有刷新,就判断为重复内容了。

需要观察爬虫运行过程,到了96页时,观察DS打数机的浏览器窗口,看看在DS打数机中,内容有没有刷新
举报 使用道具
9#
saly123 中级会员 发表于 2018-12-24 21:04:47 | 只看该作者
Fuller 发表于 2018-12-24 20:50
看起来是爬虫点击以后,网页内容没有刷新,就判断为重复内容了。

需要观察爬虫运行过程,到了96页时,观 ...

我看了,DS打数机在从第95页转到第96页的时候,确实是跳转到了第96页的内容,但是没有停留太长的时间,一闪而过,然后就FIN了,请问是什么为什么?会是因为网页的流量有限制吗?
举报 使用道具
10#
Fuller 管理员 发表于 2018-12-25 08:45:48 | 只看该作者
saly123 发表于 2018-12-24 21:04
我看了,DS打数机在从第95页转到第96页的时候,确实是跳转到了第96页的内容,但是没有停留太长的时间,一 ...

在MS谋数台上把规则加载好,然后不要“内容定位”(在工具条的中间),就可以点击翻页了,一直翻页到96页,用菜单分析页面,过程是:
1,菜单 规则-》刷新页面结构
2,菜单 规则-》分析页面
看看爬虫路线里面的翻页规则能否分析出来。很可能到这一页上,下一页的标志和位置就变了,爬虫点击不到就以为结束了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 19:57