本帖最后由 wangyong 于 2017-9-1 19:22 编辑

规则名:戴尔主题内容
  如测试结果所显示,底下的评论人及评论时间无法采集到
本以为是加载问题,已多次调整过延迟、超时、滚屏速度等参数,但都没有成功,打数机日志中显示已抓取成功,但需提高抓取速度,所以个人感觉应该不再上加载问题,希望各位大神帮忙解决一下。
登录网址:   http://www.ideastorm.com/   
采集样本网址:http://www.ideastorm.com/ideaView?id=0877000000006i6AAA
需先登录才能打开采集样本网址,可能会出现无法登录的情况,需多登陆几次。

LYS1I5CD4RM_EO6Q5_}DM0C.jpg (88.02 KB, 下载次数: 716)

LYS1I5CD4RM_EO6Q5_}DM0C.jpg
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2017-9-1 17:51

沙发
bowieD 金牌会员 发表于 2017-9-1 09:42:32 | 只看该作者
可以采到啊,点测试显示没问题,我采集的时候都能采到,你的延迟,超时和滚屏都设置成多少?应该是你的参数设置有问题

210.jpg (93.29 KB, 下载次数: 907)

210.jpg
举报 使用道具
板凳
shengchengx 金牌会员 发表于 2017-9-1 09:47:00 | 只看该作者
评论人和评论时间加上关键内容试试,延迟和滚屏都打开。
举报 使用道具
地板
axu517 中级会员 发表于 2017-9-1 09:52:06 | 只看该作者
shengchengx 发表于 2017-9-1 09:47
评论人和评论时间加上关键内容试试,延迟和滚屏都打开。

勾选关键内容会出现匹配失败  延迟跟滚屏都已经打开了的

举报 使用道具
5#
shengchengx 金牌会员 发表于 2017-9-1 10:00:35 | 只看该作者
axu517 发表于 2017-9-1 09:52
勾选关键内容会出现匹配失败  延迟跟滚屏都已经打开了的

匹配失败要么规则有问题,要么就是超时时长设置的有问题。
你这边如果不勾选关键内容的话,在打数机上面采集的时候,网页还没加载完成,然后就开始采集,因为没有关键内容,即使数据没有抓取完全,也会提示采集成功的。
规则抓取的时候你看下打数机上面,是不是因为网页没有加载完就开始抓取了。

举报 使用道具
6#
bowieD 金牌会员 发表于 2017-9-1 10:03:02 | 只看该作者
我运行你的规则是没有问题的,数据也全部抓下来了,勾选一个关键内容。
举报 使用道具
7#
axu517 中级会员 发表于 2017-9-1 10:33:28 | 只看该作者
bowieD 发表于 2017-9-1 10:03
我运行你的规则是没有问题的,数据也全部抓下来了,勾选一个关键内容。

把评论人跟评论时间勾选上吗? 可是我这边会抓取失败

举报 使用道具
8#
bowieD 金牌会员 发表于 2017-9-1 10:34:29 | 只看该作者
随便勾选一个,我勾选的用户名
举报 使用道具
9#
axu517 中级会员 发表于 2017-9-1 12:48:57 | 只看该作者
bowieD 发表于 2017-9-1 10:34
随便勾选一个,我勾选的用户名

我试了好多次 都不行啊。。。

举报 使用道具
10#
axu517 中级会员 发表于 2017-9-1 13:04:38 | 只看该作者
shengchengx 发表于 2017-9-1 10:00
匹配失败要么规则有问题,要么就是超时时长设置的有问题。
你这边如果不勾选关键内容的话,在打数机上面采 ...

网页是完全加载到底部的     我不知道是不是我参数设置问题,但是我都已经设置很大了 还是不行

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 17:12