11#
Fuller 管理员 发表于 2016-3-16 23:02:13 | 只看该作者
goalkeeperhouse 发表于 2016-3-16 22:51
直接不能抓取。。。没有结果文件。。。

抓取失败的原因可能是:

1,微博登录了吗?
2,这个规则是用来抓##微博话题的,你添加的线索网址是否合适?
3,DS打数机的设置参数是否合适?其他参数都不动,只需打开滚屏,在配置-〉滚屏参数中,设置额外滚屏数量为2(不是0就是打开滚屏)

你把网址发一个出来看看
还有一个截图,抓取失败后,DS打数机下部有日志,截个图看看
举报 使用道具
12#
Fuller 管理员 发表于 2016-3-16 23:03:17 | 只看该作者
要发截图的话,发到这里:http://www.gooseeker.com/doc/thread-208-1-1.html
举报 使用道具
13#
goalkeeperhouse 初级会员 发表于 2016-3-17 16:35:53 | 只看该作者
我的微博登录了,线索后来也改过,也试过不同的参数。
举报 使用道具
14#
goalkeeperhouse 初级会员 发表于 2016-3-17 16:36:52 | 只看该作者
然后每次失败出现的说明都是一样的。。。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
15#
Fuller 管理员 发表于 2016-3-17 17:08:16 | 只看该作者
goalkeeperhouse 发表于 2016-3-17 16:36
然后每次失败出现的说明都是一样的。。。

把这个话题的网址发给我,我测试一下。我自己找了一些话题,没有问题,只是话题的跟帖太多的话,有很多分页,会中断掉,那么就对网络带宽要求比较高,比如,4M以上的ADSL线路
举报 使用道具
16#
Fuller 管理员 发表于 2016-3-17 17:09:51 | 只看该作者
另外,DS打数机窗口要放到最大,可以观察一下抓取过程,在DS的浏览器中是否加载了网页内容?能否看到滚屏,就是右边的滚动条能自动往下滚
举报 使用道具
17#
goalkeeperhouse 初级会员 发表于 2016-3-17 17:26:24 | 只看该作者
Fuller 发表于 2016-3-17 17:09
另外,DS打数机窗口要放到最大,可以观察一下抓取过程,在DS的浏览器中是否加载了网页内容?能否看到滚屏, ...

有的时候网页内容停止加载了。。。是网速的问题吗?
举报 使用道具
18#
Fuller 管理员 发表于 2016-3-17 17:36:01 | 只看该作者
goalkeeperhouse 发表于 2016-3-17 17:26
有的时候网页内容停止加载了。。。是网速的问题吗?

网速很关键,还有一个:DS所用的这个火狐不要安装别的插件,插件会很影响速度。如果从gooseeker.com 下载的 “一站下载”,那个火狐是最简单的,最快。

在DS加载网页过程中,你觉得有停顿那里,可以截个图给我看看。

如果你是手工启动爬虫的,那么所在的爬虫窗口叫管理窗口,配置菜单里面的浏览器参数配置千万要选上“加载js”,浏览器如果不运行js,微博的网页内容是加载不全的
举报 使用道具
19#
18765819353 初级会员 发表于 2016-9-22 21:52:11 | 只看该作者
为什么跳不到下一页就超时了
举报 使用道具
20#
Fuller 管理员 发表于 2016-9-22 22:02:05 | 只看该作者
18765819353 发表于 2016-9-22 21:52
为什么跳不到下一页就超时了

请检查如下几项
1)微博登录了吗?
2)DS打数机上是否设置了滚屏参数,要打开滚屏的
3)DS打数机窗口是否最大化显示?
4)不要修改DS打数机的超时时间
如果问题解决不了,明天上班时间由技术人员协助检查原因
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 09:19