集微库关键词爬取工具爬了5页,DS打数机就空白,不动了。我设置的时间段,恰好可以爬31页。
QQ截图20160718132438.png
QQ截图20160718132504.png
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2016-7-27 21:54

ym 版主 发表于 2016-7-18 16:08:05 | 显示全部楼层
我们的工具没有限制采集的页数,只是微博是有反爬虫机制的,估计是被监测到了,所以翻页到中间就失败了,你可以换个微博账号并且清理浏览器cookies后,再添加一遍采集。
举报 使用道具
liqiuyi 初级会员 发表于 2016-7-18 21:16:58 | 显示全部楼层
ym 发表于 2016-7-18 16:08
我们的工具没有限制采集的页数,只是微博是有反爬虫机制的,估计是被监测到了,所以翻页到中间就失败了,你 ...

我按照大神你说的这么做了,可是效果还是不理想,一般就爬了4,5页,有时就是1页。我反复添加线索,换账号,清cookies。好像不起作用呢。
举报 使用道具
Fuller 管理员 发表于 2016-7-18 21:58:47 | 显示全部楼层
liqiuyi 发表于 2016-7-18 21:16
我按照大神你说的这么做了,可是效果还是不理想,一般就爬了4,5页,有时就是1页。我反复添加线索,换账号 ...

窗口的最下面边线中间有两个小三角,按住以后往上拉,就能看到下面有日志窗口显示出来,看看日志中显示什么内容。

我估计您的网速太慢,或者出现超时日志,或者什么都没有但是因为速度太慢,看不到翻页链接就停下了。

建议把360等安全卫士关闭以后试试,这些软件因为要做实时查杀,速度会变得很慢
举报 使用道具
liqiuyi 初级会员 发表于 2016-7-19 11:33:59 | 显示全部楼层
Fuller 发表于 2016-7-18 21:58
窗口的最下面边线中间有两个小三角,按住以后往上拉,就能看到下面有日志窗口显示出来,看看日志中显示什 ...

今早上,我又试验了一下,就是最好的一次是采了9页,到最后时,就是采了1页就不行了。
举报 使用道具
liqiuyi 初级会员 发表于 2016-7-19 11:35:31 | 显示全部楼层
Fuller 发表于 2016-7-18 21:58
窗口的最下面边线中间有两个小三角,按住以后往上拉,就能看到下面有日志窗口显示出来,看看日志中显示什 ...

还有日志里都是空白什么都没有。每次都是翻页翻到搜索不到查询的关键词微博,就翻页失败。
举报 使用道具
Fuller 管理员 发表于 2016-7-19 11:51:29 | 显示全部楼层
应该是网速太慢,没有显示出来翻页链接就结束了。把杀毒软件关掉试试,或者找个网络环境好的地方
举报 使用道具
ym 版主 发表于 2016-7-19 11:51:46 | 显示全部楼层
liqiuyi 发表于 2016-7-19 11:35
还有日志里都是空白什么都没有。每次都是翻页翻到搜索不到查询的关键词微博,就翻页失败。 ...

说明网速太慢,等很久还没加载上网页就会采集失败了。
举报 使用道具
liqiuyi 初级会员 发表于 2016-7-19 17:10:30 | 显示全部楼层
ym 发表于 2016-7-19 11:51
说明网速太慢,等很久还没加载上网页就会采集失败了。

网速不慢呀!我打开其他的网页时,都挺快的。就是一但浏览微博,就感觉微博翻页比较慢,有时,我自己浏览器上点击微博翻页,也会出现翻页失败的情况,但是其他网页都正常啊!
举报 使用道具
Fuller 管理员 发表于 2016-7-20 08:51:13 | 显示全部楼层
liqiuyi 发表于 2016-7-19 17:10
网速不慢呀!我打开其他的网页时,都挺快的。就是一但浏览微博,就感觉微博翻页比较慢,有时,我自己浏览 ...

可以避开微博慢的时间段,找空闲的时间段,比如,晚上11点以后到早晨9点之间会比较空闲
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 09:08