我使用的是VIP账号。每天都要定时采集,发现问题如下:
1.有线索,爬虫不抓取数据;
表现一:每天已经定时激活线索,爬虫已开启(24小时不关闭),但爬虫不抓取数据,昨天管理员说是后台升级算法的原因,今天看爬虫已经干活。
表现二:有线索,爬虫抓取数据到一半时,又是等待,我看到的现象是300多条线索,抓取成功100多条后,爬虫等待,是不是后台又升级算法了,重启集搜客客户端又可以了。

2.下载图片时间很长;
下载图片或下载pdf文件时,在临时文件夹tempimg中生成相应文件夹下载文件,但下载的文件不是很大,下载一直没有完成。
表现为,移动文件夹,系统提示该下载的图片被另一个程序占用,关闭集搜客客户端,就可以移动了,但图片文件肯定是不完整的,打不开。
如果出现下载异常,或者网络原因导致下载失败,应该有个处理,不要长时间占用文件。

3.黑屏问题;
这个问题在win7+GTX750或GTX750TI显卡上出现,原来问过,可能是跟显卡冲突导致,不知道现在解决没有,最新版本还未测试。
开启的爬虫数量多一些,抓取的线索多一些,运行一段时间后,出现黑屏问题,只能重启计算机,更新过显卡驱动到最新版本,依然会出现。

以上问题,主要影响我不能每天按时、连续采集数据、使用数据文件,希望能尽快解决。
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-11-8 12:39

shenzhenwan10 金牌会员 发表于 2017-11-8 10:37:43 | 显示全部楼层
本帖最后由 shenzhenwan10 于 2017-11-8 10:38 编辑

感谢您的及时反馈, 您反应的几个问题, 目前的状态如下:
1. 定时激活线索后不爬取的问题: 已经于昨天中午修复. 发生的原因是周日升级调度扫描模块, 定时激活线索后在新算法下需要置一个状态位, 调度才会生效.
2. 有线索, 但是有时不工作, 重启爬虫后正常: 这个问题我们猜测是某种条件下sessionid失效造成的, 但是目前在测试环境没能模拟出这个问题. 研发会继续跟进. 同时我们也会优化服务器, 在未彻底解决这个问题的情况下最大限度的减少问题的发生
3. 图片下载时长时间占用tempimg问题: 能否提供发生问题的网址, 我们做进一步测试. 目前尚未确定是不是程序存在bug
4. 显卡冲突问题: 由于爬虫是操作系统和火狐浏览器之上的应用, 偏底层的显卡兼容问题比较依赖应用环境, 目前的小版本升级解决不了这个问题, 需要在大版本升级时解决


举报 使用道具
Fuller 管理员 发表于 2017-11-8 10:48:34 | 显示全部楼层
我也用GTX750,没有出现过黑屏,你设置的分辨率是多少?当爬虫黑屏以后,其他程序窗口正常显示吗?
举报 使用道具
Fuller 管理员 发表于 2017-11-8 10:50:21 | 显示全部楼层
你同时运行的爬虫窗口有多少个?出现黑屏是窗口区域变成黑色?还是出现提示框说程序已停止运行?

最好能截个图看看,我们测试一下。

你在采集什么网站?以下载图片为主吗?
举报 使用道具
dfhs_data 高级会员 发表于 2017-11-8 11:16:10 | 显示全部楼层
Fuller 发表于 2017-11-8 10:50
你同时运行的爬虫窗口有多少个?出现黑屏是窗口区域变成黑色?还是出现提示框说程序已停止运行?

最好能截 ...

1.目前是10个,期望到16个爬虫。
2.出现黑屏是整个屏幕黑屏,集搜客程序还在运行,在另外一台计算机上,登录账号,可以看到线索变化。
3.抓取的网站是国外的,你可以去我账号里看规则中的链接
举报 使用道具
dfhs_data 高级会员 发表于 2017-11-8 11:20:07 | 显示全部楼层
shenzhenwan10 发表于 2017-11-8 10:37
感谢您的及时反馈, 您反应的几个问题, 目前的状态如下:
1. 定时激活线索后不爬取的问题: 已经于昨天中午修 ...

好的,
图片下载,等再次发现时,我在这个帖子中回复你,我当时没保留;

黑屏问题,我也觉得是跟体统环境有问题,目前我也没摸索个思路来;
举报 使用道具
dfhs_data 高级会员 发表于 2017-11-8 11:21:11 | 显示全部楼层
Fuller 发表于 2017-11-8 10:48
我也用GTX750,没有出现过黑屏,你设置的分辨率是多少?当爬虫黑屏以后,其他程序窗口正常显示吗? ...

分辨率是1920x1080
举报 使用道具
Fuller 管理员 发表于 2017-11-8 12:39:15 | 显示全部楼层
dfhs_data 发表于 2017-11-8 11:16
1.目前是10个,期望到16个爬虫。
2.出现黑屏是整个屏幕黑屏,集搜客程序还在运行,在另外一台计算机上, ...

目前集搜客爬虫的Win版是32位程序,如果还在下载图片,更不能开太多窗口,肯定要10个以内。如果你的电脑配置特别高。那么就要运行多个爬虫进程。每个进程运行7-8个窗口。

运行多个进程的最简单的方法是用多个Windows账号,逐个登录到不同的Windows账号下,启动爬虫,然后切换账号,也启动爬虫。

在同一个Windows账号下不行,因为只有一个配置文件,即使启动多次爬虫程序,他们其实还是同一个进程。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:58