hanagosan 初级会员 发表于 2018-7-25 17:06:49 | 显示全部楼层
Fuller 发表于 2018-7-25 16:32
在“爬虫路线”那里,翻页的那个目标主题名不对,现在还是atobo,应该是 工会详情
...

@Fuller 另外,导出数据的时候遇到问题,压缩包数据很小,而且解压缩后的文件异常,无法打开
导出数据问题.png
举报 使用道具
Fuller 管理员 发表于 2018-7-25 17:22:19 | 显示全部楼层
hanagosan 发表于 2018-7-25 16:44
@Fuller 大神,现在第一级规则还是没抓全,翻页到50页后停止了,总共是有85页,帮忙看看 ...

我刚才测试了,也是只到50页,结果文件记录的网址是:https://www.atobo.com.cn/Companys/s-p8-s115-k32454-y50
看来这个网址中含有页码信息 y50

我加载了这个网址,看到“下一页”已经变灰了。我手工编写这样一个网址 https://www.atobo.com.cn/Companys/s-p8-s115-k32454-y55,希望翻到55页,其实看到的内容还是50页的,看来这个网站不允许往下看了。

那样就无法采集50页以后的了
举报 使用道具
Fuller 管理员 发表于 2018-7-25 17:22:54 | 显示全部楼层
hanagosan 发表于 2018-7-25 17:06
@Fuller 另外,导出数据的时候遇到问题,压缩包数据很小,而且解压缩后的文件异常,无法打开
...

这个压缩包好奇怪,用什么压缩的?
举报 使用道具
hanagosan 初级会员 发表于 2018-7-25 17:28:31 | 显示全部楼层
Fuller 发表于 2018-7-25 17:22
这个压缩包好奇怪,用什么压缩的?

用mac os 自带的压缩工具。

刚才测试二级规则,抓到300页后,网页告知我操作频繁,被限制2小时后再试,抓取超时,这个怎么破?
举报 使用道具
Fuller 管理员 发表于 2018-7-25 18:00:27 | 显示全部楼层
hanagosan 发表于 2018-7-25 17:28
用mac os 自带的压缩工具。

刚才测试二级规则,抓到300页后,网页告知我操作频繁,被限制2小时后再试, ...

mac os也可以压缩成zip格式。如果要把抓取结果入库,只能压缩成zip格式。

如果被封锁了,这些操作都执行一下:
1,如果是拨号的光纤上网,把猫重启一下,就会换IP
2,在集搜客浏览器右上角有个齿轮状图标,点击后,能看到弹出窗中有“清楚历史”,重点是清除cookie
3,有些情况下,换一下useragent也有效,也是在那个弹出窗口中,选择UserAgent,把前面3个pc浏览器的user agent分别换上

最后,重启爬虫
举报 使用道具
hanagosan 初级会员 发表于 2018-7-26 14:55:15 | 显示全部楼层
Fuller 发表于 2018-7-25 18:00
mac os也可以压缩成zip格式。如果要把抓取结果入库,只能压缩成zip格式。

如果被封锁了,这些操作都执行 ...

@Fuller 大神,还得请你帮忙! 我昨天到今天测试 导入导出数据,均出现问题---导出数据均只有5k,而且压缩包不能正常解压缩,估计是数据不对。
现在我把用mac os 自带压缩工具压缩的文件 放到附件里,使用规则是“工会详情2”

请帮忙看看是哪里出现了问题。多谢!

Archive.zip

608.62 KB, 下载次数: 1

举报 使用道具
Fuller 管理员 发表于 2018-7-26 18:25:22 | 显示全部楼层
hanagosan 发表于 2018-7-26 14:55
@Fuller 大神,还得请你帮忙! 我昨天到今天测试 导入导出数据,均出现问题---导出数据均只有5k,而且压 ...

我看你发出来的附件内容是正确的,导入以后导出就没有数据?
举报 使用道具
Fuller 管理员 发表于 2018-7-26 18:29:22 | 显示全部楼层
hanagosan 发表于 2018-7-26 14:55
@Fuller 大神,还得请你帮忙! 我昨天到今天测试 导入导出数据,均出现问题---导出数据均只有5k,而且压 ...

我查了后台,看到你今天入库的都成功了,7月12日倒是失败了一次,因为压缩文件中含有Mac的控制文件。你现在还导出不了?要不要我帮你导出试试?
举报 使用道具
Fuller 管理员 发表于 2018-7-26 18:56:07 | 显示全部楼层
我们从后台查到你的导出是成功的,可能下载出了问题,你可以重新下载,不扣积分的。
重新下载20180726185318.png

在这里下载。

另外,你下载的时候,用什么浏览器?是用集搜客浏览器吗?也可能是集搜客浏览器的下载功能不稳定,换个浏览器试试。还有就是访问的集搜客网站是 https还是http?https会稳定一些
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 21:29