11#
hanagosan 初级会员 发表于 2018-7-25 17:06:49 | 只看该作者
Fuller 发表于 2018-7-25 16:32
在“爬虫路线”那里,翻页的那个目标主题名不对,现在还是atobo,应该是 工会详情
...

@Fuller 另外,导出数据的时候遇到问题,压缩包数据很小,而且解压缩后的文件异常,无法打开

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
Fuller 管理员 发表于 2018-7-25 17:22:19 | 只看该作者
hanagosan 发表于 2018-7-25 16:44
@Fuller 大神,现在第一级规则还是没抓全,翻页到50页后停止了,总共是有85页,帮忙看看 ...

我刚才测试了,也是只到50页,结果文件记录的网址是:https://www.atobo.com.cn/Companys/s-p8-s115-k32454-y50
看来这个网址中含有页码信息 y50

我加载了这个网址,看到“下一页”已经变灰了。我手工编写这样一个网址 https://www.atobo.com.cn/Companys/s-p8-s115-k32454-y55,希望翻到55页,其实看到的内容还是50页的,看来这个网站不允许往下看了。

那样就无法采集50页以后的了
举报 使用道具
13#
Fuller 管理员 发表于 2018-7-25 17:22:54 | 只看该作者
hanagosan 发表于 2018-7-25 17:06
@Fuller 另外,导出数据的时候遇到问题,压缩包数据很小,而且解压缩后的文件异常,无法打开
...

这个压缩包好奇怪,用什么压缩的?
举报 使用道具
14#
hanagosan 初级会员 发表于 2018-7-25 17:28:31 | 只看该作者
Fuller 发表于 2018-7-25 17:22
这个压缩包好奇怪,用什么压缩的?

用mac os 自带的压缩工具。

刚才测试二级规则,抓到300页后,网页告知我操作频繁,被限制2小时后再试,抓取超时,这个怎么破?
举报 使用道具
15#
Fuller 管理员 发表于 2018-7-25 18:00:27 | 只看该作者
hanagosan 发表于 2018-7-25 17:28
用mac os 自带的压缩工具。

刚才测试二级规则,抓到300页后,网页告知我操作频繁,被限制2小时后再试, ...

mac os也可以压缩成zip格式。如果要把抓取结果入库,只能压缩成zip格式。

如果被封锁了,这些操作都执行一下:
1,如果是拨号的光纤上网,把猫重启一下,就会换IP
2,在集搜客浏览器右上角有个齿轮状图标,点击后,能看到弹出窗中有“清楚历史”,重点是清除cookie
3,有些情况下,换一下useragent也有效,也是在那个弹出窗口中,选择UserAgent,把前面3个pc浏览器的user agent分别换上

最后,重启爬虫
举报 使用道具
16#
hanagosan 初级会员 发表于 2018-7-26 14:55:15 | 只看该作者
Fuller 发表于 2018-7-25 18:00
mac os也可以压缩成zip格式。如果要把抓取结果入库,只能压缩成zip格式。

如果被封锁了,这些操作都执行 ...

@Fuller 大神,还得请你帮忙! 我昨天到今天测试 导入导出数据,均出现问题---导出数据均只有5k,而且压缩包不能正常解压缩,估计是数据不对。
现在我把用mac os 自带压缩工具压缩的文件 放到附件里,使用规则是“工会详情2”

请帮忙看看是哪里出现了问题。多谢!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
17#
Fuller 管理员 发表于 2018-7-26 18:25:22 | 只看该作者
hanagosan 发表于 2018-7-26 14:55
@Fuller 大神,还得请你帮忙! 我昨天到今天测试 导入导出数据,均出现问题---导出数据均只有5k,而且压 ...

我看你发出来的附件内容是正确的,导入以后导出就没有数据?
举报 使用道具
18#
Fuller 管理员 发表于 2018-7-26 18:29:22 | 只看该作者
hanagosan 发表于 2018-7-26 14:55
@Fuller 大神,还得请你帮忙! 我昨天到今天测试 导入导出数据,均出现问题---导出数据均只有5k,而且压 ...

我查了后台,看到你今天入库的都成功了,7月12日倒是失败了一次,因为压缩文件中含有Mac的控制文件。你现在还导出不了?要不要我帮你导出试试?
举报 使用道具
19#
Fuller 管理员 发表于 2018-7-26 18:56:07 | 只看该作者
我们从后台查到你的导出是成功的,可能下载出了问题,你可以重新下载,不扣积分的。


在这里下载。

另外,你下载的时候,用什么浏览器?是用集搜客浏览器吗?也可能是集搜客浏览器的下载功能不稳定,换个浏览器试试。还有就是访问的集搜客网站是 https还是http?https会稳定一些

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-21 22:08