编辑了一个连续动作,但是在抓取的时候总是提示超时问题,查了帖子多是说主题词没有定位,但是尝试了好多次,都没有成功。楼主能帮忙看看嘛。
连续动作: incheonpre
规则: incheonpost
谢谢!
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-4-11 09:14

沙发
Fuller 管理员 发表于 2017-4-10 09:33:38 | 只看该作者
如果定位不到,在DS打数机的日志窗口(下部,如果收缩了,点击下边沿能够展开)会有明确的提示,如果是超时,一般是整理箱映射的不对,跟动作无关。我看看规则
举报 使用道具
板凳
Fuller 管理员 发表于 2017-4-10 09:45:33 | 只看该作者
问题找到了,第二级的样本页面选择不对,你用了so2,的,实际抓的是PM2.5的
举报 使用道具
地板
toby3003 初级会员 发表于 2017-4-10 09:49:49 | 只看该作者
Fuller 发表于 2017-4-10 09:45
问题找到了,第二级的样本页面选择不对,你用了so2,的,实际抓的是PM2.5的

您能再看看嘛,我选择的是PM2.5,而且在连续动作5的时候设置了8秒的等待。样本页面里面so2和pm2.5是一个页面的。之前一天我抓取pm10的时候成功了,今天就搞不定了。谢谢您
举报 使用道具
5#
toby3003 初级会员 发表于 2017-4-10 09:51:09 | 只看该作者
toby3003 发表于 2017-4-10 09:49
您能再看看嘛,我选择的是PM2.5,而且在连续动作5的时候设置了8秒的等待。样本页面里面so2和pm2.5是一个 ...

这个是我的截图,谢谢

QQ图片20170409215457.png (150.27 KB, 下载次数: 851)

QQ图片20170409215457.png
举报 使用道具
6#
toby3003 初级会员 发表于 2017-4-10 09:55:32 | 只看该作者
toby3003 发表于 2017-4-10 09:49
您能再看看嘛,我选择的是PM2.5,而且在连续动作5的时候设置了8秒的等待。样本页面里面so2和pm2.5是一个 ...

虽然我也看不懂韩文,但是so2和pm2.5页面的选择,就是靠下面的选项来选择的。
怎么来判断对方的网站把我的ip封了呢?
谢谢
举报 使用道具
7#
Fuller 管理员 发表于 2017-4-10 13:44:54 | 只看该作者
toby3003 发表于 2017-4-10 09:55
虽然我也看不懂韩文,但是so2和pm2.5页面的选择,就是靠下面的选项来选择的。
怎么来判断对方的网站把我 ...

刚才我去开会了,但是一上午爬虫都开着,在爬这个网站,刚才我看到浏览器上显示连接被中断,估计是被对方封锁了。我再试一下
举报 使用道具
8#
Fuller 管理员 发表于 2017-4-10 13:48:00 | 只看该作者
你的第一个动作,就是选择那种内容,比如,so2,co,等等,你在高级设置里面竟然把起点定位6,为什么?这样第一次操作就直接跳到了PM-2.5
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-10 13:53:01 | 只看该作者
第一步你直接跳到第6个,就是 PM-2.5,那么我认为你只想采集PM-2.5

如果我理解的没错的话,那么你做第二级规则的时候,就不应该针对co2做规则,而是应该这样的步骤
1,在GS浏览器上加载网页
2,选择类型,跳到PM-2.5
3,选择日期,设置成你想开始的某个日期(可能这一步没有必要,因为每一天的结构应该一样)
4,开始定义第二级规则
举报 使用道具
10#
toby3003 初级会员 发表于 2017-4-10 21:40:46 | 只看该作者
Fuller 发表于 2017-4-10 13:53
第一步你直接跳到第6个,就是 PM-2.5,那么我认为你只想采集PM-2.5

如果我理解的没错的话,那么你做第二级 ...

你好,十分感谢你的回复,我今天又用PM2.5那个页面制作了规则,现在就能够抓取了。
开始我认为SO2和PM2.5都是一个选项卡下面的结构应该一致的,所以就用SO2的页面制作了规则。

我想请问一下,我怎么能够加快抓取的速度呢? 集搜可以么? 因为我要抓取2005-2015年的数据,需要连续动作来选择日期。我试了集搜好像是抓取一样的数据。
请您给点建议,谢谢。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 09:14