抓取的网址是:http://d.weibo.com/102803?feed_s ... _Core_NewMixFeed__3
1)我先用翻页设置了,但是用记号线索/定点线索设置的翻页虽然可以加载出来后面的内容,但那一瞬间直接就抓取完毕了,不继续向下滚屏抓取。 s01.png
2)我第二个想用连续动作的“点击”方法来加载内容,然后继续抓取,但是点击后就状态栏又提示完成,退出。    请问微博热门榜的这个加载更多要怎么处理才能抓取到全部内容?
s02.png


举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-5-18 19:23

kkkingwing 金牌会员 发表于 2017-5-18 16:44:18 | 显示全部楼层
在“加载更多”之前的内容可以抓取成功,就是要点击后加载的内容我抓取失败了。
举报 使用道具
kkkingwing 金牌会员 发表于 2017-5-18 16:54:19 | 显示全部楼层
主题名是:小时榜
举报 使用道具
ym 版主 发表于 2017-5-18 17:37:34 | 显示全部楼层
这种类似瀑布流的网页结构,能加载到多少就抓到多少,因为网页加载是受到网速、服务器响应的双重制约,无法保证能抓到全部
举报 使用道具
ym 版主 发表于 2017-5-18 17:40:49 | 显示全部楼层
你可以尽量延迟抓取时间,给足够的时间进行网页加载,尽可能加载出更多信息,才能采集到更多。
方法是:
1、增加延迟抓取时间
2、放慢滚屏速度,把滚屏次数调到大于10以上,滚屏速度改为-1
举报 使用道具
kkkingwing 金牌会员 发表于 2017-5-18 17:52:37 | 显示全部楼层
ym 发表于 2017-5-18 17:40
你可以尽量延迟抓取时间,给足够的时间进行网页加载,尽可能加载出更多信息,才能采集到更多。
方法是:
1 ...

时间是绝对足够的。。。网速很快,我都看到出内容了,就是在加载出来后就停止了。后面的内容已经加载出来了,但是规则停止,不继续向下滚屏抓取。。。我都试了半小时好多个规则了。。。
举报 使用道具
kkkingwing 金牌会员 发表于 2017-5-18 17:55:22 | 显示全部楼层
ym 发表于 2017-5-18 17:40
你可以尽量延迟抓取时间,给足够的时间进行网页加载,尽可能加载出更多信息,才能采集到更多。
方法是:
1 ...

主题名是:小时榜  ,可以帮我看看吗?(要先一直往下拉,出现底部的“查看更多"再看后续分析 )
举报 使用道具
kkkingwing 金牌会员 发表于 2017-5-18 17:57:13 | 显示全部楼层
ym 发表于 2017-5-18 17:40
你可以尽量延迟抓取时间,给足够的时间进行网页加载,尽可能加载出更多信息,才能采集到更多。
方法是:
1 ...

嗯。。。对了,现在我的打数机参数是:滚屏15,速度-1到3都试过,这些我知道影响什么。打数机参数应该没有影响,是规则方面的问题。看晕了都。。。
举报 使用道具
kkkingwing 金牌会员 发表于 2017-5-18 18:05:43 | 显示全部楼层
ym 发表于 2017-5-18 17:40
你可以尽量延迟抓取时间,给足够的时间进行网页加载,尽可能加载出更多信息,才能采集到更多。
方法是:
1 ...

或者可以帮我解答一下,为什么我用连续动作的方法去“单击”“查看更多“,完成这步骤,规则就不再往下进行抓取,直接退出了吗
举报 使用道具
Fuller 管理员 发表于 2017-5-18 18:25:24 | 显示全部楼层
kkkingwing 发表于 2017-5-18 18:05
或者可以帮我解答一下,为什么我用连续动作的方法去“单击”“查看更多“,完成这步骤,规则就不再往下进 ...

不能用连续动作点击“查看更多”,因为连续动作执行以后就不能自动滚屏了,只能用连续动作中的滚屏。所以,要在爬虫路线里面定义点击“查看更多”,跟点击“下一页”的原理一样

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 02:04