网址:https://steamcommunity.com/app/578080/reviews/?browsefilter=toprated&snr=1_5_reviews_
规则名:jbtou


问题有个两个:
1、steam商店的评论界面,div的框架比较特殊,有时候左右各有一个,有时会并排三个,按照我的设置只能竖着抓,会漏掉很多,请问该如何解决;
2、设置了滚屏和连续动作,但是依然只能抓取第一页的内容,页面是下拉加载,没有按钮。爬虫爬的时候,第一页的内容给我爬了两遍就停止了,请问设置妥当?


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-5-30 23:05

沙发
Fuller 管理员 发表于 2018-5-29 23:15:45 | 只看该作者
这个网站我加载不了,我有以下建议:
1,如果3个div有各自不同的class值或者id值,那么可以用上定位标志映射,定位标志映射可以精确规定网页范围,不管有3个还是2个div都不影响
2,如果有连续动作,那么DS打数机上设置的自动滚屏就失效了。如果还需要滚屏,那么需要在连续动作中定义滚屏动作
举报 使用道具
板凳
cavendish 新手上路 发表于 2018-5-30 21:15:47 | 只看该作者
Fuller 发表于 2018-5-29 23:15
这个网站我加载不了,我有以下建议:
1,如果3个div有各自不同的class值或者id值,那么可以用上定位标志映 ...

请问这样的设置对嘛?如果不对,请问应该如何设置。
(那个网址需要下载一个steam 社区305 v2的修复工具才能打开)



}SEF1L@5K0UYY@P`)SOLLJS.png (74.97 KB, 下载次数: 759)

}SEF1L@5K0UYY@P`)SOLLJS.png
举报 使用道具
地板
数据集 高级会员 发表于 2018-5-30 21:42:54 | 只看该作者
本帖最后由 数据集 于 2018-5-30 21:44 编辑
cavendish 发表于 2018-5-30 21:15
请问这样的设置对嘛?如果不对,请问应该如何设置。
(那个网址需要下载一个steam 社区305 v2的修复工具才 ...

滚屏动作设置没有问题,设置了滚屏动作,就要把打数机的自动滚屏关掉

1、如果网页是瀑布流形式滚不到底的滚屏,就设置滚屏动作进行滚屏,把打数机的自动滚屏关掉

2、网页的滚屏如果可以通过打数机的自动滚屏滚到底,那就可以把滚屏动作删除,把打数机的自动滚屏打开

举报 使用道具
5#
cavendish 新手上路 发表于 2018-5-30 23:04:36 | 只看该作者
Fuller 发表于 2018-5-29 23:15
这个网站我加载不了,我有以下建议:
1,如果3个div有各自不同的class值或者id值,那么可以用上定位标志映 ...

照您说的尝试了一下,能爬的数据反而更少了,但是完完全全变成竖着爬了,不像我之前那个无序,规则名没有改变,希望您能看一下
举报 使用道具
6#
cavendish 新手上路 发表于 2018-5-30 23:05:29 | 只看该作者
数据集 发表于 2018-5-30 21:42
滚屏动作设置没有问题,设置了滚屏动作,就要把打数机的自动滚屏关掉

1、如果网页是瀑布流形式滚不到底的 ...

就是这么做的,把打数机的滚屏我设置了0,速度4,但还是只能爬第一页的数据
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 09:31