问题描述:
爬取的网页信息是一个滚动的排行榜,测试的时候所有的用户信息都能爬取下来,但是最终的爬取信息却不是完整的信息。
比如榜单有1000个用户信息,可能就只有100个用户信息被爬取下来,请问是什么原因?


1。爬取周榜信息,主要就是采集图片显示的排名、用户名、收益、命中率。



2.测试数据的时候,没问题,排行榜的所有用户信息都能被完整爬取!



3爬取下来的xml文件用记事本打开,直接从排名可以看出只有100个用户的信息。


请问应该如何解决能一次性采集全,这张滚动榜单的所有用户信息,并完整显示在xml文件里面,而不是测试的时候才正常。

举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2018-4-13 09:25

沙发
cluetest21 初级会员 发表于 2018-4-12 21:03:50 | 只看该作者
你没有给出具体网址或主题名,所以只能给出常规的建议。
这张榜单是不是需要往下滚屏多次才能显示出全部内容?如果是,那么需要把DS打数机菜单项: 滚屏次数 设置成大于0 的整数。具体的值和页面需要滚屏多少次相关及你的网速相关,可以设置成2, 或者10, 或者30
举报 使用道具
板凳
maomao 论坛元老 发表于 2018-4-12 21:06:26 | 只看该作者
应该是DS打数机滚屏次数不够。在DS打数机的菜单中找  配置-》滚屏参数。看看滚屏次数是多少。>0才滚屏,如果滚动次数不够,可以大一些,设置成10试试
举报 使用道具
地板
maia_2017 初级会员 发表于 2018-4-12 22:07:40 | 只看该作者
cluetest21 发表于 2018-4-12 21:03
你没有给出具体网址或主题名,所以只能给出常规的建议。
这张榜单是不是需要往下滚屏多次才能显示出全部内 ...

网址是www.famulei.com/bet_ranking,主题名就是我的伐木累榜单。这张榜单是需要往下滚屏多次才能看到全部内容。
我刚才调节滚屏参数为10,结果还是一样的只能采集到100个用户的数据。

举报 使用道具
5#
maia_2017 初级会员 发表于 2018-4-12 22:10:14 | 只看该作者
maomao 发表于 2018-4-12 21:06
应该是DS打数机滚屏次数不够。在DS打数机的菜单中找  配置-》滚屏参数。看看滚屏次数是多少。>0才滚屏,如 ...

设置了结果是一样的。把测试集的输出数据复制到word文档,有没有方法再把word文档转成xml格式的文档。因为我最后是想得到一个excel格式的文档。
举报 使用道具
6#
cluetest21 初级会员 发表于 2018-4-12 22:12:46 | 只看该作者
这个不是整个页面滚屏,是特定的区域滚屏,似乎要使用旗舰版的滚轮滚屏功能才行。
我不是很确定,明天和技术确认一下
举报 使用道具
7#
maia_2017 初级会员 发表于 2018-4-12 22:41:23 | 只看该作者
cluetest21 发表于 2018-4-12 22:12
这个不是整个页面滚屏,是特定的区域滚屏,似乎要使用旗舰版的滚轮滚屏功能才行。
我不是很确定,明天和技 ...

那可能是这种情况,之前在群里问过技术人员,好像他也是这样回复我的。
但是当时是直接复制的测试里面输出的数据然后粘贴到word文档,
但是现在需要转成excel格式,在会员规则管理导入数据xml转excel,是只能识别用gooseeker爬取下来的xml文档是不是?
请问有没有什么办法把测试集里头的数据转换成excel格式呢?

测试数据集

举报 使用道具
8#
Dave希泽 初级会员 发表于 2018-4-12 23:33:56 | 只看该作者
你可以试着,把这些数据复制下来,黏贴到记事本中,存成XML文件,然后直接用EXCEL打开这个XML文件
举报 使用道具
9#
maia_2017 初级会员 发表于 2018-4-13 09:02:27 | 只看该作者
Dave希泽 发表于 2018-4-12 23:33
你可以试着,把这些数据复制下来,黏贴到记事本中,存成XML文件,然后直接用EXCEL打开这个XML文件 ...

请问怎么txt或者word转成xml文件,求指点,谢谢。
我是把测试部分的内容粘贴到txt文档里面了。

举报 使用道具
10#
Fuller 管理员 发表于 2018-4-13 09:25:01 | 只看该作者
maia_2017 发表于 2018-4-13 09:02
请问怎么txt或者word转成xml文件,求指点,谢谢。
我是把测试部分的内容粘贴到txt文档里面了。

把测试部分拷到记事本。存完文件后,把文件名后缀改成xml,再用excel打开xml文件
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 06:36