你好,我在采集wish这个网站评论者昵称的时候,定义连续动作中的滚屏没有实现滚屏效果,采集道德数据都是重复的,然后就终止采集了。
一级规则名:调试1,样本网址https://www.wish.com/#cid=54cf3eaa434b880bb7abea05
二级规则名:调试2,样本网址https://www.wish.com/#cid=54cf3eaa434b880bb7abea05
调试1,是用来点击评论按钮。调试2进行滚屏和采集数据。
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2016-12-16 10:49

沙发
Fuller 管理员 发表于 2016-10-19 18:42:20 | 只看该作者
我测试了,确实是个问题,滚屏的时候,不是浮窗在滚屏,而是灰色背景中的商品在滚屏。这种情况应该是程序没有处理好,我已经转交给研发人员进行解决
举报 使用道具
板凳
15060503855 初级会员 发表于 2016-10-22 00:02:11 | 只看该作者
我重新做了wish1,wish2,wish3三级采集,wish1是进入商品列表采集产品链接,wish2点击评论按钮,wish3进入产品评论页进行采集评论者昵称,有的评论页好像可以滚动,但是最后抓取的数据严重重复。抓取了六万多条数据,去掉重复的只剩一千条,99%是重复的。这个是软件本身有待改善还是我编写规则有误?
举报 使用道具
地板
15060503855 初级会员 发表于 2016-10-22 00:03:47 | 只看该作者
Fuller 发表于 2016-10-19 18:42
我测试了,确实是个问题,滚屏的时候,不是浮窗在滚屏,而是灰色背景中的商品在滚屏。这种情况应该是程序没 ...

我重新做了wish1,wish2,wish3三级采集,wish1是进入商品列表采集产品链接,wish2点击评论按钮,wish3进入产品评论页进行采集评论者昵称,有的评论页好像可以滚动,但是最后抓取的数据严重重复。抓取了六万多条数据,去掉重复的只剩一千条,99%是重复的。这个是软件本身有待改善还是我编写规则有误?
举报 使用道具
5#
Fuller 管理员 发表于 2016-10-22 10:04:39 | 只看该作者
15060503855 发表于 2016-10-22 00:03
我重新做了wish1,wish2,wish3三级采集,wish1是进入商品列表采集产品链接,wish2点击评论按钮,wish3进 ...

就像我楼上的帖子说的,因为针对这个网站的滚屏功能失效了,无法滚屏抓更多评论,所以,你只抓到很少的数据。

针对这个网站需要修改程序
举报 使用道具
6#
15060503855 初级会员 发表于 2016-10-22 20:07:53 | 只看该作者
Fuller 发表于 2016-10-22 10:04
就像我楼上的帖子说的,因为针对这个网站的滚屏功能失效了,无法滚屏抓更多评论,所以,你只抓到很少的数 ...

这样啊,那是要等你们升级新功能吗?
举报 使用道具
7#
Fuller 管理员 发表于 2016-10-23 07:42:01 | 只看该作者
15060503855 发表于 2016-10-22 20:07
这样啊,那是要等你们升级新功能吗?

是的,要等新版本
举报 使用道具
8#
15060503855 初级会员 发表于 2016-10-24 17:46:46 | 只看该作者
Fuller 发表于 2016-10-23 07:42
是的,要等新版本

那还要多久才能更新啊?有什么方案可以解决吗?
举报 使用道具
9#
Fuller 管理员 发表于 2016-10-24 19:29:29 | 只看该作者
15060503855 发表于 2016-10-24 17:46
那还要多久才能更新啊?有什么方案可以解决吗?

如果特别需要这个功能,可以发起一个定制服务请求,我们就把开发计划重新调整一下,要收一定的加急费。如果需要,我们安排负责定制开发的同事联系你
举报 使用道具
10#
Fuller 管理员 发表于 2016-12-14 19:11:22 | 只看该作者
15060503855 发表于 2016-10-24 17:46
那还要多久才能更新啊?有什么方案可以解决吗?

这个问题已经在V8.1.0版本解决了,8.1.0版本增加了滚轮功能,alpha测试已经完成,正式发布是本周五,现在可以申请beta测试版了。不过这个功能是旗舰版
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 23:01