抓取网址  https://ju.taobao.com/tg/brand.htm?
建立了三层结构,第三层抓取具体内容,第二层做定位映射取代样例复制,因为每个方框的class都是brand-mid-v2,第一层做的是样例复制,因为class和id都在变,抓取不同的楼层信息,比如女装饰品,精品男士等等

规则.png (48.41 KB, 下载次数: 1061)

规则

规则
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2015-11-23 17:03

沙发
落翎 中级会员 发表于 2015-11-23 16:10:03 | 只看该作者
在群里面问了也看到了页面代码,找到了原因,需要下来才可以看到到后面的内容,在DS里面各种调滚屏参数,并没有什么卵用,

页面代码.png (63.45 KB, 下载次数: 1043)

页面代码

页面代码
举报 使用道具
板凳
落翎 中级会员 发表于 2015-11-23 16:12:26 | 只看该作者
于是用了新功能的那个滚屏动作,发现是可以抓到后面的内容,但是两个参数该怎么设定,小了会有海量重复内容,而且会特别的慢,大了会有很多内容抓取不到,那两个参数该怎么设定才可以做到,快速,不重不漏,或者小量重复,但是不能漏
举报 使用道具
地板
Fuller 管理员 发表于 2015-11-23 16:34:36 | 只看该作者
落翎 发表于 2015-11-23 16:10
在群里面问了也看到了页面代码,找到了原因,需要下来才可以看到到后面的内容,在DS里面各种调滚屏参数,并 ...

是不是没有打开允许图片?
举报 使用道具
5#
Fuller 管理员 发表于 2015-11-23 16:35:23 | 只看该作者
落翎 发表于 2015-11-23 16:12
于是用了新功能的那个滚屏动作,发现是可以抓到后面的内容,但是两个参数该怎么设定,小了会有海量重复内容 ...

连续滚屏的话,一定会出现重复内容,只能在导入excel或者导入数据库以后把重复内容过滤掉
举报 使用道具
6#
落翎 中级会员 发表于 2015-11-23 17:03:37 | 只看该作者
Fuller 发表于 2015-11-23 16:35
连续滚屏的话,一定会出现重复内容,只能在导入excel或者导入数据库以后把重复内容过滤掉 ...

那就是慢慢试探,怎么调参数吗,问题是组合太多了,一般哪个值开始条比较好,或者有什么判断依据
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 09:13