抓取网址  https://ju.taobao.com/tg/brand.htm?
建立了三层结构,第三层抓取具体内容,第二层做定位映射取代样例复制,因为每个方框的class都是brand-mid-v2,第一层做的是样例复制,因为class和id都在变,抓取不同的楼层信息,比如女装饰品,精品男士等等

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2015-11-23 17:03

沙发
落翎 中级会员 发表于 2015-11-23 16:10:03 | 只看该作者
在群里面问了也看到了页面代码,找到了原因,需要下来才可以看到到后面的内容,在DS里面各种调滚屏参数,并没有什么卵用,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
落翎 中级会员 发表于 2015-11-23 16:12:26 | 只看该作者
于是用了新功能的那个滚屏动作,发现是可以抓到后面的内容,但是两个参数该怎么设定,小了会有海量重复内容,而且会特别的慢,大了会有很多内容抓取不到,那两个参数该怎么设定才可以做到,快速,不重不漏,或者小量重复,但是不能漏
举报 使用道具
地板
Fuller 管理员 发表于 2015-11-23 16:34:36 | 只看该作者
落翎 发表于 2015-11-23 16:10
在群里面问了也看到了页面代码,找到了原因,需要下来才可以看到到后面的内容,在DS里面各种调滚屏参数,并 ...

是不是没有打开允许图片?
举报 使用道具
5#
Fuller 管理员 发表于 2015-11-23 16:35:23 | 只看该作者
落翎 发表于 2015-11-23 16:12
于是用了新功能的那个滚屏动作,发现是可以抓到后面的内容,但是两个参数该怎么设定,小了会有海量重复内容 ...

连续滚屏的话,一定会出现重复内容,只能在导入excel或者导入数据库以后把重复内容过滤掉
举报 使用道具
6#
落翎 中级会员 发表于 2015-11-23 17:03:37 | 只看该作者
Fuller 发表于 2015-11-23 16:35
连续滚屏的话,一定会出现重复内容,只能在导入excel或者导入数据库以后把重复内容过滤掉 ...

那就是慢慢试探,怎么调参数吗,问题是组合太多了,一般哪个值开始条比较好,或者有什么判断依据
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-18 12:43