快捷导航
主题名豆瓣线索1_1,  加载更多后,内容会叠加产生文件,我取最后一个就可以了,但是下级线索怎么爬,是不是也是根据上级不断叠加,不断重复,上级规则应该怎么做比较好对应下级规则
db1.png db2.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-5-22 17:08

shengchengx 金牌会员 发表于 2018-5-22 16:44:57 | 显示全部楼层
不知道你的规则是不是删除了呢,找不到你的规则呢,你可以直接勾上下级线索就好,因为每次在点击加载更多之后它会生成一个新的xml,但是生成的线索不会有重复的,你也可以使用清楚老数据这个功能,可以看下这个教程《爬wish等瀑布流网站时使用清除老数据功能》
举报 使用道具
zhenghy 中级会员 发表于 2018-5-22 17:03:31 | 显示全部楼层
主题名是豆瓣剧情1_1,刚才写错了
举报 使用道具
zhenghy 中级会员 发表于 2018-5-22 17:05:00 | 显示全部楼层
你再帮我看一下,主题名豆瓣剧情1_2,测试可以,怎么爬取失败
举报 使用道具
shengchengx 金牌会员 发表于 2018-5-22 17:08:43 | 显示全部楼层
zhenghy 发表于 2018-5-22 17:05
你再帮我看一下,主题名豆瓣剧情1_2,测试可以,怎么爬取失败

你看下打数机下面的线索编号,加载下错误编号看看,应该是规则的不适应导致的,定位的话最好不要用id来做。你检查下规则看下。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 自动导入导出数据
  • 批量爬取蘑菇街商品价格、评论信息
  • 微博用户数据分析
  • 批量爬取苏宁商品价格、评论信息
  • 批量爬取亚马逊商品价格、评论信息

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-8-17 18:59