主题名豆瓣线索1_1,  加载更多后,内容会叠加产生文件,我取最后一个就可以了,但是下级线索怎么爬,是不是也是根据上级不断叠加,不断重复,上级规则应该怎么做比较好对应下级规则

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-5-22 17:08

沙发
shengchengx 金牌会员 发表于 2018-5-22 16:44:57 | 只看该作者
不知道你的规则是不是删除了呢,找不到你的规则呢,你可以直接勾上下级线索就好,因为每次在点击加载更多之后它会生成一个新的xml,但是生成的线索不会有重复的,你也可以使用清楚老数据这个功能,可以看下这个教程《爬wish等瀑布流网站时使用清除老数据功能》
举报 使用道具
板凳
zhenghy 中级会员 发表于 2018-5-22 17:03:31 | 只看该作者
主题名是豆瓣剧情1_1,刚才写错了
举报 使用道具
地板
zhenghy 中级会员 发表于 2018-5-22 17:05:00 | 只看该作者
你再帮我看一下,主题名豆瓣剧情1_2,测试可以,怎么爬取失败
举报 使用道具
5#
shengchengx 金牌会员 发表于 2018-5-22 17:08:43 | 只看该作者
zhenghy 发表于 2018-5-22 17:05
你再帮我看一下,主题名豆瓣剧情1_2,测试可以,怎么爬取失败

你看下打数机下面的线索编号,加载下错误编号看看,应该是规则的不适应导致的,定位的话最好不要用id来做。你检查下规则看下。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-27 09:36