本帖最后由 904915264 于 2020-7-25 01:15 编辑

规则名:豆瓣TOP250抓取
我感觉规则应该没错 照着教程做的 有谁能指点一下嘛
爬虫群和打数机都已经设置滚动次数大于2了 依然爬下来的全部文件都是第一页的内容
网站:https://movie.douban.com/top250?filter=
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-7-27 18:08

沙发
Fuller 管理员 发表于 2020-7-25 10:31:00 | 只看该作者


翻页记号这里不能用一串空格,要换一个翻页记号

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Fuller 管理员 发表于 2020-7-25 10:33:21 | 只看该作者


应该使用这个有内容的text节点

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
904915264 新手上路 发表于 2020-7-25 11:18:24 | 只看该作者
Fuller 发表于 2020-7-25 10:33
应该使用这个有内容的text节点

可以翻页了 谢谢大佬还有另一个问题是我从会员中心导出的数据没有转成excel 而是变成zip然后打开时显示未知文件格式 怎么办(用wps打开显示是其他数据)





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
904915264 新手上路 发表于 2020-7-25 11:46:56 | 只看该作者
Fuller 发表于 2020-7-25 10:33
应该使用这个有内容的text节点

可以了谢谢谢谢啊   原来要使用gooseeker的浏览器来下载
举报 使用道具
6#
Fuller 管理员 发表于 2020-7-25 12:08:38 | 只看该作者
904915264 发表于 2020-7-25 11:46
可以了谢谢谢谢啊   原来要使用gooseeker的浏览器来下载

其实用各种浏览器都可以下载,在下载文件方面,集搜客浏览器不太稳定。你用其他浏览器下载下来出现问题,可能浏览器中安装的某些插件对文件做了改动,比如,杀毒软件在浏览器中安装的插件。
举报 使用道具
7#
904915264 新手上路 发表于 2020-7-27 17:16:38 | 只看该作者
Fuller 发表于 2020-7-25 12:08
其实用各种浏览器都可以下载,在下载文件方面,集搜客浏览器不太稳定。你用其他浏览器下载下来出现问题, ...

请问一下采集时很多网页显示匹配失败是怎么回事   我用了二级网页的规则  大佬再帮我看下吧谢谢了
二级任务名:豆瓣TOP250电影详情抓取
一级人任务名:豆瓣TOP250抓取

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
wangyong 版主 发表于 2020-7-27 18:08:35 | 只看该作者

这个规则直接加载样本页面不会报错,应该是适应度不够强

解决方法是:
1,先给选择图里所示的div节点给整理箱顶节点做上定位标志映射


2,点击整理箱中的定位按钮,选择偏好class,保存规则重新采集

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-21 23:33