本帖最后由 904915264 于 2020-7-25 01:15 编辑

规则名:豆瓣TOP250抓取
我感觉规则应该没错 照着教程做的 有谁能指点一下嘛
爬虫群和打数机都已经设置滚动次数大于2了 依然爬下来的全部文件都是第一页的内容
网站:https://movie.douban.com/top250?filter=
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-7-27 18:08

Fuller 管理员 发表于 2020-7-25 10:31:00 | 显示全部楼层
翻页记号20200725-102933.png

翻页记号这里不能用一串空格,要换一个翻页记号
举报 使用道具
Fuller 管理员 发表于 2020-7-25 10:33:21 | 显示全部楼层
有内容的记号20200725-103243.png

应该使用这个有内容的text节点
举报 使用道具
904915264 新手上路 发表于 2020-7-25 11:18:24 | 显示全部楼层
Fuller 发表于 2020-7-25 10:33
应该使用这个有内容的text节点

可以翻页了 谢谢大佬还有另一个问题是我从会员中心导出的数据没有转成excel 而是变成zip然后打开时显示未知文件格式 怎么办(用wps打开显示是其他数据)





QQ图片20200725111605.png
QQ图片20200725111601.png
QQ图片20200725111555.png
举报 使用道具
904915264 新手上路 发表于 2020-7-25 11:46:56 | 显示全部楼层
Fuller 发表于 2020-7-25 10:33
应该使用这个有内容的text节点

可以了谢谢谢谢啊   原来要使用gooseeker的浏览器来下载
举报 使用道具
Fuller 管理员 发表于 2020-7-25 12:08:38 | 显示全部楼层
904915264 发表于 2020-7-25 11:46
可以了谢谢谢谢啊   原来要使用gooseeker的浏览器来下载

其实用各种浏览器都可以下载,在下载文件方面,集搜客浏览器不太稳定。你用其他浏览器下载下来出现问题,可能浏览器中安装的某些插件对文件做了改动,比如,杀毒软件在浏览器中安装的插件。
举报 使用道具
904915264 新手上路 发表于 2020-7-27 17:16:38 | 显示全部楼层
Fuller 发表于 2020-7-25 12:08
其实用各种浏览器都可以下载,在下载文件方面,集搜客浏览器不太稳定。你用其他浏览器下载下来出现问题, ...

请问一下采集时很多网页显示匹配失败是怎么回事   我用了二级网页的规则  大佬再帮我看下吧谢谢了
二级任务名:豆瓣TOP250电影详情抓取
一级人任务名:豆瓣TOP250抓取

QQ图片20200727171522.png
举报 使用道具
wangyong 版主 发表于 2020-7-27 18:08:35 | 显示全部楼层

这个规则直接加载样本页面不会报错,应该是适应度不够强

解决方法是:
1,先给选择图里所示的div节点给整理箱顶节点做上定位标志映射
豆瓣电影.png

2,点击整理箱中的定位按钮,选择偏好class,保存规则重新采集
选择偏好class.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:56