设置各种翻页都只能爬取第一页大佬求助要崩溃了

加为好友

本帖最后由 904915264 于 2020-7-25 01:15 编辑

规则名：豆瓣TOP250抓取
我感觉规则应该没错照着教程做的有谁能指点一下嘛
爬虫群和打数机都已经设置滚动次数大于2了依然爬下来的全部文件都是第一页的内容
网站：https://movie.douban.com/top250?filter=

Fuller · 发表于 2020-7-25 10:31:00

翻页记号这里不能用一串空格，要换一个翻页记号

Fuller · 发表于 2020-7-25 10:33:21

应该使用这个有内容的text节点

904915264 · 发表于 2020-7-25 11:18:24

Fuller 发表于 2020-7-25 10:33
应该使用这个有内容的text节点

可以翻页了谢谢大佬还有另一个问题是我从会员中心导出的数据没有转成excel 而是变成zip然后打开时显示未知文件格式怎么办（用wps打开显示是其他数据）

904915264 · 发表于 2020-7-25 11:46:56

Fuller 发表于 2020-7-25 10:33
应该使用这个有内容的text节点

可以了谢谢谢谢啊原来要使用gooseeker的浏览器来下载

Fuller · 发表于 2020-7-25 12:08:38

904915264 发表于 2020-7-25 11:46
可以了谢谢谢谢啊原来要使用gooseeker的浏览器来下载

其实用各种浏览器都可以下载，在下载文件方面，集搜客浏览器不太稳定。你用其他浏览器下载下来出现问题，可能浏览器中安装的某些插件对文件做了改动，比如，杀毒软件在浏览器中安装的插件。

904915264 · 发表于 2020-7-27 17:16:38

Fuller 发表于 2020-7-25 12:08
其实用各种浏览器都可以下载，在下载文件方面，集搜客浏览器不太稳定。你用其他浏览器下载下来出现问题， ...

请问一下采集时很多网页显示匹配失败是怎么回事我用了二级网页的规则大佬再帮我看下吧谢谢了
二级任务名：豆瓣TOP250电影详情抓取
一级人任务名：豆瓣TOP250抓取

shenzhenuser1 · 发表于 2020-7-27 18:08:35

这个规则直接加载样本页面不会报错，应该是适应度不够强

解决方法是：
1，先给选择图里所示的div节点给整理箱顶节点做上定位标志映射

2，点击整理箱中的定位按钮，选择偏好class，保存规则重新采集

设置各种翻页都只能爬取第一页大佬求助要崩溃了

共 7 个关于本帖的回复最后回复于 2020-7-27 18:08

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

设置各种翻页都只能爬取第一页 大佬求助 要崩溃了

共 7 个关于本帖的回复 最后回复于 2020-7-27 18:08

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

设置各种翻页都只能爬取第一页大佬求助要崩溃了

共 7 个关于本帖的回复最后回复于 2020-7-27 18:08