我建的一个规则osti_fy_year,网站只能查看1000条记录,但是直接访问url是可以看到全部的检索结果的。比如 https://www.osti.gov/search/publ ... 2/31/2000/page:1097。我直接修改最后的页码参数。是可以访问的。但是却总是抓取不到1000条以后的数据。请问是什么原因
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2022-4-24 15:16

沙发
Fuller 管理员 发表于 2022-4-24 09:31:05 | 只看该作者
我看到这个提示:


看样子需要登录。你在爬虫浏览器中先登录好,再运行爬虫。

如果1000页以后不能用自动翻页的方式。那么把每一页的网址构造出来,导入到爬虫任务中。可以在excel中构造,很容易就拼接好了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
xzhang 高级会员 发表于 2022-4-24 13:33:37 | 只看该作者
网站注册不成,只能采用你说的第二种方法,我也是把每页的url都在excel种构造出来了,然后添加到任务线索中。但是还是抓取50页后,以后的线索都是失败。页面可以打开,只是下载不下来数据,没有xml文件生成。只有50个xml文件。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
xzhang 高级会员 发表于 2022-4-24 13:40:24 | 只看该作者
我就是按照 把每一页的网址构造出来,导入到爬虫任务中,这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败,不能生成xml文件。
举报 使用道具
5#
xzhang 高级会员 发表于 2022-4-24 13:40:46 | 只看该作者
Fuller 发表于 2022-4-24 09:31
我看到这个提示:

我就是按照 把每一页的网址构造出来,导入到爬虫任务中,这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败,不能生成xml文件。
举报 使用道具
6#
Fuller 管理员 发表于 2022-4-24 15:16:08 | 只看该作者
可能有两个原因:
1. 网站有防爬:可能是网站看到访问的网址不是正常显示出来的那种,就对访问做了限制。那么可以换个IP再采集试试,如果换个IP有效,就确定是防爬2. 可能1000页以后显示不了内容:打开一个1000页以后的网页,观察内容是否显示出来了。如果没有显示内容,就会生成不了xml。如果有内容,那么可能是网页结构不一样,规则不适应。就要用规则分析一下这样的网页,如果有必要,再做一个同任务名、不同规则编号的规则
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-31 12:53