显示结果只有1000条记录抓取的问题

xzhang

我建的一个规则osti_fy_year,网站只能查看1000条记录，但是直接访问url是可以看到全部的检索结果的。比如 https://www.osti.gov/search/publ ... 2/31/2000/page:1097。我直接修改最后的页码参数。是可以访问的。但是却总是抓取不到1000条以后的数据。请问是什么原因

Fuller · 发表于 2022-4-24 09:31:05

我看到这个提示：

看样子需要登录。你在爬虫浏览器中先登录好，再运行爬虫。

如果1000页以后不能用自动翻页的方式。那么把每一页的网址构造出来，导入到爬虫任务中。可以在excel中构造，很容易就拼接好了

xzhang · 发表于 2022-4-24 13:33:37

网站注册不成，只能采用你说的第二种方法，我也是把每页的url都在excel种构造出来了，然后添加到任务线索中。但是还是抓取50页后，以后的线索都是失败。页面可以打开，只是下载不下来数据，没有xml文件生成。只有50个xml文件。

xzhang · 发表于 2022-4-24 13:40:24

我就是按照把每一页的网址构造出来，导入到爬虫任务中，这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败，不能生成xml文件。

xzhang · 发表于 2022-4-24 13:40:46

Fuller 发表于 2022-4-24 09:31
我看到这个提示：

我就是按照把每一页的网址构造出来，导入到爬虫任务中，这种方式做的。但是只能抓取下来50个xml文件。也就是1000条记录。后面的线索总是抓取失败，不能生成xml文件。

Fuller · 发表于 2022-4-24 15:16:08

可能有两个原因：
1. 网站有防爬：可能是网站看到访问的网址不是正常显示出来的那种，就对访问做了限制。那么可以换个IP再采集试试，如果换个IP有效，就确定是防爬2. 可能1000页以后显示不了内容：打开一个1000页以后的网页，观察内容是否显示出来了。如果没有显示内容，就会生成不了xml。如果有内容，那么可能是网页结构不一样，规则不适应。就要用规则分析一下这样的网页，如果有必要，再做一个同任务名、不同规则编号的规则

显示结果只有1000条记录抓取的问题

共 5 个关于本帖的回复最后回复于 2022-4-24 15:16

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

显示结果只有1000条记录抓取的问题

共 5 个关于本帖的回复 最后回复于 2022-4-24 15:16

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2022-4-24 15:16