南 华 早 报 官网 scmp.com在翻墙的情况下无法爬取全文,拿一个网页测试时可以爬取全文,批量爬取时只能爬取“read the article”几行字,已经做过滚屏也没有用,请问应该如何解决?规则名scmp全文爬取
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-1-8 23:15

沙发
Fuller 管理员 发表于 2020-1-8 21:42:17 | 只看该作者


我测试了一下,采集挺好的。还有哪个网址采集不到内容?

主要检查这些方面:
1,是否设置了关键内容
2,采集全文的规则,往往采集内容范围很大,所以有时候即使没有实际内容显示出来,那个范围对应的html节点还是有的,所以,设置了关键内容也会误判,这时候就要放慢采集速度:
a,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“延迟时间”
b,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“滚屏次数”,可以大一点,花费的时间就更长
c,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“滚屏速度”,设置成负数,值越小越慢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
CassieMouse 高级会员 发表于 2020-1-8 23:15:20 | 只看该作者
Fuller 发表于 2020-1-8 21:42
我测试了一下,采集挺好的。还有哪个网址采集不到内容?

主要检查这些方面:

好的 我试一试
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-22 00:42