快捷导航
南 华 早 报 官网 scmp.com在翻墙的情况下无法爬取全文,拿一个网页测试时可以爬取全文,批量爬取时只能爬取“read the article”几行字,已经做过滚屏也没有用,请问应该如何解决?规则名scmp全文爬取
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-1-8 23:15

Fuller 管理员 发表于 2020-1-8 21:42:17 | 显示全部楼层
全文20200108213836.png

我测试了一下,采集挺好的。还有哪个网址采集不到内容?

主要检查这些方面:
1,是否设置了关键内容
2,采集全文的规则,往往采集内容范围很大,所以有时候即使没有实际内容显示出来,那个范围对应的html节点还是有的,所以,设置了关键内容也会误判,这时候就要放慢采集速度:
a,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“延迟时间”
b,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“滚屏次数”,可以大一点,花费的时间就更长
c,在DS打数机菜单上(爬虫群的话要在调度参数中设置)设置“滚屏速度”,设置成负数,值越小越慢
举报 使用道具
CassieMouse 中级会员 发表于 2020-1-8 23:15:20 | 显示全部楼层
Fuller 发表于 2020-1-8 21:42
我测试了一下,采集挺好的。还有哪个网址采集不到内容?

主要检查这些方面:

好的 我试一试
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 在限定论域的时候,为什么“任何一个”表示
  • 数理逻辑是讲什么的?
  • 内容分析法中的抽样
  • 豆瓣电影的情感分析
  • 一本在线图书——社交网络分析介绍

热门用户

GMT+8, 2020-2-25 19:51