第二级网页显示的内容不同,抓取总是失败怎么办?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-9-16 16:35

沙发
wangyong 版主 发表于 2015-9-16 16:35:39 | 只看该作者
本帖最后由 wangyong 于 2015-9-19 20:12 编辑

针对不同结构的网页,可以在第二级主题名下编写多个主题名相同,规则编号不同的抓取规则。比如已经做好的第二级规则主题名是,集搜客第二级,规则编号是:规则_1,但是还有和当前规则样本页不同的结构的第二级网页,这时再编写一个主题名为集搜客第二级,规则编号为规则_2的抓取规则就可以有效抓取两种结构的网页。
参看教程:http://www.gooseeker.com/cn/node ... v4/multischema.html
要注意的是:
做主题名相同规则编号不同的规则时,比较两种网页结构的不同,挑选两种网页独有的内容作为抓取内容并勾上关键内容,爬虫会由此来判断第一级抓取下来的线索是分配给第二级规则的规则_1还是规则_2。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 04:28