第一级规则名是:兰州网络问政终,第二级规则名称是:网络问政详细信息。
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-6-26 16:57

沙发
maomao 论坛元老 发表于 2020-6-26 13:52:08 | 只看该作者
是哪个规则失败?
举报 使用道具
板凳
Fuller 管理员 发表于 2020-6-26 16:57:55 | 只看该作者
第一级规则的问题:
做样例复制的时候,一定要选择第一条和第二条,不然采集不全
第二级页面很难采集,因为整个网页上没有合适的定位标志,由下图可见,生成的xpath都是从 /html这个根节点可是的,中间万一出现一个结构变化,就适配不了了。

我能想到的办法是:
方案1: 手工改写xpath,这个难度太大
方案2: 针对失败的网址,再做一个规则,在相同任务名下面可以做很多规则,每个规则适配一种页面。为了区分这些规则,任务名相同,但是规则编号要不一样


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 02:38