是这样的 我想采取若干网页上的政策文本内容 但是每一个网页(即对应每一个政策)的字符数过大 如果直接采整个网页的话 会超过excel单元格的字符数限制(32000多字符) 多出来的部分就无法显示在excel表里 上次我问了工作人员 他给我出了个主意 就是不要把一整个政策文件算作一个字段 由于那个网页 每一行句子都是一个DIV节点 就可以把每个div节点算成一个字段 这样excel的每个单元格只显示一句话就没有这个问题了 我试了 效果还不错然后 又有一个问题就是  我在一个新的网站上收集数据  这个网页的构造好像和原来的那个有些区别 我用样例复制的方法  想把第一行句子作为样例1 第二行句子作为样例2  但是这个网页测试下来 就只有第一行句子被抓取了
规则名:二条例收集第二级
PS:偏好id和偏好class都尝试过了

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2023-11-13 13:10

沙发
Fuller 管理员 发表于 2023-11-13 09:53:35 | 只看该作者
内容映射的时候,不要选择深层的html节点,选择更高层的,代表一整章的div做内容映射。如果这一大段超过excel的处理能力,到时候再细分。

用一整段做内容映射,就容易做规则。如下图:选择第一个红框的节点做内容映射,然后选择第一和第二个红框的节点分别做样例映射。定位偏好还是 偏好id


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
houndsan 初级会员 发表于 2023-11-13 11:17:10 | 只看该作者
Fuller 发表于 2023-11-13 09:53
内容映射的时候,不要选择深层的html节点,选择更高层的,代表一整章的div做内容映射。如果这一大段超过exc ...

但是您说的这个 上面的红框 他说 网页上没有相邻的模块
举报 使用道具
地板
houndsan 初级会员 发表于 2023-11-13 11:29:35 | 只看该作者
Fuller 发表于 2023-11-13 09:53
内容映射的时候,不要选择深层的html节点,选择更高层的,代表一整章的div做内容映射。如果这一大段超过exc ...

就像这样

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
Fuller 管理员 发表于 2023-11-13 13:10:42 | 只看该作者

dom树状结构收起来,光显示每一段那一级div。到底是不是找到了代表那一段的div,可以仔细看我的截图,上面有div的节点号,估计在你的电脑上也是一样的节点号
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-22 00:59