是这样的 我想采取若干网页上的政策文本内容 但是每一个网页(即对应每一个政策)的字符数过大 如果直接采整个网页的话 会超过excel单元格的字符数限制(32000多字符) 多出来的部分就无法显示在excel表里 上次我问了工作人员 他给我出了个主意 就是不要把一整个政策文件算作一个字段 由于那个网页 每一行句子都是一个DIV节点 就可以把每个div节点算成一个字段 这样excel的每个单元格只显示一句话就没有这个问题了 我试了 效果还不错然后 又有一个问题就是 我在一个新的网站上收集数据 这个网页的构造好像和原来的那个有些区别 我用样例复制的方法 想把第一行句子作为样例1 第二行句子作为样例2 但是这个网页测试下来 就只有第一行句子被抓取了
规则名:二条例收集第二级
PS:偏好id和偏好class都尝试过了
|
|
|
|
|
共 4 个关于本帖的回复 最后回复于 2023-11-13 13:10