一个网页采集的数据行数过多,想整合到同一个文本框里。一个网站就会导出超一百条数据; 不知道如何合并起来,还有关键字怎么取消,



里面有的不是关键字,不知道怎么分层,
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2021-10-20 10:34

沙发
aa761669165 新手上路 发表于 2021-10-19 19:42:42 | 只看该作者
1.我想一个网页抓的样例可以实现换行叠在一个数据里嘛?
2.关键词好像取消不了,不知道如何设定下级如图中的项目设定未非关键词,但是好像一个表只能设定这一栏,无法设置其他相同的列。
3.有些时候检验规则超时是不是就是因为关键词的原因,因为有的网页有些信息并没有所以一直在反复检索最后失败没有抓到。
举报 使用道具
板凳
aa761669165 新手上路 发表于 2021-10-19 19:58:31 | 只看该作者
图1中我只想采集文章样例里的标题,但是直接导致采了多行数据。
举报 使用道具
地板
Fuller 管理员 发表于 2021-10-19 22:13:11 | 只看该作者
你的规则名字是什么?发出来我好加载测试一下
举报 使用道具
5#
aa761669165 新手上路 发表于 2021-10-20 09:55:55 | 只看该作者
Fuller 发表于 2021-10-19 22:13
你的规则名字是什么?发出来我好加载测试一下

RE112
我在现在只能分开三次抓了,然后合并数据,这单独一个网站就会产生上百条数据,那轻轻松松会超过一万了..其实也就94个网站
举报 使用道具
6#
wangyong 版主 发表于 2021-10-20 10:08:56 | 只看该作者
aa761669165 发表于 2021-10-20 09:55
RE112
我在现在只能分开三次抓了,然后合并数据,这单独一个网站就会产生上百条数据,那轻轻松松会超过一 ...

你现在的规则里没有做样例复制,就是一个网页一条数据,做样例复制就会个网页多条数据,如果想要一个网页一条数据就把每个抓取 内容都做上映射,不做样例复制
举报 使用道具
7#
aa761669165 新手上路 发表于 2021-10-20 10:16:48 | 只看该作者
wangyong 发表于 2021-10-20 10:08
你现在的规则里没有做样例复制,就是一个网页一条数据,做样例复制就会个网页多条数据,如果想要一个网页 ...

我昨天晚上改了,因为我就导出95个网页,抓出他们的文章标题,按照样例复制导出来导致一个网页的文章标题会产生一百行数据,导出来整理也很麻烦,我现在只能分开单独抓然后在手动合并算了
举报 使用道具
8#
aa761669165 新手上路 发表于 2021-10-20 10:18:20 | 只看该作者
我的想法是想把样例复制抓的内容合并在一个容器里,就是图一中文章都挤在一行里,一个网站一行。感觉有点难度,所以我还是采取分开可能会效率高一点
举报 使用道具
9#
wangyong 版主 发表于 2021-10-20 10:25:29 | 只看该作者
aa761669165 发表于 2021-10-20 10:18
我的想法是想把样例复制抓的内容合并在一个容器里,就是图一中文章都挤在一行里,一个网站一行。感觉有点难 ...

样例复制采集到的就是分行,这只能分开采
举报 使用道具
10#
gz51837844 管理员 发表于 2021-10-20 10:34:25 | 只看该作者
抓下来之后,可以后续用其它工具做处理。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 20:39