搜索关键词后,有两种二级页面,其中一种是有目标信息的页面,一种是报错的页面。我在同一在主题下做不同规则,一个抓取数据,一个用于返回。因为报错的页面较多,后期处理数据很麻烦,如何将两个规则抓取的数据分开,或只需其中一个抓取数据?


举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2019-2-20 14:32

沙发
maomao 论坛元老 发表于 2019-2-20 13:28:11 | 只看该作者
按这个https://www.gooseeker.com/doc/article-329-1.html教程,把抓下来的XML数据转成EXCEL,会自动一个规则一个EXCEL,自动分开
举报 使用道具
板凳
hiworld2001 初级会员 发表于 2019-2-20 13:36:24 | 只看该作者
maomao 发表于 2019-2-20 13:28
按这个https://www.gooseeker.com/doc/article-329-1.html教程,把抓下来的XML数据转成EXCEL,会自动一个规 ...

谢谢。除了这个方法,请问还有其他办法吗?因为错误页面远多于有效页面,如果能一开始就分开,处理效率会高很多。
举报 使用道具
地板
maomao 论坛元老 发表于 2019-2-20 14:05:38 | 只看该作者
对报错的页面做规则的时候,不用勾任何关键内容,会很快翻过去
举报 使用道具
5#
Fuller 管理员 发表于 2019-2-20 14:25:57 | 只看该作者
maomao 发表于 2019-2-20 14:05
对报错的页面做规则的时候,不用勾任何关键内容,会很快翻过去

不勾关键内容不行,会用来抓正确内容。就是靠关键内容来区分两个规则
举报 使用道具
6#
Fuller 管理员 发表于 2019-2-20 14:27:09 | 只看该作者
没有其他分开的方法了,需要入库以后才能分拣开
举报 使用道具
7#
hiworld2001 初级会员 发表于 2019-2-20 14:32:20 | 只看该作者
好吧,谢谢maomao、Fuller,本想走一下捷径的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 01:37