爬取的时候能不能设定爬取一定范围的内容?因为只有范围是同一的,里面的每一项有多有少不好写规则。

比如每家公司都有收入构成,但是每家公司的收入构成都不一样。



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-12-7 10:54

沙发
xandy 论坛元老 发表于 2016-12-7 10:45:46 | 只看该作者
可以给你发的截图中的“收入构成”做一个样例复制,这样不管多少行都可以抓下来。
样例复制参看教程:《采集列表数据
举报 使用道具
板凳
rhymi 初级会员 发表于 2016-12-7 10:51:28 | 只看该作者
xandy 发表于 2016-12-7 10:45
可以给你发的截图中的“收入构成”做一个样例复制,这样不管多少行都可以抓下来。
样例复制参看教程:《采 ...


有一些没有 有一些公司网页有的会出错么


举报 使用道具
地板
xandy 论坛元老 发表于 2016-12-7 10:54:50 | 只看该作者
rhymi 发表于 2016-12-7 10:51
有一些没有 有一些公司网页有的会出错么

不要将收入构成表里头的内容勾选“关键内容”,DS在抓取的过程中对设置了关键内容的字段是必抓的,所以像这种可能不会出现的字段不要设置关键内容,不然抓取会出错。
你可以就将“收入构成”这四个肯定会出现的字设置成关键内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 16:26