我抓取了这样的数据,不过车型,品牌,车系都没分,这个比较头疼。
QQ图片20151203102539.png
我想问采集时怎样能区分品牌类别?
QQ图片20151203102549.png


举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-12-3 10:38

ym 版主 发表于 2015-12-3 10:33:19 | 显示全部楼层
本帖最后由 ym 于 2015-12-3 10:36 编辑

方法1:你可以在规则里多建一个整理箱,用来抓品牌车系,然后手工把品牌车系的网址弄出来,然后导入到规则里,DS采数据时就能把品牌车系采到,而且数据文件里的fullpath字段就是采集的网址,根据这个也能区分,了解多个整理箱看http://www.gooseeker.com/doc/for ... 4%E7%90%86%E7%AE%B1
QQ图片20151203102600.png

方法2:你也可以看看连续动作的教程,可以设置点击,采集的时候就自动点击品牌车系 http://www.gooseeker.com/doc/article-141-1.html
举报 使用道具
Fuller 管理员 发表于 2015-12-3 10:38:28 | 显示全部楼层
如果你的意思是说一个字段的文字中既有品牌也有车系,要把这个字符串切开,我建议在excel中切,比较好切,因为是用空格隔开的。在抓取规则中分成3个抓取内容也可以,内容映射是一样的,但是要各自做自定义xpath用sub-string()函数,xpath的字符串函数很弱,所以,自定义xpath会写的很长
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 08:46