如题,求回答,谢谢大家!
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2015-10-14 15:38

wangyong 版主 发表于 2015-10-14 11:24:42 | 显示全部楼层
将选中的某一列做内容定位到整理箱中,程序会自动定位
举报 使用道具
minibomb 新手上路 发表于 2015-10-14 12:01:03 | 显示全部楼层
wangyong 发表于 2015-10-14 11:24
将选中的某一列做内容定位到整理箱中,程序会自动定位

您好,请问网页上如何单选择一列,他是一个table+txt的结构。
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-10-14 12:01:47 | 显示全部楼层
表格的采集是最容易的,因为在网页上已经是有结构的了。

还可以自动分别采集表头和内容

如果表格内容有单元格拆分,也能采集,需要定义嵌套的整理箱
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-10-14 12:05:55 | 显示全部楼层
具体要采集什么,可以把网址帖出来,如果不想花费时间去学会软件的每个功能的使用方法,可以发起私人定制,找人定义抓取规则,看这个网页的右栏: http://www.gooseeker.com/res/resource_home.html
举报 使用道具
minibomb 新手上路 发表于 2015-10-14 12:09:24 | 显示全部楼层
gooseeker_info 发表于 2015-10-14 12:05
具体要采集什么,可以把网址帖出来,如果不想花费时间去学会软件的每个功能的使用方法,可以发起私人定制, ...

您好
采集页面时:https://www.crunchbase.com/organization/58daojia,中间有一栏是investor,我只需要investor的名字那栏的信息,不需要rounds。请问应该怎么操作?多谢!
举报 使用道具
wangyong 版主 发表于 2015-10-14 12:38:09 | 显示全部楼层
minibomb 发表于 2015-10-14 12:01
您好,请问网页上如何单选择一列,他是一个table+txt的结构。

在谋数台中打开网址将想要抓取的那一列内容映射到整理箱中就行,不用考虑其他的,可以先参考一下入门教程对照着做就行。教程:http://www.gooseeker.com/doc/article-73-1.html
举报 使用道具
minibomb 新手上路 发表于 2015-10-14 13:27:07 | 显示全部楼层
wangyong 发表于 2015-10-14 12:38
在谋数台中打开网址将想要抓取的那一列内容映射到整理箱中就行,不用考虑其他的,可以先参考一下入门教程 ...

就是一个个列出来。变成投资者1 2 3那样?我想把这些都放在一个单位中,而且如果分开放的话,每一个公司的投资者数目不一样,怎么处理?
举报 使用道具
gooseeker_info 金牌会员 发表于 2015-10-14 14:52:46 | 显示全部楼层
minibomb 发表于 2015-10-14 13:27
就是一个个列出来。变成投资者1 2 3那样?我想把这些都放在一个单位中,而且如果分开放的话,每一个公司 ...

这个网页把信息切成好多块,因为每一块都有专门的语义,通常这个布局可以对应创建多个整理箱,比如,Investors那一块,专门创建一个整理箱,做一个样例复制映射,把多个投资者都采集下来,无论多少。

是否要合在一起,由后期处理程序自行决定
举报 使用道具
minibomb 新手上路 发表于 2015-10-14 15:04:55 | 显示全部楼层
gooseeker_info 发表于 2015-10-14 14:52
这个网页把信息切成好多块,因为每一块都有专门的语义,通常这个布局可以对应创建多个整理箱,比如,Inve ...

好的 我试试看~~多谢先~~ps 服务器有时候会连不上请问是什么原因
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 20:56