19 28617

采集数据—常见问题导航

ym 于 2015-10-23 14:29 发表 置顶 [复制链接]
本帖最后由 ym 于 2016-2-1 14:21 编辑

常见问题 > 采集数据—常见问题导航

注意:超时时长一般不要修改 ,这是GooSeeker的独特优势,跟大型网络爬虫(比如,百度)一样,具有自适应算法。



举报 使用道具
| 回复

共 19 个关于本帖的回复 最后回复于 2019-11-1 16:15

wangyong 版主 发表于 2019-11-1 16:15:52 | 显示全部楼层
举报 使用道具
cerulean 新手上路 发表于 2017-12-19 22:18:51 | 显示全部楼层
打包后下载了显示压缩文件已损坏请问是什么问题?
举报 使用道具
Fuller 管理员 发表于 2017-12-20 09:18:48 | 显示全部楼层
cerulean 发表于 2017-12-19 22:18
打包后下载了显示压缩文件已损坏请问是什么问题?

可以重新下载,可以下载很多次,下载的时候不要用迅雷等下载工具,用浏览器自己的下载功能就可以了。有时候有些杀毒软件会对下载的内容做修改,会造成文件损坏
举报 使用道具
liuxing123 初级会员 发表于 2019-3-16 19:02:33 | 显示全部楼层
在分页采集时如何只采集部分页面
举报 使用道具
liuxing123 初级会员 发表于 2019-3-16 20:35:54 | 显示全部楼层
两种信息在同一列,如何分开采集
举报 使用道具
Fuller 管理员 发表于 2019-3-16 22:07:50 | 显示全部楼层
liuxing123 发表于 2019-3-16 19:02
在分页采集时如何只采集部分页面

在单搜或者集搜这种手工启动的模式下,只能用眼睛看着,采集够了就关闭DS打数机窗口。而在爬虫群模式下,可以设置翻页次数,参看《如何运行爬虫群》,有个参数“同一线索内翻页次数”
举报 使用道具
Fuller 管理员 发表于 2019-3-16 22:10:31 | 显示全部楼层
liuxing123 发表于 2019-3-16 20:35
两种信息在同一列,如何分开采集

如果在同一个text节点中,还想分开,要看具体情况,如果两种信息之间有特定的分隔符,才好分开:
1,方法一:用自定义xpath函数,substring-after()和substring-before()
2,方法二:采集完成后,导出excel格式的结果,用excel的分列方式分成两列

我倾向于第二种方式。excel有各种强大的函数,可以做很多数据清洗、数据分析等运算
举报 使用道具
liuxing123 初级会员 发表于 2019-3-17 08:36:42 | 显示全部楼层
请问一下单搜和集搜的区别是什么?谢谢!
举报 使用道具
Fuller 管理员 发表于 2019-3-17 09:13:11 | 显示全部楼层
liuxing123 发表于 2019-3-17 08:36
请问一下单搜和集搜的区别是什么?谢谢!

单搜:只有一个DS打数机窗口,如果运行任务A,他就把这个窗口占了,如果同时点击任务B的单搜,B就会把A挤出去
集搜:20个DS打数机窗口可以同时运行。在左栏任务列表中,总共能显示20行任务,给每一行对应了一个集搜窗口,所以,可以同时运行20个集搜窗口,让他们的任务同时运行
举报 使用道具
liuxing123 初级会员 发表于 2019-3-17 09:25:48 | 显示全部楼层
请问,在没有“下一页”标记的页面,如,只有三页的情况下,翻页采集的翻页记号如何选取?谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 12:59