本帖最后由 ym 于 2016-2-1 14:21 编辑

常见问题 > 采集数据—常见问题导航

注意:超时时长一般不要修改 ,这是GooSeeker的独特优势,跟大型网络爬虫(比如,百度)一样,具有自适应算法。



举报 使用道具
| 回复

共 19 个关于本帖的回复 最后回复于 2019-11-1 16:15

来自 20#
wangyong 版主 发表于 2019-11-1 16:15:52 | 只看该作者
举报 使用道具
沙发
cerulean 新手上路 发表于 2017-12-19 22:18:51 | 只看该作者
打包后下载了显示压缩文件已损坏请问是什么问题?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-12-20 09:18:48 | 只看该作者
cerulean 发表于 2017-12-19 22:18
打包后下载了显示压缩文件已损坏请问是什么问题?

可以重新下载,可以下载很多次,下载的时候不要用迅雷等下载工具,用浏览器自己的下载功能就可以了。有时候有些杀毒软件会对下载的内容做修改,会造成文件损坏
举报 使用道具
地板
liuxing123 初级会员 发表于 2019-3-16 19:02:33 | 只看该作者
在分页采集时如何只采集部分页面
举报 使用道具
5#
liuxing123 初级会员 发表于 2019-3-16 20:35:54 | 只看该作者
两种信息在同一列,如何分开采集
举报 使用道具
6#
Fuller 管理员 发表于 2019-3-16 22:07:50 | 只看该作者
liuxing123 发表于 2019-3-16 19:02
在分页采集时如何只采集部分页面

在单搜或者集搜这种手工启动的模式下,只能用眼睛看着,采集够了就关闭DS打数机窗口。而在爬虫群模式下,可以设置翻页次数,参看《如何运行爬虫群》,有个参数“同一线索内翻页次数”
举报 使用道具
7#
Fuller 管理员 发表于 2019-3-16 22:10:31 | 只看该作者
liuxing123 发表于 2019-3-16 20:35
两种信息在同一列,如何分开采集

如果在同一个text节点中,还想分开,要看具体情况,如果两种信息之间有特定的分隔符,才好分开:
1,方法一:用自定义xpath函数,substring-after()和substring-before()
2,方法二:采集完成后,导出excel格式的结果,用excel的分列方式分成两列

我倾向于第二种方式。excel有各种强大的函数,可以做很多数据清洗、数据分析等运算
举报 使用道具
8#
liuxing123 初级会员 发表于 2019-3-17 08:36:42 | 只看该作者
请问一下单搜和集搜的区别是什么?谢谢!
举报 使用道具
9#
Fuller 管理员 发表于 2019-3-17 09:13:11 | 只看该作者
liuxing123 发表于 2019-3-17 08:36
请问一下单搜和集搜的区别是什么?谢谢!

单搜:只有一个DS打数机窗口,如果运行任务A,他就把这个窗口占了,如果同时点击任务B的单搜,B就会把A挤出去
集搜:20个DS打数机窗口可以同时运行。在左栏任务列表中,总共能显示20行任务,给每一行对应了一个集搜窗口,所以,可以同时运行20个集搜窗口,让他们的任务同时运行
举报 使用道具
10#
liuxing123 初级会员 发表于 2019-3-17 09:25:48 | 只看该作者
请问,在没有“下一页”标记的页面,如,只有三页的情况下,翻页采集的翻页记号如何选取?谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-21 22:54