GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
0
13832
如何让翻页抓取和分层抓取同时运行呢
Fuller
于 2015-10-12 00:07
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
Fuller
积分
23568
精华
0
威望
6494
金钱
6
最后登录 2024-12-18
加为好友
发送消息
访问家园
问
:如何让翻页抓取和分层抓取同时运行呢?
答
:用集搜按钮,或者用crontab.xml(参看:
http://www.gooseeker.com/doc/article-112-1.html
)
问
:翻页只能抓去到游记的题目,但是还需要题目下的游记内容和游记评论
答
:集搜介绍:
http://www.gooseeker.com/doc/article-70-1.html
做了两级抓取没有? 参考:
http://www.gooseeker.com/doc/article-75-1.html
什么是多级抓取,参考这个:
http://www.gooseeker.com/cn/node ... v4/multilayers.html
问
:还没做 但是明白 多级抓取是在一个页面上吧?还要翻页怎么办呢
答
:翻页是第一级做的事情,那时候不会抓取第二级的内容,只是把第二级的网址抓下来。第二级要单独启动,不会自动从第一级过渡到第二级
问
:那怎么办呢?是不是就不要再翻页了,就手动每一页做多级抓取?
答
:不考虑第二级,只有翻页,做过没有?
问
:如果做多级抓取的同时不能翻页,那我就不需要做翻页了呀。您的意思是先把翻页做好了再来请教是吧?
答
:这些基本抓取能力GooSeeker都有,你不用担心,只需要一步步去尝试更多能力。做好翻页,测试好了,在第一级加上第二级只是勾一个checkbox设置一下就可以了。
大型的网络爬虫,都是各级分开的,可以运行在不同的计算机上,甚至可以放在不同地方,不会一口气从第一级爬到第二级,他们是分开的,第一级只是给第二级准备网址。第二级在哪运行,什么时候运行,第一级是管不到的
如何
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
收藏
0
转播
支持
0
反对
0
相关帖子
•
Python 程序如何高效地调试?
•
小白问题,采集到的数据如何发布到网站里面去?
•
UL 节点中的LI 如何采集!
•
同一个网页中的不同列表该如何采集
•
多线索结果如何区分?
•
提交式数据该如何采集
•
提交类型的连续动作如何操作
•
下拉框如何定位当前选中的option呢?
•
如何手工补上网址的域名部分?
•
如何设置周期定时采集?
举报
使用道具
|
回复
共 0 个关于本帖的回复 最后回复于 2015-10-12 00:07
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
在网页片段内直观标注——以B站评论采集为
利用AI阅读和分析文本:使用COZE建设游记文
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
集搜客文本分词标注工具(V1版)
3
怎样使用快捷采集(以采集京东评论为例)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10574
访问主页>>
wangyong
帖子:1713
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2024-12-19 07:19
快速回复
快速发帖
返回顶部
返回列表
共 0 个关于本帖的回复 最后回复于 2015-10-12 00:07