集搜客GooSeeker网络爬虫

标题: 旗舰版购买能不能实现啊? [打印本页]

作者: Givent    时间: 2016-12-10 10:10
标题: 旗舰版购买能不能实现啊?
求教复杂的瀑布流网页信息采集
http://www.gooseeker.com/doc/thread-4892-1-1.html
(出处: 集搜客GooSeeker网络爬虫)

这是我当时的帖子,说购买旗舰版可以实现,可是你们技术人员跟我说,旗舰版也只能抓取20条。到底什么情况啊?这个网页能不能抓取啊?能不能给个统一权威的回答啊?


作者: Fuller    时间: 2016-12-10 10:47
我找技术人员确认一下,也许是他测试过,如果是这个网站做了限制,买什么版都抓不了,但是,如果人工浏览能看到内容,那么软件就有办法采集下来
作者: Fuller    时间: 2016-12-10 10:49
刚才我确认过了,这个网页上有个滚动条,要等下个版本,下周就发布了,旗舰版增加这个内部滚动条滚屏功能
作者: Givent    时间: 2016-12-10 13:39
Fuller 发表于 2016-12-10 10:49
刚才我确认过了,这个网页上有个滚动条,要等下个版本,下周就发布了,旗舰版增加这个内部滚动条滚屏功能 ...

好的,下周几发布,到时你帮我确认下真的可以采集,我就买了,急死了!

作者: Fuller    时间: 2016-12-14 19:09
Givent 发表于 2016-12-10 13:39
好的,下周几发布,到时你帮我确认下真的可以采集,我就买了,急死了!
...

8.1.0版本增加了滚轮功能,alpha测试已经完成,正式发布是本周五,现在可以申请beta测试版了

作者: Fuller    时间: 2016-12-16 10:38
[attach]3694[/attach]

滚轮动作的定义方法特别简单
1)旗舰版用户可以点击动作类型最右边的那个单选按钮,点击后,动作类型的下拉菜单点亮。选择“滚轮”
2)定位表达式 是一个网页区域,比如,一个DIV,划定这个区域后,鼠标就会在它上面滚轮,对于这个天天有货这个案例,定位到哪个iframe就行了,这个iframe包含了整个货车信息列表,xpath是//*[@id='page']
3)每次滚动像素数:这个跟滚动速度有关,一般来说,屏幕高度方向的总像素数是800左右,那么,这里填800,就能一次跳一屏,如果填写300,差不多跳3次才能滚完一整屏
4)总共滚动次数:如果想无限制滚动下去,就填写-1
5)高级参数根据需要填写,通常需要加一个额外延时,要等待新内容加载显示

另外,运行DS打数机的时候要注意,这个网站抓取的时候每次都要输入手机号,所以,DS打数机菜单 配置-》超时时长,设置长一点,保证足够的时间用手机获得验证码

作者: Fuller    时间: 2016-12-16 11:58
经过测试,我发现一个捷径,可以用更少的步骤
1)样本页面是这个:http://m.ttyhuo.com/m/truck-search.html  这是直接进入货车列表的网址

2)做两级规则,比如,主题名分别是:滚轮测试_3_fuller 和 滚轮测试_3_l2_fuller


3)在第一级,创建规则工作台抓取信息列表,连续动作工作台定义一个点击动作
[attach]3715[/attach]
点击每个货车的 title DIV位置,要注意,必须勾选“模拟点击”,因为模拟点击就是小幅度滚屏功能,一定要加上额外延时,我填了3秒

3)在第二级,创建规则工作台抓取详细数据,再定义个回退动作(也是旗舰版专有的动作),回退到第一级。一定要加上额外延时,我填了2秒
[attach]3717[/attach]

作者: Fuller    时间: 2016-12-16 12:01
一定要用V8.1.0版本,以前版本处理这种情况会造成内存泄露
作者: Givent    时间: 2016-12-16 13:11
Fuller 发表于 2016-12-16 11:58
经过测试,我发现一个捷径,可以用更少的步骤
1)样本页面是这个:http://m.ttyhuo.com/m/truck-search.htm ...

您好,我是要找货的界面,道理是一样的么?

作者: Fuller    时间: 2016-12-16 14:33
Givent 发表于 2016-12-16 13:11
您好,我是要找货的界面,道理是一样的么?

找货网址是哪个?

作者: Givent    时间: 2016-12-16 14:34
Fuller 发表于 2016-12-16 14:33
找货网址是哪个?

还是天天有货啊,他不是有找车和找货么?我要抓取那个找货的?另外为啥你给样本网址,点击不用输入验证码了啊

作者: Fuller    时间: 2016-12-16 14:39
是这个吗? http://m.ttyhuo.com/m/pkg-search.html

操作方法类似
作者: Givent    时间: 2016-12-16 14:41
Fuller 发表于 2016-12-16 14:39
是这个吗? http://m.ttyhuo.com/m/pkg-search.html

操作方法类似

对的,为啥你这样弄的网址都不用输入验证码了?因为他这个数据是更新的么?以后每天抓取直接点击这个网址就可以是么?

作者: Fuller    时间: 2016-12-16 15:23
Givent 发表于 2016-12-16 14:41
对的,为啥你这样弄的网址都不用输入验证码了?因为他这个数据是更新的么?以后每天抓取直接点击这个网址 ...

是的,这个网址是iframe内部的,你用的网址是外层的,做了登录限制,内层的这个不用登录

作者: Givent    时间: 2016-12-16 15:38
Fuller 发表于 2016-12-16 15:23
是的,这个网址是iframe内部的,你用的网址是外层的,做了登录限制,内层的这个不用登录
...

哥,我服了你。太牛了!另外,抓取时,会提升匹配失败,是不是延迟时间太短了
[attach]3736[/attach]

作者: yangyanxian    时间: 2017-1-7 22:37
Fuller 发表于 2016-12-10 10:49
刚才我确认过了,这个网页上有个滚动条,要等下个版本,下周就发布了,旗舰版增加这个内部滚动条滚屏功能 ...

现在旗舰版能用吗
作者: Fuller    时间: 2017-1-7 22:43
yangyanxian 发表于 2017-1-7 22:37
现在旗舰版能用吗

能用,你想采集什么网页?





欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/) Powered by Discuz! X3.2