本帖最后由 xandy 于 2017-5-31 16:47 编辑
集搜客GooSeeker网络爬虫有三个酷炫、狂拽、吊炸天的功能 然而很多小伙伴都不知道 能够辅助你们“升级打怪”的装备你们居然不知道! 所以今天我们一起聊聊这三个装备的功能和应用价值
连发弹仓 装备功能:在连续动作中可以大批量导入关键词,实现关键词自动搜索采集。 应用场景: - 大批量自动化执行关键词搜索和进行搜索引擎特征研究
- 百度关键词联想
- 淘宝蓝海挖掘
- 专利网大批量输入关键词采集专利信息
- 输入企业名称收集企业目录
- ... ...
操作界面:开通之后可以在会员中心相应的规则管理中给线索添加关键词(可容纳1万个词)。运行规则后,集搜客GooSeeker网络爬虫将自动执行这一批关键词搜索结果的采集。
飞掠模式 装备功能: - 无论网页怎样跳转和弹窗,都能自动把你需要的信息采集下来。
- 可以同时给多个网页做抓取规则,基础版的集搜客GooSeeker网络爬虫只能运行一个MS谋数台,飞掠模式的集搜客GooSeeker网络爬虫可以同时运行多个MS谋数台。打开多个窗口,多级规则可以互相参照着定义。
应用场景: - 每在网页上做个动作会弹出一个新的窗口,显示新的内容,并且这个窗口的URL网址是不变的;
- 用Python模拟post发送消息没有飞掠模式省时省力,因为post消息带上去的参数很多,包括认证信息、会话信息、cookie等等,很多很快就失效,还得一遍遍尝试和调整。
小贴士: - 如果一个超链接有独立的网址,那么既不用连续动作,也不用飞掠模式,像Google爬虫一样层级采集就行了。
- 飞掠模式功能是在GS浏览器实现的,集搜客网络爬虫的火狐插件版不支持飞掠模式。
操作界面:和MS谋数台不同的是,用飞掠模式做规则的DOM树窗口在下面,通过点击工具条上飞掠模式按钮,可以打开或关闭飞掠模式,这样使得网页的可视化范围更大了。获得装备:飞掠模式含GS浏览器上的飞掠标注和DS打数机上的飞掠抓取。 - 飞掠标注:同时定义多级采集规则(这是免费开放的功能)
- 飞掠抓取:启动爬虫,开始采数据(该功能购买后才能使用)
连续打码 装备功能:与第三方打码平台自动对接,采集过程中碰到验证码将自动进行打码。 应用场景:不少网站会用到验证码反爬技术,遇到这种网页就会采集失败。但是集搜客爬虫的“打码功能”可以解决出现验证码的情况,在采集网页的过程中破解各种输入型、算术型、滑块型验证码(滑块型需要定制),让爬虫能够持续有效地采到更多数据。 操作界面:连续打码要在MS谋数台的连续动作中进行定义,具体操作参看教程。
|
共 1 个关于本帖的回复 最后回复于 2016-11-11 12:10